10 lat funkcjonowania biblioteki cyfrowej w BUW to spory odcinek czasu, szczególnie gdy chcemy przyjrzeć się rozwiązaniom technicznym stosowanym w tym czasie. Technologie skanowania, obróbki obrazu oraz udostępniania internetowego stale zmieniają się, warto więc poznać ich historię. Dzięki spojrzeniu wstecz można lepiej zrozumieć z czego wynika obecny wygląd publikacji umieszczanych w e-bUW, zróżnicowanie ich formatów i jakości. Także plany na przyszłość, innowacje i usprawnienia, które chcielibyśmy wprowadzić będą lepiej ukierunkowane, jeśli wykorzystamy wiedzę z przeszłych doświadczeń.
W tym wpisie, który ukazuje się jako kolejny element naszego jubileuszowego cyklu, chciałbym się skupić na przedstawieniu rozwoju technicznej strony digitalizacji i udostępniania zeskanowanych publikacji w BUW. Tym samym postaram się nie poruszać kwestii kryteriów doboru publikacji do skanowania, dawnych i obecnych koncepcji biblioteki cyfrowej i jej roli dla czytelników związanych z Uniwersytetem, jak i tych zewnętrznych. Te wszystkie zagadnienia, które też oczywiście składają się na sukcesy (większe) i porażki (mniejsze) projektu biblioteki cyfrowej stanowią z pewnością świetny materiał na oddzielny wpis.
Początki
Biblioteka cyfrowa związana z BUW ma swoją prehistorię. Nie będę w obecnym wpisie cofał się aż do początków mikrofilmowania w naszej bibliotece, ale wygodnym punktem wyjścia będzie przełom lat 1999 i 2000, kiedy wprowadzaliśmy się do naszej obecnej siedziby przy ulicy Dobrej 56/66 na Powiślu. Wtedy pojawiły się w pracowni mikrofilmowej dwa urządzenia skanujące do mikrofilmów oraz jedno do oryginałów. Produkują one pliki TIFF albo czarno-białe (bitonalne) albo w skali szarości (8-bitowej czyli dającej możliwość zapisania 256 tonów szarości). Dobór głębi kolorów (a w tym wypadku trzeba by chyba mówić o „głębi szarości”) uzależniony był od charakteru skanowanego materiału: dla czysto „tekstowych” oryginałów stosowano tryb bitonalny, gdy pojawiały się ilustracje, a zwłaszcza zdjęcia przechodzono na tryb 8-bitowy. Co warto podkreślić urządzenia te do dzisiaj zachowały sprawność, choć używane są zdecydowanie rzadziej: obecnie obraz bitonalny czy w 8-bitowej skali szarości może mieć już znaczenie jedynie pomocnicze.
e-KCzP
Jednym z większych projektów zrealizowanych za pomocą tego sprzętu (lata 2003-2007) jest nadal dostępna w internecie e-Kolekcja Czasopism Polskich. W przypadku tych nielicznych tytułów, które jeszcze z różnych względów (najczęściej prawnoautorskich) nie zostały przeniesione do e-bUW można zobaczyć ówczesny sposób publikacji: publikowane były pliki GIF, bez warstwy tekstowej i z minimalną nawigacją wytwarzaną za pomocą odpowiedniego szablonu strony internetowej (plik HTML) oraz ze szczątkowymi metadanymi opisowymi. Mimo tych braków, jak na swoje czasy był to całkiem niezły sposób udostępniania kopii cyfrowych: zachowana została struktura czasopism, same pliki też są, jak na skany mikrofilmów, dobrej jakości, co zaś najważniejsze umożliwiono korzystanie z materiałów bibliotecznych trudno osiągalnych bez wychodzenia z domu.
Początki e-bUW
W latach 2005-2007 toczyły się już w BUW-ie prace koncepcyjne nad powołaniem biblioteki cyfrowej z prawdziwego zdarzenia. W związku z tym nasz park maszynowy powiększył się o skaner hybrydowy (2006). Było to pierwsze urządzenie umożliwiające wykonywanie kolorowych skanów w rozdzielczości 400 dpi, a równocześnie posiadające oświetlenie i kolumnę fotograficzną ‒ niezbędne do wykonywania mikrofilmów. Tym sposobem pojawiła się możliwość wykonywania skanów o akceptowalnej również i dzisiaj gęstości optycznej i głębi barwnej. Natomiast z możliwości jednoczesnego wykonywania mikrofilmów nigdy nie skorzystano na szerszą skalę, coraz bardziej koncentrując się na wykonywaniu kopii cyfrowych.
DjVu…
Równocześnie jako format prezentacyjny został wybrany DjVu. Postawiło to przed pracownikami ówczesnego Oddziału Zabezpieczenia i Konserwacji Zbiorów (w którego skład wchodziły osoby skanujące i przetwarzające skany) zupełnie nowe zadania: o ile bowiem konwersja do formatu GIF z plików bazowych nie nastręcza większych problemów, o tyle tworzenie plików DjVu stanowi zdecydowanie bardziej skomplikowany proces. Przede wszystkim wymaga dobrania odpowiedniego profilu konwersji na warstwy składowe (warstwa treści i warstwa tła), ponadto ‒ od samego początku publikowania w e-bUW rozpoczęliśmy dodawanie interaktywnych spisów treści (tzw. mapowanie) oraz warstwy tekstowej (tzw. warstwa OCR). Oczywiście pierwsze publikacje, do których skany bazowe pochodziły ze starego sprzętu można było konwertować domyślnym profilem bitonalnym, natomiast skany kolorowe za pomocą tzw. profilu foto, który zasadniczo nie wykonuje rozdzielenia obrazu na warstwy, a tylko koduje obraz za pomocą swoich algorytmów, choć zdecydowanie bardziej zoptymalizowanych niż te stosowane w standardowych plikach graficznych. Taki sposób przetwarzania nie wykorzystywał jednak w pełni możliwości dawanych przez format DjVu. Szybko zatem zaopatrzyliśmy się w oprogramowanie Document Express, które dawało możliwość wyboru profilu konwersji spośród predefiniowanych przez producenta. Nie umożliwiało wprawdzie dostosowywania sposobu separacji warstw do konkretnej strony w publikacji, jak też manipulacji parametrami konwersji – ale sprawiało, że w końcu można było tworzyć pliki prezentacyjne używające w pełni mechanizmu DjVu i zdecydowanie mniejsze względem innych sposobów zapisu przy podobnej jakości.
Trzeba przyznać, że te pionierskie lata pełne były różnorakich pomysłów, które wpływały na nasz warsztat pracy. Jednym z pierwszych odkryć i „innowacji” było zastąpienie warstwy OCR generowanej przez domyślny silnik Document Express (która mówiąc bez ogródek była bardzo marnej jakości) przez warstwę tekstową pochodzącą z programu ABBYY FineReader (który do dzisiaj stanowi podstawę wykonywania OCR w publikacjach e-bUW). Rodziła się wówczas również idea, rozwijana zresztą do dzisiaj, automatyzacji masowych zadań za pomocą skryptów powłoki systemu Windows oraz zewnętrznych języków skryptowych (takich jak np. Python). Dzięki temu człowiek mógł skupiać się na tym, w czym jest naprawdę niezastąpiony – tzn. na kontroli jakości pliku pod względem wizualnym, czyli mówiąc wprost: jego czytelności i estetyki.
Ograniczenia sprzętowe 10 lat temu również sprawiały, że proces powstawania plików DjVu wyglądał zupełnie inaczej. Do dyspozycji osoby przetwarzającej stał najpierw jeden, a następnie aż dwa komputery, ale ich podzespoły nie różniły się od innych komputerów biurowych owych czasów. Uruchomienie procesu przetwarzania plików TIFF do DjVu właściwie uniemożliwiało jakąkolwiek inną pracę na tej jednostce. Osoba odpowiedzialna za przetwarzanie miała do wyboru: iść do domu albo zająć się wypełnianiem innych obowiązków. Co prawda dzisiaj – po kilkukrotnej modernizacji sprzętu – takie sytuacje się już praktycznie nie zdarzają, ale w dalszym ciągu część długotrwałych procesów przetwarzania zostawiamy na noc, kolejnego dnia zaczynając pracę z już gotowymi plikami.
Tak z grubsza prezentowała się technika digitalizacji w początkach istnienia e-bUW. Jej obecna forma, choć wywodzi się z tego okresu, została bardzo mocno zmodyfikowana podczas realizacji projektu: „NUKAT – autostrada informacji cyfrowej”. O jego realizacji i „rewolucjach”, które spowodował on w naszej digitalizacji opowiem w drugiej części tego wpisu za tydzień.
Na podstawie relacji Elżbiety Arcipowskiej i Grzegorza Kłębka opracował Wojciech Oczkowski, ORZE
W cyklu na 10-lecie e-bUWu pisaliśmy już o:
Dziwnych rzeczach jakie można zobaczyć na skanach.
Prawie autorskim w pracy bibliotekarza cyfrowego.
Drodze książki w procesie digitalizacji
Przepisie na publikację w e-bUWie
O sprzęcie fotograficznym w digitalizacji
W kolejnych wpisach:
Opowiemy co jeszcze zmieniło się w naszej pracy przez te 10 lat.
Przekażemy trochę statystyk dotyczących e-bUW-u.
A na koniec zastanowimy się nad przyszłością e-bUW-u.