Warsztaty, prowadzone w dniach 1-2 marca 2016 r. w Laboratorium Cyfrowym Humanistyki UW przez pracującego na Uniwersytecie im. Adama Mickiewicza w Poznaniu orientalistę, dr. Svena Sellmera, poświęcone były wprowadzeniu do zagadnień użycia technologii cyfrowych w badaniach filologicznych. Punktem wyjścia dla większości przedstawianych sposobów postępowania z tekstem była jego cyfrowa postać, jako odczytanego już ciągu znaków. Jedynie pokrótce, choć z pewną dozą ciekawych odesłań, omówiona została droga od tekstu w postaci tradycyjnej (utrwalonego na papierze lub innym materiale piśmiennym) do postulowanej postaci cyfrowej; prowadzący nie poświęcił zbyt długiego czasu optycznemu rozpoznawaniu znaków (OCR) w przypadku tekstów drukowanych, niemniej wspomniał o rozmaitych inicjatywach i projektach związanych z tekstami rękopiśmiennymi oraz formie ich cyfrowego opracowania w postaci tzw. text-image alignment (forma transkrypcji tekstu rękopiśmiennego przez ręczne dodanie warstwy tekstowej analogicznej do warstwy OCR dla tekstów drukowanych).
Podstawową techniką omówioną w trakcie pierwszego dnia warsztatów był obróbka tekstu w postaci cyfrowej przy pomocy tzw. wyrażeń regularnych (ang. regular expressions), dostępnych z poziomu bardziej zaawansowanych programów do edycji tekstu (dla środowiska Windows byłby to np. Notepad++). Ta część warsztatów przyjęła formę krótkiego kursu składni tych wyrażeń oraz prezentacji podstawowych kroków prowadzących do uzyskania odpowiednio ustrukturyzowanych danych dotyczących tekstu. W tej części omówiona została również tzw. lemmatyzacja. Jest to proces ustalania hasłowej formy wyrazu występującego w tekście. Ze względu na wieloznaczność i homonimiczność form (szczególnie w językach o bogatej fleksji) nie jest to działanie li tylko mechaniczne, ale wymaga bardziej zaawansowanych algorytmów (w tym procedur statystycznych i sztucznej inteligencji). Istnieją jednak już narzędzia, które mają dość dużą skuteczność i potrafią działać niezależnie od języka (konieczne jest jednak przygotowanie wcześniej tzw. modelu języka i jego przećwiczenie na możliwie dużym korpusie tekstów). Dla języka polskiego np. (i dla wielu innych również) jest to konsolowe narzędzie o nazwie Tree Tagger, którym posługiwał się również prowadzący.
Drugi dzień poświęcony był technikom obrazowania uzyskanych danych masowych z badanych tekstów i podstawom analizy sieciowej. Najpierw zostały omówione podstawowe pojęcia związane z teorią grafów, w tym istotne dla dalszej analizy zagadnienia różnych rodzajów centralności. W odniesieniu do tekstów analiza sieciowa polega w pewnym uproszczeniu na zdefiniowaniu w badanym dziele odpowiednich relacji, które następnie można przedstawić w formie grafu. Służy do tego program Gephi, dzięki któremu można uzyskać dobrą ilustrację graficzną analizowanych zależności. Prezentowane były grafy wykonane przez dr. Sellmera przy okazji jego badań nad eposami sanskryckimi.
Ostatnim elementem warsztatów była krótka prezentacja zagadnienia analizy tematycznej (ang. topic analysis) wraz z prezentacją programu Mallet, który potrafi wykonywać tego typu zadania. W skrócie to podejście polega na wyznaczaniu przez algorytm słów kluczowych w danym tekście. W tym celu posługuje się on metodami analizy statystycznej, musi też wcześniej zostać przyuczony poprzez zanalizowanie korpusu tekstów.
Najistotniejszym wnioskiem dla biblioteki i biblioteki cyfrowej z tych warsztatów jest kluczowa rola wiarygodnego OCR w badaniach wykorzystujących metody humanistyki cyfrowej. Stanowi to warunek sine qua non prowadzenia jakichkolwiek szerzej zakrojonych projektów. Niestety obecna technologia w przypadku tekstów drukowanych bez kontroli ze strony człowieka nie jest w stanie dać rezultatów o precyzji wymaganej w badaniach humanistyki cyfrowej, w przypadku zaś tekstów rękopiśmiennych jest całkowicie niewiarygodna. Zagadnieniem wymagającym dalszego namysłu jest zatem rola biblioteki w dostarczaniu takiego wysokiej jakości tekstu dla odbiorców pragnących pracować metodami, do których wprowadzeniem były omawiane warsztaty.
Wojciech Oczkowski, Oddział Rozwoju Zasobów Elektronicznych