W dniach 28-30 czerwca 2017 r. w Krakowie odbyła się II Letnia Szkoła Humanistyki Cyfrowej. Jej organizatorami byli: Uniwersytet Pedagogiczny w Krakowie, Instytut Języka Polskiego PAN oraz Centrum Technologii Językowych CLARIN-PL.
Zajęcia odbywały w trzech modułach:
- CLARIN-PL w praktyce badawczej. Cyfrowe narzędzia do analizy języka w naukach humanistycznych i społecznych;
- Przeszukiwanie korpusów tekstowych;
- Od tekstu do korpusu: formaty, standardy i narzędzia dla humanistów cyfrowych.
Wzięłam udział w zajęciach modułu trzeciego prowadzonych przez: dr. Krzysztofa Nowaka i dr. Michała Woźniaka z IJP PAN.
Korpus to odpowiednio wcześniej opracowany zbiór tekstów, służący badaniom i występujący w formie elektronicznej. Najpopularniejsze są korpusy lingwistyczne pomocne np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych oraz kontekstów, w jakich pojawiają się dane wyrazy, czyli kolokacji. Dzięki danym korpusowym zyskuje się: obiektywizację obserwacji (frekwencja wyrazów, znaczeń, zjawisk), łatwość śledzenia wzorców składniowych i pragmatycznych oraz związków frazeologicznych. Przy przygotowywaniu korpusu kluczową rolę odgrywa właściwe dobranie tekstów. Dobry korpus powinien być reprezentatywny dla danego zjawiska oraz zrównoważony, co oznacza, że próbki tekstu do korpusu wybrane zostały według specjalnego klucza, tak by zapewnić pożądane proporcje pomiędzy różnymi stylami czy okresami powstawania tekstów. Teksty pozyskuje się przez przepisanie z edycji lub oryginału, zeskanowanie i OCR czy pozyskiwanie skanów z repozytoriów i bibliotek cyfrowych. Pewne cechy egzemplarza stwarzają problemy przy skanowaniu: elementy graficzne i inne znaki na kartach, wady egzemplarza, opuszczone strony, zbyt niska rozdzielczość, zagięcia czy niejasne licencje na korzystanie. Są jednak narzędzia radzenia sobie z nimi np. przez użycie programów do optymalizacji obrazu: Gimp, gscan2pdf, Abbyy Fine Reader, ScanTailor. Ważny jest również format zapisu danych: binarny (sugerowano, aby tych unikać!) lub tekstowy (txt, csv, xml). Formaty tekstowe umożliwiają łatwą konwersję, szczegółową dokumentację, odczyt za pomocą prostego edytora tekstowego, łatwą kontrolę wersji, łatwość użycia w mnogich kontekstach.
Informacje, które najczęściej występują jako metadane:
– podstawowy opis (autor, tytuł, czas i miejsce powstania),
– klasyfikacja tekstu (np. rodzaje literackie: proza, poezja, dramat lub klasyfikacja wedle formy komunikacji z odbiorcą: książka, artykuł w czasopiśmie, audycja radiowa, blog),
– dane zarządcze (bibliografia, historia edycji tekstu, nazwisko anotatora, dane instytucji odpowiedzialnej za projekt),
– stosunek do źródła (dodatki/opuszczenia, poprawki, normalizacja).
Tekst zawarty w korpusie najczęściej zawiera anotację (znakowanie), czyli system kodów pomocny w podziale i interpretacji tekstu. Dzięki znakowaniu można podzielić tekst na: segmenty, zdania, frazy lub wyrazy. Można użyć tych wszystkich tych określeń jednocześnie lub tylko wybrane z nich w zależności od własnych potrzeb (jeśli korpus przygotowujemy tylko dla siebie w celu ułatwienia sobie badań) i od tego, jakie dane chcemy uwypuklić dla przyszłych użytkowników korpusu (jeśli będzie on udostępniony do powszechnego użytku). W anotacji lingwistycznej można wyróżnić kilka typów, z których w czasie zajęć dokładniej omówiono dwa:
– anotację PoS (part-of-speech) która polega na dokładnym opisywaniu form wyrazowych (np. „biegnę” to 1 os. l. poj. czasu teraźniejszego),
– lemmatyzację, czyli dodawanie informacji o formie podstawowej odmienionego w tekście wyrazu, w przypadku czasowników będzie to podanie bezokolicznika (biegnę – biegać) a w odniesieniu do rzeczownika czy przymiotnika – 1 osoby liczby pojedynczej (czarnego – czarny, kota – kot).
Anotowanie może się odbywać w sposób ręczny lub automatyczny. Ręczna anotacja dokonana przez doświadczonych lingwistów jest dokładniejsza niż anotacja automatyczna (przeprowadzona przy użyciu specjalistycznego oprogramowania, np. Tree taggera). Anotację automatyczną można jednak przeprowadzić nieporównanie szybciej. Anotację przeprowadza się za pomocą dopisywania odpowiednich kodów. Najpopularniejszym formatem, wedle którego tworzy się kody jest XML. Kod XML składa się z dwu części ujętych w nawiasy ostre otaczających tekst anotowany. I tak np. zapis:
<title> II Letnia Szkoła Humanistyki Cyfrowej </title>
oznacza, że otagowałam odpowiednim kodem (anotowałam) tytuł tego sprawozdania. Żeby tekst był faktycznie kompletnym tekstem XML, musi odpowiednim kodem się rozpoczynać i kończyć, a pozostałe kody muszą występować w odpowiedniej kolejności i hierarchii. Format XML odpowiada za zewnętrzny wygląd kodów. To, jakie kody mają znaczenie i jakie cechy można oznaczyć kodami określa standard. Na zajęciach jedynym omawianym standardem był TEI. Jest to bardzo rozbudowany standard, z którym można zapoznać się za pośrednictwem The TEI Guidelines (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/index.html).
Standard tagowania TEI jest bardzo popularny wśród humanistów. Ma doskonałą dokumentację i bogate materiały edukacyjne oraz wiele modułów (np. anotacja korpusów, opisy rękopisów, edycje tekstów), dla których przygotowano zestawy tagów i instrukcje ich stosowania.
Chociaż na co dzień nie zajmuję się tworzeniem czy anotowaniem korpusów, udział w warsztatach uważam za bardzo pożyteczny. Po pierwsze jestem użytkowniczką różnych korpusów (ogólniejszych i bardzie specjalistycznych korpusów tekstów łacińskich, Korpusu Języka Polskiego) i dzięki wiedzy zdobytej na szkoleniu umiem znaczniej precyzyjnie formułować zapytania, przez co dostaję dokładniejsze odpowiedzi. Po drugie anotację TEI można wykorzystywać nie tylko w pracach korpusowych – powszechną praktyką na świecie stało się anotowanie opisów rękopisów kodami TEI i udostępnianie ich w projektowanych na zamówienie bazach danych XML. Trzecia korzyść nastąpi być może w przyszłości, gdy zdecyduję się przygotować edycję cyfrową tekstu, nad którym pracuję w ramach przygotowywania rozprawy doktorskiej.
Agnieszka Fabiańska, Gabinet Rękopisów
Tę bardzo skrótową wiedzę na temat pracy nad oraz z korpusami można poszerzyć korzystając z poniższych artykułów w sieci (oraz bibliografii w nich zawartej):
Definicje użytych przeze mnie pojęć oraz garść ogólnych uwag o korpusach specjalistycznych można znaleźć w artykule Marka Łukasika Anotacja korpusów tekstów specjalistycznych (adres: https://www.academia.edu/9674368/Anotacja_korpus%C3%B3w_tekst%C3%B3w_specjalistycznych; dostęp 19.07.2017).
Opis przygotowania i zmagań z wieloma problemami związanymi z przygotowaniem korpusu opisano w publikacji Narodowy Korpus Języka Polskiego, praca zbiorowa pod redakcją Adama Przepiórkowskiego, Mirosława Bańko, Rafała L. Górskiego, Barbary Lewandowskiej-Tomaszczyk (adres: http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf; dostęp 19.07.2017).