BuwLOG

Perspektywy rozwoju bibliotek cyfrowych

Biblioteka Narodowa podjęła inicjatywę prowadzenia otwartych seminariów z zakresu bibliotekoznawstwa. Jednym z pierwszych poruszonych tematów była Interoperacyjność i sztuczna inteligencja jako perspektywy rozwoju bibliotek cyfrowych, wykład na ten temat wygłosiła 6 lutego 2019 roku Sonia Wronkowska z Pracowni Rozwoju Polony. A inspiracją dla referatu były między innymi prace zespołów roboczych projektu ReiRes oraz konferencja Fantastic Future. Poruszone tematy: Interoperacyjności i sztucznej inteligencji (AI), zostały omówione dosyć ogólnie i oddzielnie, ale w kilku aspektach wydają się łączyć.

Prelegentka rozpoczęła swoją prezentację od minikalendarium, w którym przedstawiła jak zmieniała się Cyfrowa Biblioteka Narodowa – od po prostu prezentacji treści, przez włączanie do interfesju tzw. UX (user experience), po kolejne modyfikacje pozwalające na lepsze poruszanie się po treściach biblioteki cyfrowej (np. struktura czasopism).

widok miniaturek wyszukanych obiektów oraz po lewej stronie dostępne fasety służące zawężaniu wyników

Polona – widok wyników wyszukiwania

Interoperacyjność została poruszona w kontekście bibliotek cyfrowych 2.0. I tu można się częściowo zgodzić, choć powszechnie w odniesieniu do sieci, dopowiedzenie 2.0 ma raczej charakter włączenia użytkowników w tworzenie treści serwisów, a nie do końca tworzenie serwisów “łatwych” w odbiorze dla użytkowników. Jeśli dodamy do interoperacyjności sztuczną inteligencję, to należy mówić raczej o bibliotekach cyfrowych 3.0 (gdzie rolę zaczyna grać włączenie semantyki w zakres działania bibliotek).

W kontekście interoperacyjności zostało poruszone m.in. zagadnienie granulacji metadanych, które obecnie dotyczą całego obiektu, natomiast użytkownicy coraz częściej oczekują, że w swoich poszukiwaniach trafią do konkretnego miejsca w dokumencie, co oczywiście jest możliwe przy przeszukiwaniu pełnotekstowym. Trudne może być też wyszukać zdjęcie, które nie ma podpisu – i tu właśnie są możliwe do zastosowania mechanizmy sztucznej inteligencji, np. do automatycznego tagowania treści dokumentów.

Interoperacyjność to też dostępność zbiorów. Realizowana już nie tylko przez samo opublikowanie dokumentów w sieci, ale też przez wystawianie publicznego API (link), a w wariantach naprawdę otwartych – implementację założeń i narzędzi  IIIF (o tym już pisaliśmy na BuwLOGu), gdzie podstawą jest udostępnienie przez odpowiedni protokół danych – zarówno samych odwzorowań cyfrowych, jak i metadanych. Jest to też wygodne dla późniejszego budowania interfejsu użytkownika, gdzie łatwiej jest zaimplementować sprawdzone przeglądarki takie jak wskazane przez Sonię Wronkowską – Mirador, Uniwersal Viewer, czy powstająca przeglądarka Norweskiej Biblioteki Narodowej.

widok bogato ilustrowanej strony starodruku z elementami przeglądarki biblioteki cyfrowej

Universal Viewer w Bibliotece Bodleiana

W kontekście sztucznej inteligencji prelegentka wskazała, że nadal jest ona tylko narzędziem – “mądrym”, uczącym się i bardzo sprawnym w działaniach na dużej ilości danych, ale nadal narzędziem, któremu człowiek musi podać cel, wytrenować i które musi kontrolować. Zastosowania, jakie można znaleźć dla sztucznej inteligencji w bibliotekach (bo większość z wymienionych przykładów zastosowań często odnosi się do zadań bibliotek, a nie tylko bibliotek cyfrowych) są liczne.

Wskazane zostało między innymi pole metadanych, które wg. prelegentki sztuczna inteligencja mogłaby poprawiać, ujednolicać, ale również uzupełniać choćby o opracowanie przedmiotowe, ale też o streszczenia (w oparciu o tekst publikacji). Sama prowadząca zauważyła jednak, że tu powstaje konieczność ludzkiej kontroli, gdyż przy wielu obiektach konieczne jest poznanie szerszego kontekstu funkcjonowania danej publikacji (np. tzw. prasa gadzinowa). Sztuczna inteligencja została również przedstawiona jako narzędzie pomocnicze, które mogłoby wykrywać publikacje zdublowane itp. Ale dla tego rodzaju zadań najpierw konieczne jest ujednolicenie metadanych oraz ewentualne ich uzupełnienie, bo metadane do porównania powinny być na odpowiednio wysokim poziomie szczegółowości. O wiele lepszym rozwiązaniem byłoby oczywiście unikanie dublowania pracy przy cyfryzacji zbiorów.

Bardziej realne wydaje się zastosowanie metod sztucznej inteligencji do pracy na zawartości publikacji elektronicznych: czy to do polepszania jakości OCR-u, czy – w bardziej zaawansowanych formach – rozpoznawania zawartości fotografii, a w dalszej perspektywie np. osób znajdujących się na ilustracjach. To jest zdecydowanie najbardziej realne, ale i potrzebne zastosowanie w zbiorach cyfrowych, podobnie jak zastosowanie sztucznej inteligencji do pracy z nazwami własnymi, które zawsze w procesie maszynowego (masowego) rozpoznania treści powodują najwięcej niedokładności i błędów.

Niepokój może budzić deklaracja o chęci/możliwościach zastosowania sztucznej inteligencji do wpływania na wyniki wyszukiwania, które mogłoby być profilowane “pod użytkownika”. Przyjęcie polityki sterowania wynikami wyszukiwania może powodować “zakrzywianie” prawidłowych wyników przeszukiwania serwisu, szczególnie w momencie kiedy preferencje użytkownika ulegną zmianie. Może on mieć wtedy problem z dotarciem do pożądanych publikacji. Sytuacja wygląda już dużo mniej groźnie jeśli takie profilowanie jest jasno określone i wiadomo, jak się odbywa oraz gdy można je wyłączyć w prosty sposób.

W kontekście wykorzystania sztucznej inteligencji nieodzowna wydaje się współpraca na linii bibliotekarze – naukowcy. Większość bibliotek, nawet największych, ma zbyt mały potencjał techniczny i merytoryczny aby sprawnie i w odpowiedni sposób zaimplementować tego typu technologie. Za to biblioteki dysponują ogromnym materiałem (danymi), który mogą wykorzystać naukowcy. Inną drogą jest współpraca z dużymi podmiotami komercyjnymi, które już teraz dysponują odpowiednimi technologiami. Ale zawsze tu pojawia się ryzyko nierównomiernego rozłożenia korzyści płynących ze współpracy, bynajmniej nie z zyskiem po stronie bibliotek.

Nadal kluczem pozostaje człowiek, który jakkolwiek realizowaną sztuczną inteligencję musi “nauczyć” jej przyszłej pracy.

Grzegorz Kłębek, ORZE

3 comments for “Perspektywy rozwoju bibliotek cyfrowych

  1. Zbigniew Zakrzewski, Oddział Opracowania Zbiorów BUW
    9 kwietnia 2019 at 12:18

    Dzięki za sprawozdanie, miałem się wybrać ale jakoś mi się nie udało, kiedyś można było po prostu urwać się na chwilę z pracy, a teraz trzeba się pytać wszystkich świętych dookoła 🙂

    Temat zapewne słuszny bo teraz wszyscy mówią o sztucznej inteligencji, nawet jak mają mgliste o niej pojęcie. Natomiast w kontekście bibliotek nie sądzę aby był to temat pierwszoplanowy, ewentualnie jako pomoc do katalogowania jeżeli jakieś konkretne narzędzie się pojawi.
    Moim zdaniem bardziej konkretnym zagadnieniem, nawet w kontekście bibliotek cyfrowych, jest kwestia „Linked Data” czyli LD ucieleśniona w standardzie BIBFRAME, który promowany jest przez Bibliotekę Kongresu. Nie jest to proste zastąpienie formatu MARC ale pewien standard w środowisku sieciowym czyli jak najbardziej dotyczy wspomnianych bibliotek cyfrowych. Nawiasem mówiąc pisałem między innymi o BIBFRAME w referacie konferencyjnym jakieś 5 lat temu kiedy wszyscy rajcowali się RDA.
    Otóż sprawa bynajmniej nie jest futurologią ale już rzeczywistością. Obecnie Biblioteka Kongresu już kataloguje równolegle w obu standardach tj. MARC i BIBFRAME i będzie to miało miejsce do czasu osiągnięcie 100% konwersji w obie strony, co może się stać w stosunkowo bliskim okresie. Po tym momencie będą katalogować tylko w LD konwertując to do MARCa, który będzie nadal funkcjonował normalnie (info na podstawie webinarium z przed kilku dni z Biblioteki Kongresu). Baza w nowym formacie jeszcze nie jest upubliczniona w sieci. Na pewno pojawią się nowe narzędzia z tym związane, z zapowiadanym edytorem online na czele.

    Nowością w LD w wydaniu BIBFRAME jest fakt, że u jego najgłębszych podstaw leży standard XML, czyli krótko mówiąc dane biblioteczne teraz w 100% zaistnieją w sieci i to nie tylko jako dane z katalogów bibliotecznych.
    Niestety nie mam pojęcia na jakim etapie znajdują się polskie biblioteki i czy ktoś się tym na poważnie zajmuje, w sensie przygotowania infrastruktury danych, bo narzędzia to na pewno nie my.

  2. BCH
    9 kwietnia 2019 at 13:22

    A może NUKAT wie coś więcej, na jakim etapie jest BIBFRAME w Polsce? O standardzie BIBFRAME była mowa w czasie spotkania z przedstawicielami platformy FOLIO, ale tylko tyle, że FOLIO ma BIBFRAME jako standard podstawowy i pozwala na konwertowanie rekordów bibliograficznych do formatu MARC. Na to pojawił się głos z sali, już nie pamiętam, czyj, który powiedział, że owszem, ale dane z konwertowanych rekordów są raczej nieczytelne. Może trzeba namówić kogoś z Centrum NUKAT, żeby nam na blogu powiedział coś więcej. To naprawdę ciekawy temat!

  3. Leszek Śnieżko, NUKAT
    15 kwietnia 2019 at 10:43

    Ponieważ NUKAT został wywołany do tablicy to postaram się w kilku słowach odnieść się do tego problemu. Zacznę jednak od stwierdzenia, iż nie bagatelizowałbym znaczenia sztucznej inteligencji w funkcjonowaniu bibliotek. To również nie jest futurologia. Coraz częściej sztuczna inteligencja wykorzystywana jest w procesie automatycznego dodawania haseł przedmiotowych do opisów bibliograficznych. Trwają również badania nad wykorzystaniem sztucznej inteligencji do automatyzacji całego procesu katalogowania. Przechodząc do głównego tematu chciałbym wyjaśnić, iż „rajcowanie” się RDA nie oznacza braku zainteresowania problemem Linked Data. Jest dokładnie przeciwnie. Podstawowym warunkiem skutecznego funkcjonowania danych w Sieci Semantycznej jest ich właściwe ustrukturyzowanie, a to może zapewnić nam właśnie standard RDA, który jest rozwijany w celu budowania zasobów metadanych z myślą o wykorzystaniu ich w ”zorientowanych na użytkownika aplikacjach Linked Data” (definicja RDA). O sposobie przekształcenia naszych danych do standardu Linked Data zadecyduje przyszłe oprogramowanie. Wiele wskazuje na to, że będzie to faktycznie BIBFRAME, który staje się coraz bardziej popularny wśród producentów oprogramowania. Nie oznacza to jednak, że jest to jedyna opcja. Nie należy stawiać znaku równości między wprowadzeniem danych do sieci a formatem BIBFRAME. Obserwujemy jego rozwój, podobnie jak inne projekty związane z Linked Data, koncentrujemy się jednak na naszych danych, ponieważ ich jakość a nie zastosowany format będzie miał decydujący wpływ na zwiększenie możliwości docierania do informacji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.