BuwLOG

Cheeseburger z sieciówki czy danie à la carte?

Jeszcze kilka lat temu przyszłość bibliotek wyglądała kusząco prosto. Wieloletnie wysiłki społeczności bibliotekarskiej całego świata zaowocowały wprowadzeniem bibliotek w świat nowych technologii – systemów zarządzania bibliotekami i zintegrowanych katalogów, bibliotek cyfrowych, pełnotekstowych baz danych książek i czasopism, słowem wszystkiego, co ułatwia życie bibliotekarzom i czytelnikom. Biblioteki istniejąc nadal jako miejsca fizyczne w znacznej mierze przeniosły swoje funkcjonowanie do internetu, gdzie publikację można znaleźć, nawet w bardzo odległej lokalizacji, zamówić lub przeczytać, jeżeli jest dostępna online, zamówić skany albo skopiować samodzielnie. My bibliotekarze mieliśmy po prostu napełniać istniejące bazy danymi katalogowymi oraz digitalizowanymi obiektami ze zbiorów bibliotek z troską o zintegrowane i jak najbardziej przyjazne przeszukiwanie rosnących zasobów, tworząc coraz doskonalsze narzędzie dla wszystkich kategorii użytkowników. Tylko tyle i aż tyle.

Tymczasem okazało się, że rzeczywistość technologiczna spłatała nam figla. Albowiem pracując przez lata nad tworzeniem opisów katalogowych, haseł wzorcowych, tezaurusów i słowników haseł przedmiotowych oraz digitalizując i wprowadzając do bibliotek cyfrowych miliony przeszukiwalnych pełnotekstowo dokumentów staliśmy się, jako społeczność bibliotekarska, dysponentami jednego z najcenniejszych aktywów i bogactw XXI wieku – danych: uporządkowanych, ustrukturyzowanych i wymienialnych. Oczywiście nadal możemy ich używać tylko dla naszych celów bibliotecznych głównie w celu dotarcia do potrzebnych użytkownikowi publikacji, ale jednym z ważnych trendów ostatnich lat jest idea udostępniania danych wytwarzanych przez biblioteki jako Linked Open Data – otwartych i połączonych z zasobami internetu danych przygotowanych do dalszej obróbki.

Zrzut ekranu ze schematem "How to get a burger". Na rysunku zdjęcie hamburgera, torby z zakupami i rysunek składników burgera
źródło: Walker, Andreas: Working with CERL data. [Dostęp 29.12.2020] Prezentacja na CERL Annual General Meeting, 6.10.2020 http://wwwuser.gwdg.de/~walker5/docs/20201006_slides.pdf

Andreas Walker z Data Conversion Group, działającej na Uniwersytecie w Goettingen porównuje surowe dane biblioteczne przechowywane w formacie wewnętrznym takim jak XML czy JSON do półproduktów spożywczych [1], z których można przygotować zarówno cheeseburgera w sieciowej restauracji, o przewidywalnym smaku i wyglądzie, jak i danie dostosowane smakiem, sposobem przyrządzenia i wyglądem do gustów i potrzeb konsumenta. „Cheeseburgerami” w tym obrazowym porównaniu są katalogi, biblioteki cyfrowe i wyszukiwarki biblioteczne, oferujące przeszukiwanie poszczególnych pól lub przeszukiwanie pełnotekstowe połączone z filtrowaniem wyników. Owszem, bardzo przydatne i znane użytkownikom, ale operujące utartymi schematami i nie dające możliwości poszerzania pól badawczych. Te same dane natomiast, inaczej ustrukturyzowane, przetwarzane przez inne typy oprogramowania, a przede wszystkim połączone z otwartymi danymi z innych kategorii zasobów – dają zupełnie nowe i nieoczywiste możliwości przyrządzenia dania à la carte, specjalności szefa kuchni, miłej wyrafinowanemu podniebieniu smakosza, czyli bibliotekarza, naukowca lub badacza. Taka właśnie praca z danymi, wymagająca współdziałania bibliotekarzy, naukowców i informatyków jest podstawą relatywnie nowej dyscypliny – humanistyki cyfrowej.

Ciekawym przykładem takiego właśnie wykorzystania danych są prace realizowane przez Consortium of European Research Libraries (CERL) na podstawie bazy Heritage of the Printed Book (HPB), zawierającej opisy katalogowe i proweniencyjne europejskich zbiorów historycznych oraz tezaurusa CERL, gromadzącego informacje biograficzne, faktograficzne oraz słownikowe dotyczące książki zabytkowej [2], jak również bazy proweniencyjnej Material Evidence in Incunabula (MEI). Na podstawie danych z powyższych baz, połączonych z danymi kartograficznymi oraz historycznymi na Uniwersytecie Oksfordzkim został zrealizowany projekt 15cBOOKTRADE, który dotyczy nie tylko tytułowego handlu książką w XV w., wraz z licznymi wizualizacjami ilustrującymi drogi i ceny książek, lecz również pozwala na dotarcie do niestandardowo zaprezentowanej informacji o wszystkich aspektach rewolucji drukarskiej XV w.: drukarzach i publikacjach, właścicielach książek i ich zwyczajach czytelniczych, znakach i zapisach proweniencyjnych czy ilustracjach inkunabułów. Jest to nieocenione i ciągle rozwijane narzędzie dla badaczy historii i kultury nowożytnej. Dane zgromadzone i udostępnione przez CERL dają również możliwość przygotowania mniejszych projektów na potrzeby konkretnych badań , wykonywanych ad hoc przy użyciu opensourcowego oprogramowania Jupyter Notebook. Jako przykład takich realizacji można wskazać wizualizację miejsc pochodzenia studentów Uniwersytetu w Göttingen oraz miejsc ich późniejszej pracy lub przedstawienie na mapie świata miejsc zakupu rękopisów i starych druków dla Uniwersytetu w Princeton.

Niestandardowym wykorzystaniem danych tworzonych przez biblioteki, archiwa i muzea zajmuje się wiele instytucji. Najaktywniejsze są zrzeszone w organizacji International GLAM Labs Community. Zakres projektów jest bardzo szeroki. Jako najczęściej spotykane przykłady można wskazać:

  • wizualizację niestandardowych wyszukiwań i prezentacji wyników w postaci grafów, lokalizacji na mapach czy osi czasu,
  • używanie narzędzi statystycznych do pełnotekstowego przeszukiwania bibliotek cyfrowych i prezentacji wyników w postaci wykresów lub tabel,
  • prezentowanie na mapach historycznego rozwoju zabudowy, infrastruktury i zmian nazewnictwa,
  • harvestowanie i wspólne przeszukiwanie danych pochodzących z różnych źródeł,
  • wizualizację danych w postaci modeli 3D,
  • porównywanie motywów na obrazach, fotografiach, pocztówkach czy rysunkach i wyszukiwanie ich podobieństw,
  • tworzenie przy użyciu aplikacji kolaży, plakatów, grafik komputerowych czy filmów z zasobów bibliotek cyfrowych.

Ciekawy przegląd inicjatyw wykorzystania danych z bibliotek, archiwów i muzeów oraz dostępnych narzędzi został zaprezentowany na wirtualnym webinarium Tima Sherratta w czasie konferencji LIBER w 2020 [3].

W Polsce na razie biblioteki serwują głównie cheeseburgery. Takim daniem – smacznym, pożywnym i łatwo dostępnym – jest między innymi katalog NUKAT. Ale bogactwo wytworzonych przez nas danych, przechowywanych w katalogach, bibliotekach cyfrowych czy bazach dziedzinowych aż woła o kreatywnych kucharzy, którzy będą przyrządzać bardziej wyrafinowane potrawy, na zamówienie zarówno świata nauki, jak i biznesu. Ważne jest, by był to zespół międzydziedzinowy, bo sukces projektów z zakresu niestandardowego wykorzystywania danych bibliotecznych wymaga bliskiej współpracy otwartogłowych bibliotekarzy, naukowców i informatyków. Jestem przekonana, że najbliższe lata przyniosą nam takie projekty w Polsce, a z inicjatywą wspólnych działań będą wychodzić zarówno bibliotekarze, jak i badacze. I jeszcze odrobina optymizmu na koniec – proste projekty z zakresu humanistyki cyfrowej wymagają owszem, kreatywności i świetnie przygotowanych danych, ale zrealizować je można stosunkowo niewielkim kosztem.

Katarzyna Ślaska

[1] Walker, Andreas: Working with CERL data. [Dostęp 29.12.2020] Prezentacja na CERL Annual General Meeting, 6.10.2020 http://wwwuser.gwdg.de/~walker5/docs/20201006_slides.pdf
[2] Walker, Andreas: LOD for EMP: CERL’s history and future in Linked Open Data. [Dostęp 29.12.2020] Dostępne na blogu CERL Europe’s printed nad hand-written books in the spotlight, 6.08.2020: https://cerlblog.wordpress.com/2020/08/06/lod-for-emp-cerls-history-and-future-in-linked-open-data/
[3] LIBER Webinar: Setting Up a GLAM Workbench in Your Library 7.04.2020 [Dostęp 29.12.2020] https://www.youtube.com/watch?v=LXk60YDdaMA&feature=youtu.be

2 comments for “Cheeseburger z sieciówki czy danie à la carte?

  1. Zbigniew Zakrzewski
    20 stycznia 2021 at 00:44

    Dobrze, że zaczyna się pisać o nowych możliwościach wykorzystania danych bibliotecznych, także u nas. Nowy obszar wydaje się obiecujący i na pewno przez długie lata będzie co robić. Niecierpliwie czekam aż jakiś polski praktyk z tej dziedziny podzieli się swoimi wynikami. Znajomość podstawowych pojęć może pomóc zrozumieć co piszą inni. Dobrze jest wiedzieć co to jest zasób sieci WWW (w kontekście sieci semantycznej), standard RDF, ontologia itd. Pisałem na ten temat w swoim artykule „BBIBFRAME : Linked Data w bibliotece, czyli co każdy bibliotekarz wiedzieć niekoniecznie powinien”, który jest dostępny na razie lokalnie w katalogu „pub” Oddziału Opracowania Zbiorów.

    P:\Oddział Opracowania Zbiorów\pub\Praca zdalna – sprawozdanie

    kopię mogę podesłać mailem: z.zakrzewski(at)uw.edu.pl

    W gruncie rzeczy artykuł dotyka zagadnienia, które ostatnio w informatyce określa się terminem „Data-centric transformation”. Według tej koncepcji punktem wyjściowym do projektowania systemu informatycznego jest pewien wymyślony model danych, a nie jak dotychczas filozofia aplikacji bazodanowej wymuszającej określone podejście do zarządzania danymi. W praktyce mamy obecnie dominację systemów wyposażonych w relacyjne bazy danych, które charakteryzują się tym, że dane są zapisywane w pewnym układzie tabel. Wspomniany nowy model danych nazywany jest ontologią, która określa między innymi co możemy z tymi danymi zrobić a przede wszystkim jaki rodzaj danych może się tam znaleźć. Jeżeli mamy do czynienia z nietypowym problemem to musimy sami taką ontologię stworzyć przy pomocą określonych reguł. W przypadku danych bibliograficznych mamy na przykład ontologię BIBFRAME, dla dziedziny rachunkowości możemy sobie kupić ontologię zrobioną wcześniej przez inne osoby, itd. Taki nowy system będzie uruchomiony za pośrednictwem tzw. grafowej bazy danych.

    Jeżeli chodzi na podwórko biblioteczne to kolejność postępowania jest taka, że krokiem nr 1 w procesie transformacji do nowego środowiska musi być umieszczenie danych z naszych słowników jako zasoby sieci WWW, zaopatrzonych w stałe adresy sieciowe URI. Dotyczy to szczególnie wszelkiego rodzaju kartotek wzorcowych. Krokiem nr 2 będzie przekonwertowanie rekordów bibliograficznych będących aktualnie w formacie MARC do standardu BIBFRAME zapisanym w RDF. Piszę o BIBFRAME ponieważ istotnego konkurenta na razie nie widać. Oczywiście powstaje pytanie co zrobią producenci systemów bibliotecznych. Na pewno ewentualna transformacja rynku informacji bibliograficznej będzie długotrwała. Wydaje się, że główną przeszkodą może stać się jakość danych bibliograficznych, zwłaszcza tych, które występują w dużych zbiorach danych np. w OCLC.

    Opisywany w tym artykule przypadek akurat nie jest najbardziej miarodajny ponieważ dotyczy stosunkowo małego zbioru danych i jest pewnym projektem badawczym. Wykorzystuje on przetworzone dane niemieckiego katalogu bibliotecznego, dane opublikowanego Tezaurusa CERL o prefiksie ct: (wskazującym na stały adres sieciowy) czyli xmlns:ct=”http://www.cerl.org/namespaces/thesaurus/” oraz nieaktualnego już słownika RDA o prefiksie rdaGr2: czyli xmlns:rdaGr2=”http://rdvocab.info/ElementsGr2/”

    Zbigniew Zakrzewski
    Oddział Opracowania Zbiorów

  2. Zbigniew Zakrzewski
    1 marca 2021 at 22:03

    W ramach post scriptum do mojego komentarza załączam informację o konferencji (on-line, bezpłatnie) organizowanej przez The Publications Office of the European Union, której tytuł brzmi „Endorse : the european data conference on reference data and semantics”. Będzie się ona odbywać w dn. 16-19.03.2021, tematyka obejmuje zagadnienia związane z zarządzaniem wiedzą w kontekście mowych standardów sieci semantycznej.

    Program: https://op.europa.eu/en/web/endorse/programme

    https://op.europa.eu/en/web/endorse/conference

    Pierwszy raz odwiedzam ten portal, akurat znalazłem coś takiego:
    https://data.europa.eu/euodp/en/linked-data
    i chyba jestem pozytywnie zaskoczony.

    Zbigniew Zakrzewski
    Oddział Opracowania Zbiorów

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *