ALTO (Analyzed Layout and Text Object) to standard metadanych opracowany w celu przechowywania informacji o układzie tekstu i obiektów graficznych w publikacji elektronicznej. Jest on często wykorzystywany wraz z standardem METS (Metadata Encoding and Transmission Standard), o którym już pisałem na BuwLOGu, jako element opisujący strukturę i zawartość dokumentów cyfrowych. W przypadku biblioteki cyfrowej Crispa pliki tego typu zawierają głównie informację dotyczącą OCR. Poniżej postaram się przedstawić strukturę plików ALTO, możliwości ich zastosowania, sposób tworzenia i spróbuje w jak najprostszy sposób opisać zawartość tych plików.
Czym jest ALTO?
ALTO to standard oparty na języku XML, który umożliwia przechowywanie informacji o strukturze logicznej i fizycznej dokumentów cyfrowych. Podstawowym zadaniem tego standardu jest przechowywanie informacji o układzie tekstu, obiektów graficznych oraz metadanych opisujących źródło obrazu i sposób przetwarzania tekstu. W plikach tego typu zawarta jest informacja o położeniu każdego znaku tekstu, co ułatwia jego automatyczne przetwarzanie. Dzięki temu programy do OCR mogą dokładniej odtworzyć oryginalny tekst, a programy do przetwarzania języka naturalnego mogą lepiej zrozumieć kontekst. ALTO jest standardem popularnym w dziedzinie digitalizacji książek, czasopism oraz innych materiałów, które mają złożoną strukturę i wymagają szczegółowego opisu treści. Z tego względu jest to format plików szczególnie przydatny dla bibliotek, muzeów i archiwów.
Struktura plików ALTO
Plik ALTO składa się z trzech głównych sekcji, które są elementami podrzędnymi elementu głównego <alto>:
- <Description>
- <Styles>
- <Layout>
Opis sekcji <Description>
Sekcja <Description> zawiera metadane dotyczące samego pliku ALTO oraz informacje o sposobie jego tworzenia. Składa się z następujących elementów:
- <MeasurementUnit>: jednostka miary używana we wszystkich wartościach pomiarowych w pliku ALTO, z wyjątkiem rozmiaru czcionki. Domyślnie jest to 1/10 milimetra.
- <sourceImageInformation>: informacje umożliwiające zidentyfikowanie pliku obrazu, z którego został utworzony tekst OCR.
- <Processing>: informacje o sposobie tworzenia tekstu, w tym etapach przetwarzania wstępnego, przetwarzania OCR i przetwarzania końcowego.
Opis sekcji <Styles>
Sekcja <Styles> zawiera opisy stylów tekstu i paragrafów:
- <TextStyle>: opisuje właściwości czcionek tekstu.
- <ParagraphStyle>: opisuje właściwości formatowania bloków tekstowych, takie jak wyrównanie czy interlinia.
Opis sekcji <Layout>
Sekcja <Layout> zawiera informacje o zawartości dokumentu. Jest podzielona na elementy <Page>, które opisują poszczególne strony dokumentu. Każda strona składa się z marginesów i pola zawierającego tekst, będącego prostokątną przestrzenią na stronie. Każde z tych pól może zawierać dowolną liczbę obiektów, takich jak linie, obrazy czy bloki tekstowe.
ALTO w praktyce
W praktyce, pliki ALTO są często wykorzystywane wraz z innymi standardami metadanych, jednym z nich jest METS. Pozwala on na opakowanie instancji tego rodzaju plików oraz umożliwia tworzenie struktury zawartości dokumentu, odnosząc się do poszczególnych elementów ALTO. Trzeba zaznaczyć, że pomimo tego, że standard ten został stworzony do współpracy z plikami METS to pliki tego rodzaju mogą również istnieć jako samodzielne niezależnie używane dokumenty. W bibliotece cyfrowej Crispa to dzięki tym plikom możemy przeprowadzić wyszukiwanie odpowiedniej frazy czy wyrazu w publikacjach.
Użycie ALTO z METS
Przykład użycia ALTO z METS może wyglądać następująco:
- W elemencie <area> wewnątrz struktury METS <structMap> tworzymy atrybut FILEID, który odnosi się do odpowiedniej struktury w elemencie <fileGrp> w sekcji <fileSec> METS.
2. Atrybut BEGIN w elemencie <area> wskazuje na konkretny element ALTO wewnątrz jednego z elementów <amdSec> w METS.
Wersje ALTO i przyszłość standardu
Aktualnie, najnowszą wersją standardu ALTO jest wersja 4.4. W przyszłości możemy spodziewać się kolejnych aktualizacji i rozszerzeń, które będą wprowadzać nowe funkcje i ulepszenia. W miarę jak technologie OCR będą się rozwijać, standard ten będzie prawdopodobnie ewoluować, aby lepiej sprostać potrzebom przyszłych projektów digitalizacji.
Jak korzystać z plików ALTO – narzędzia
Pliki ALTO można odczytywać za pomocą specjalistycznego oprogramowania, takiego jak Tesseract OCR, biblioteka Apache PDFBox lub program OCRopus. Aby podejrzeć zawartość plików ALTO wystarczy użyć np. darmowego oprogramowania Notepad ++.
Podsumowanie
ALTO to bardzo użyteczny standard umożliwiający przechowywanie informacji o strukturze i zawartości dokumentów cyfrowych. Dzięki swojej elastyczności i możliwości integracji ze standardem METS, ALTO odgrywa kluczową rolę w procesie digitalizacji książek, czasopism i innych materiałów. Jego rozbudowana struktura pozwala na precyzyjne opisanie układu tekstu i obiektów graficznych, co jest niezbędne dla skutecznego przeszukiwania i analizy zawartości cyfrowych zbiorów. Dzięki swojej dokładności, elastyczności i niezależności od języka, pliki ALTO są coraz częściej wykorzystywane przez biblioteki, muzea i archiwa na całym świecie.
Adam Owczarczyk, Oddział Rozwoju Zasobów Elektronicznych