BuwLOG

Love Data Week 2022 ❤ #LoveData22

Grafika w kolorze zielonym. kobieta w kitlu  trzymająca tablet. w tle wykresy.

Ilustracja danych z Storyset. Źródło: https://storyset.com/data

Love Data Week to międzynarodowe święto danych, celowo organizowane w tygodniu, w którym przypadają Walentynki. Jego celem jest podnoszenie – w naszym przypadku na uczelniach i w ośrodkach naukowych – ogólnej świadomości na tematy takie, jak: zarządzanie danymi badawczymi, udostępnianie, przechowywanie, ponowne wykorzystywanie, rozpowszechnianie i ochrona danych. Tegoroczne wydarzenie jest luźno oparte na temacie „Dane są dla każdego”. W jego obchody angażują się, głównie zdalnie, również bibliotekarze, oferując warsztaty i materiały dydaktyczne, które mają zachęcić do refleksji na temat praktyk związanych z danymi oraz ułatwiać naukę i obsługę narzędzi do ich zarządzania. Warto przedstawić ogólny kontekst tego święta dla tych niezdecydowanych lub mniej zafascynowanych tematem, lub inaczej, dla tych, dla których praca z danymi (nie tylko w excelu 🙂 ) to nie była miłość od pierwszego wejrzenia.

Ile danych jest generowanych na co dzień? A  jak to będzie wyglądać w przyszłości coraz bardziej opartej na danych?

Oto kilka kluczowych dziennych statystyk wyróżnionych na infografice:

  • wysyłanych jest 500 milionów tweetów
  • oraz 294 miliardy e-maili
  • na Facebooku powstają 4 petabajty danych
  • z każdego podłączonego do Internetu samochodu tworzone są 4 terabajty danych
  • 65 miliardów wiadomości jest wysyłanych przez WhatsApp
  • przeprowadzanych około 5 miliardów wyszukiwań w zasobach Interenetu.

Szacuje się, że do 2025 r. każdego dnia na całym świecie będzie tworzonych 463 eksabajt danych to równowartość 212 765 957 płyt DVD dziennie!

Źródło: https://www.visualcapitalist.com/how-much-data-is-generated-each-day/

Terabajt (TB) to 1 000 000 000 000 bajtów,

petabajt (PB) to 1 000 000 000 000 000 bajtów,

zettabajt (ZB) to 1 000 000 000 000 000 000 000 bajtów.

Dla porównania pierwsza grafika w tym wpisie ma 193 155 bajtów.

Istnieją też szacunki dotyczące ilości danych wytwarzanych podczas pracy naukowej – są to ogromne wartości … zettabajty. Dopiero pewna pandemia unaoczniła obywatelom, ile danych jest niedostępnych dla ich oka, a których, np. z racji na niejednolite systemy w różnych krajach, nie da się ich porównać i użyć. I teraz – jak temu zaradzić?

Grafika w kolorze zielonym. Mężczyzna w kitlu na latającej platformie trzymający tablet. w tle wykresy.

Ilustracja danych z Storyset. Źródło: https://storyset.com/data

Jedną z ośmiu ambicji Komisji Europejskiej jest otwarte udostępnianie danych (ang. open data)[1] i przestrzeganie zasad FAIR data[2] m.in. w celu budowy gospodarki opartej na danych[3]. Jest to zwłaszcza istotne z perspektywy tworzonej infrastruktury o nazwie European Open Science Cloud (EOSC; pol. Europejska Chmura dla Otwartej Nauki), w której budowę angażuje się również Uniwersytet Warszawski (przystąpienie do EOSC Association).

1.1 Why create a European Open Science Cloud?

(…) Today the increase in data per year is measured in Zettabytes (1021 bytes).
This development has nowadays led to an exponential increase in data and information in all branches of society. In the domain of the sciences, this inherently has led to a huge differentiation in subdisciplines, that have often their own ‘language’ and standards. For most of the scientists, it is not possible anymore to read all the relevant material that is being published in their discipline. In some of the domains more relevant publications are being written in one year than a person can read in his or her whole life. Thus, with the help of search engines, publications are selected for reading.
How about data? Most of the underlying data of scientific work are not published. Most of the data does not have the necessary metadata with it. And the data resulting from the majority of scientific studies cannot be found. In some sub-disciplines, the situation is relatively good, but even in those cases the interoperability with other disciplines is usually not taken care of.
Wouldn’t it be good if many more of the data resulting from scientific work would be well curated? Wouldn’t it be great if we would be able to combine any dataset with any other dataset we would want to? Of course, many combinations will not be relevant. However, most of the problems in this world will need the help of several if not many disciplines to come closer to solutions. In other words, if relevant data would be findable, accessible and interoperable for scientists, these combinations would lead to (unforeseen) reuse and to a faster development of science.
This is the aim of what we call the European Open Science Cloud. The ultimate aim is, of course, that this will lead to a global structure where, as a result of the right standardization, data repositories with relevant data can be used by scientists and others to the benefit of mankind. (…)

1.2 What is the European Open Science Cloud?

(…) EOSC is greater than the sum of its parts: by federating data and services we add value. EOSC uses information technologies to revolutionize the way we do research, the way collective scientific knowledge is created in all disciplines, in all geographies.
We could liken EOSC to an open festival of science, inclusive to people of all backgrounds and cultures, with an open-ended range of content and services. There will be headlining acts such as the leading research groups with long-awaited data releases, the groundbreaking algorithms and models, or the killer apps. The diverse range of content available at everybody’s finger tips will open people’s eyes to new interests and collaborations. By offering a space that people want to come to and engage in, creativity will follow; a range of stalls offering a wide variety of publications, data, software and services, catering for diverse user needs will spring up.

Źródło: https://op.europa.eu/en/publication-detail/-/publication/78ae5276-ae8e-11e9-9d01-01aa75ed71a1/language-en (str. 4-5)

Częścią tego ekosystemu jest tzw. Data Europa EU (dawny Europejski Portal Danych), który zapewnia dostęp do ponad miliona publicznych zbiorów danych z 36 krajów. Komisja Europejska indeksuje zasoby danych od krajowych, regionalnych, lokalnych i branżowych dostawców danych publicznych – z Polski przesyła dane m.in.: Portal Geostatystyczny, G-SIP Konstancin-Jeziorna, Geoportal Poland, Geoportal Opole Province, Geo-System metadata catalogue, dane.gov.pl (Poland’s Open Data Portal). W październiku 2021 r. uruchomiono akademię Data Europa EU, która wspiera odkrywanie, opracowywanie i przechowywanie danych (patrz wykaz szkoleń poniżej).

Coraz więcej organizacji międzynarodowych łączy swoje siły w celu optymalizacji globalnego ekosystemu danych badawczych, który w przyszłości zapewni bezproblemowy dostęp do wysokiej jakości interoperacyjnych[4] wyników badań i usług. Do najbardziej znanych należą The Committee on Data of the International Science Council (ISC) CODATA, GO FAIR, The Research Data Alliance (RDA), World Data System (WDS). Podejmując współpracę (porozumienie), skupiają się one na lepszej komunikacji, zminimalizowaniu rozbieżności w ustaleniach m.in. standardów, zapobieganiu powielania prac i wspólnym przygotowaniu szkoleń m.in. dla tzw. data stewards czy data champions, którzy mają wspierać pracowników uczelni we wdrażaniu i przestrzeganiu zasad FAIR data.

Duży unijny projekt, który ma głównie wspierać wdrażanie wspomnianych zasad to FAIRsFAIR (Fostering Fair Data Practices in Europe). W dużym skrócie, ma na celu dostarczenie praktycznych rozwiązań dotyczących stosowania zasad FAIR w całym cyklu życia danych badawczych. Nacisk kładziony jest na: stosowanie dobrych praktyk w tworzeniu danych wg wytycznych FAIR; opracowanie globalnych standardów certyfikacji FAIR dla repozytoriów i danych w nich zawartych; zapewnienie platformy do wykorzystywania i wdrażania zasad FAIR w codziennej pracy europejskich twórców danych i repozytoriów danych badawczych – w ten sposób przyczyniając się do przekształcenia ekosystemu EOSC w funkcjonującą infrastrukturę.


 

Temat Cię zaciekawił, ale nie wiesz gdzie najlepiej skierować pierwsze kroki? Odsyłam do poradnika na temat danych badawczych, który przygotowały Maja Bogajczyk i Anna Książczak-Gronowska oraz do materiałów umieszczonych w zakładce Otwarta Nauka Right Arrow on Samsung One UI 4.0 Otwarte dane badawcze na stronie BUW. Jest tam lista narzędzi i słowniczek wyjaśniający podstawowe pojęcia, które są przydatne przy zagłębianiu się m.in. w dokumentację wyżej wspomnianych organizacji/projektów.

Przesuń suwak po prawej stronie grafiki.

Warto też przejrzeć dostępne kursy (i materiały), które są przeznaczone dla studentów, doktorantów i pracowników naukowych. Przykadowe:

Dobrym rozwiązaniem jest sprawdzenie czy nie ma dostępnych grup (międzynarodowych lub krajowych) dedykowanych temu zagadnieniu, do których można dołączyć, aby wymieniać się doświadczeniami, dobrymi praktykami i wzmacniać swoje kompetencje. Na przykład pod patronatem organizacji GO FAIR (wcześniej wymienionej) i projektu MOST Danych w zeszłym roku, podczas V Pomorskiej Konferencji Open Science (relacja na buwblogu) powstała Grupa Robocza Data Steward Competence Centers (DSCC-PL) skupiająca specjalistów z zakresu Data Management i Data Stewardship z różnych polskich jednostek naukowych (cele). Grupa spotkała się po raz pierwszy w grudniu 2021 r. i teraz będzie raz w miesiącu organizować kolejne na platformie MS Teams. Nadal można do niej dołączyć – użytkownicy grupy to m.in.: bibliotekarze, naukowcy, specjaliści IT czy pracownicy administracji zajmujący się na co dzień archiwizacją, udostępnianiem i popularyzowaniem danych badawczych oraz otwartym publikowaniem. Tu kanały komunikacji z koordynatorami. Kolejne zebranie już 2 marca br.

Grupa Robocza DSCC-PL to pierwsza krajowa inicjatywa kierowana do data stewardów oraz tych wszystkich, którzy w swojej pracy zajmują się zarządzaniem danymi badawczymi. Naszym celem jest, aby nowo powstała Grupa była miejscem współpracy i wymiany myśli oraz przestrzenią do dyskusji na temat aktualnych i przyszłych zagadnień oraz wyzwań związanych z zarządzaniem danymi badawczymi w Polsce.
Źródło: https://event.mostwiedzy.pl/event/4/timetable/

Wraz z utworzeniem Europejskiej Chmury dla Otwartej Nauki (EOSC) w 2018 r. powstała potrzeba budowy sieci centrów kompetencji, które będą wspierać, rozwijać i promować założenia Otwartej Nauki i otwieranie danych badawczych.

Krajowe centrum kompetencji, poprzez efektywne zarządzanie potencjałem instytucji badawczych, uczelni wyższych oraz interdyscyplinarnych ośrodków naukowych, ma za zadanie służyć jako punkt odniesienia w kwestii:

  • szkoleń i doradztwa – budowanie i popularyzowanie świadomości zagadnień Otwartej Nauki, zasad FAIR, otwartego publikowania, archiwizowania publikacji w instytucjonalnym repozytorium, przygotowywania planów zarządzania danymi;
  • wsparcia merytorycznego w kwestiach integracji Otwartej Nauki i codziennych praktyk różnych interesariuszy poprzez nabywanie umiejętności oraz zwiększanie świadomości pozytywnych skutków otwierania nauki;
  • profesjonalizacji – planowanie i promowanie ustrukturyzowanych szkoleń i popularyzacja nowego zawodu – data stewarda – dla instytucji badawczych;
  • dobrych praktyk – promowanie rozwoju oraz rozpowszechniania zasad Otwartej Nauki poprzez ogólnie dostępne wytyczne w postaci standardów, przewodników oraz materiałów szkoleniowych i informacyjnych, m.in. adaptację (tłumaczenie i rozpowszechnianie) oficjalnych materiałów zamieszczonych na stronach instytucji związanych z Otwartą Nauką np. EOSC, GO FAIR;
  • zapewniania dostępu i popularyzacji narzędzi, które stosują dobre praktyki Otwartej Nauki i umożliwiają wymianę doświadczeń interdyscyplinarnych.

Źródło: https://pg.edu.pl/openscience/polska-grupa-robocza/geneza

Już teraz mogę zapewnić, że wpisów na temat danych badawczych będzie w przyszłości na blogu więcej. Przede wszystkim dlatego, że temu tematowi poświęcamy sporo uwagi w projekcie TRAIN4EU+ (wcześniejszy wpis) i IDUB (z perspektywy repozytorium), tak więc to, co uda nam się wypracować w następnych miesiącach będzie warte opisania. Drugi powód to czynny udział w spotkaniach Grupy Roboczej DSCC-PL i wielu innych organizowanych przez UE w celu przyspieszenia wdrożeń m.in. zasad FAIR. A trzeci, to jak widzicie sami, bez danych żyć się nie da, czy to pałając do nich miłością, czy też nie.

[1] Intensyfikując działania organizuje m.in. EU Open Data Days – link.

[2]  Dane powinny być: możliwe do znalezienia – Findable, dostępne – Accessible, interoperacyjne – Interoperable, możliwe do ponownego wykorzystania – Reusable.

[3] Europejska strategia w zakresie danych – link. 

[4] Interoperacyjność wg Wikipedii – link. 

 

Karolina Minch, Oddział Wydawnictw Ciągłych, Pełnomocniczka Dyrektora BUW ds. otwartej nauki

Może tweetniecie jeśli wpis wam się podobał?

⬇️

 

 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.