BuwLOG

IV Warsztat Pracy Infobrokera

By Ranjithsiji – Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=68375079

W maju, na terenie Wydziału Zarządzania i Komunikacji Społecznej Uniwersytetu Jagiellońskiego po raz czwarty odbył się Warsztat Pracy Infobrokera. Uczestniczyły w nim osoby zawodowo zajmujące się informacją, które zaprezentowały prezentacje związane nie tylko z wyszukiwaniem, analizą, opracowaniem i weryfikacją informacji, ale także z jej nowoczesnymi sposobami zarządzania i prezentowania.

Wykład wprowadzający dr hab. prof. UJ Magdaleny Szpunar o sieci ukrytej i widzialnej pokazał, jak bardzo nasze przekonanie o nieograniczonym dostępie do informacji online jest złudne. I to nie tylko dlatego, że głęboka sieć (deep web), która nie jest indeksowana przez standardowe wyszukiwarki, zawiera aż 400-550 razy więcej informacji (wg badań M. Bergmana) niż w powszechnie dostępnej sieci WWW. Wynika to również ze struktury połączeń w sieci widzialnej, która swoim kształtem przypomina muchę do garnituru (stąd typologia muchy). Okazuje się, że tylko 25% wszystkich stron internetowych znajduje się centrum, podczas gdy cała reszta – z powodu małej liczby powiązań – dryfuje gdzieś na peryferiach. I wśród nich aż 10% internetowych witryn nie ma w ogóle połączeń z innymi stronami, co oznacza, że jeżeli nie dysponujemy adresem url, to dotarcie do nich jest prawie niemożliwe. Tym bardziej, że zazwyczaj nasze wyniki wyszukiwania ograniczamy do 3-4 stron przeglądarki. A zatem nawet tutaj ujawnia się efekt św. Mateusza (nazywany inaczej “efektem skumulowanej przewagi”) – kto ma, temu będzie dodane, i nadmiar mieć będzie; kto zaś nie ma, temu zabiorą również to, co ma (Biblia Tysiąclecia Mt 13,12). Gdyż – jak wykazali naukowcy Barbasi i Albert – strony, które posiadają więcej linków przychodzących, zdobywają szybciej kolejne linki referencyjne, w porównaniu do miejsc mało popularnych w internecie. I to samo dotyczy mediów społecznościowych – szansa pozyskania nowych połączeń jest wprost proporcjonalna do wielkości danego węzła w sieci społecznej. Dlatego im więcej osób należy do danej społeczności (np. użytkownicy portalu społecznościowego, fanpage lub liczba znajomych na Facebooku), tym szybciej społeczność ta będzie się powiększać.

Na dodatek wyszukiwarki, którym przypisuje się swobodę wyboru, realnie ograniczają naszą samodzielność, wyobraźnię i możliwość decydowania. Stają się nieformalnymi autorytetami, tworem, który zwalnia nas niejako z procesu myślenia. Najgorsze jest jednak to, że przyczyniają się nie tylko do selekcji bardziej znaczących witryn, lecz także znajdują się pod ich wpływem. Poddały się bowiem dyktatowi rynku i komercjalizacji, o które jeszcze do niedawna nikt wyszukiwarki nie posądzał. Wydaje się jednak, że w tym przypadku realizuje się model biznesowy: darmowa usługa – komercyjna/korporacyjna kontrola. Wyszukiwarki stają się współczesnymi „strażnikami”, wytwarzając iluzję niczym nieograniczonego wyboru. Oznacza to, że  wolność w internecie ma charakter pozorny i jak trafnie konstatuje Wojciech Orliński: Dopiero internet spełnił odwieczne marzenie cenzorów o cenzurze tak doskonałej, że odbiorcy nie są świadomi jej istnienia. Dlatego, choć wyszukiwanie spersonalizowane oznacza wysoką trafność prezentowanych wyników, to niesie ze sobą poważne konsekwencje ograniczania dostępu do szerokich zasobów wiedzy. Eli Pariser nazwał to zjawisko bańką informacyjną/filtrującą (filter bubble). Internauci zamykani są w świecie własnych poglądów, uprzedzeń, bez możliwości natrafienia na coś nieznanego. Potwierdził to drugi prelegent – Michał Marek z Centrum Analiz Propagandy i Dezinformacji, omawiający temat działania algorytmów, które zarówno w mediach społecznościowych, jak i w innych serwisach podają nam treści dostosowywane do naszych wcześniejszych preferencji. Sprzyja to radykalizacji i polaryzacji środowisk o przeciwnych poglądach, a tym samym dużym manipulacjom na arenie politycznej. Za dowód może posłużyć raport amerykańskiej firmy zajmującej się cyberbezpieczeństwem SafeGuard Cyber, która badała działania informacyjne w mediach społecznościowych w okresie od listopada 2018 do marca 2019 r. Analizie poddano 3,5 mln postów zamieszczonych na serwisach Twitter, Facebook, Instagram oraz YouTube. Wynika z niego, że około połowy populacji UE, tj. ok. 240 mln ludzi mogło zostać narażonych na treści publikowane i promowane w ramach rosyjskich kampanii dezinformacyjnych. Pojawia się pytanie – jak to wpłynęło na wynik wyborów do parlamentu UE? I jak w przyszłości się nie dać zmanipulować? Prelegent podaje na to jedną receptę:  Jeżeli chcemy przełamać bańkę informacyjną, która nas otacza, musimy starać się wychodzić poza grupę przyjaciół o podobnych poglądach oraz fanpage i portale o zbliżonym profilu ideowym. Unikanie znajomych i mediów, z którymi się nie zgadzamy, niekorzystnie wpływa na nasz obraz świata.

Na szczęście w internecie są miejsca, do których nie docierają globalne macki Google’a i do których nie wejdziemy używając zwykłej przeglądarki. I w dodatku w których wciąż jeszcze można pozostać anonimowym. Takim miejscem jest m.in. cebulka, czyli sieć TOR (The Onion Router), do której posurfowaliśmy wraz z prokurator specjalizującą się w cyberprzestępczości – dr inż. Agnieszką Gryszczyńską. TOR jest to sieć mniej dostępna i dużo bardziej mroczna od zwykłego internetu, niemal całkowicie anonimowa. Lubią ją: przestępcy, hakerzy, oszuści, paranoicy, anarchiści, pedofile oraz również … funkcjonariusze rządowych służb. A także wszyscy dbający o prywatność. To osobny podziemny świat, z własnymi bezprawnymi zasadami (np. BHP), kulturą, a nawet specjalną walutą. Surfując po cebulowych stronach ukrytej sieci, spotykamy internet z jego początków: prymitywne strony bez zbędnej grafiki, reklam, a fora i kanały dyskusyjne zapełnione są przez wąską grupę wtajemniczonych, gardzących niezorientowanymi noobami (nowicjuszami). Znajdziemy tu pełną gamę tematów: od tego, jak dokonać oszustwa poprzez ofertę narkotyków, zlecenie morderstwa (które okazuje się tańsze od zlecenia upozorowania wypadku(!), aż po porady typu: jak pozbyć się zwłok itd. Wbrew powszechnej opinii sieć TOR nie musi służyć wyłącznie do działalności przestępczej, a jej użytkownikami nie są jedynie osoby, które chcą ukryć się przed organami ścigania. Wiele osób korzysta z TORa w służbie dobra. To właśnie tutaj możliwe jest upublicznianie informacji, które mogą być blokowane przez władze niektórych krajów. Dobrym przykładem może być postać Mauretańczyka Nassera Weddady’ego, który wykorzystał sieć TOR do poinformowania całego świata o praktykowanym w Mauretanii niewolnictwie. Jednocześnie sieć TOR to także dobre narzędzie dla dziennikarzy czy osób związanych z polityką, które chcą „przemycić” pewne informacje do wiadomości publicznej, jednak nie mogą zrobić tego w tradycyjny sposób.

W kontekście anonimowości i przestępców pojawiło się pytanie: jak zapewnić prywatność i bezpieczeństwo naszych danych w „widzialnej” sieci? Na to starali się odpowiedzieć: Inspektor Ochrony Danych – Sławomir Głaz, prawnik z Fundacji JAWNOSC.PL – Piotr Sitniewski oraz przedstawiciel Ministerstwa Cyfryzacji – dr Maciej Kawecki. Jak wiemy, 25 maja minął rok, odkąd w Unii Europejskiej rozpoczęto stosowanie wyczekiwanego ogólnego rozporządzenia o ochronie danych (RODO). Miało zapewnić lepszą ochronę danych osobowych Europejczyków. Z całą pewnością zaowocowało kolejnymi niechcianymi okienkami wyskakującymi w trakcie przeglądania internetu oraz absurdami typu wyczytywania w przychodni „ksywek” zamiast nazwisk pacjentów, nieudzielenie przez szpital rodzicom informacji o stanie zdrowia ich dzieci przywiezionych z wypadku, czy też wystąpieniem – co najmniej 100 osób – do Ministerstwa Cyfryzacji z żądaniem usunięcia ich danych z bazy PESEL, co uzasadniali skorzystaniem z prawa do bycia zapomnianym. W związku z tym, 4 maja 2019 r. w życie wszedł pakiet zmian prawnych w 168 ustawach (m.in. w kodeksie pracy, prawie budowlanym czy przepisach dotyczących banków, ubezpieczycieli i dostawców usług elektronicznych), które albo stanowią reakcję na wspomniane absurdy, albo są rozwiązaniami liberalizującymi. Tym bardziej, że liczba skarg na naruszenie przepisów RODO kierowana do krajowych organów nadzorczych stale wzrasta. Część z nich stała się już podstawą do nałożenia kar finansowych w państwach europejskich. W Polsce jak na razie nałożono „tylko” dwie kary i wciąż pojawiają się wątpliwości czy pierwsza była słuszna? Otrzymała ją warszawska spółka gromadząca ogólnodostępne w internecie dane osób prowadzących działalność (podane przez nich w CEiDG, KRS, GUS, CEPiK, Monitorze Sądowym i Gospodarczym), która tworzyła z tego bazy danych, pozwalające na weryfikację wiarygodności tych podmiotów. Jak podaje Urząd Ochrony Danych Osobowych (UODO), o fakcie przetwarzania danych zostali poinformowani tylko ci przedsiębiorcy, którzy podali w oficjalnych rejestrach swój adres mailowy. W przypadku pozostałych ukarana spółka postanowiła skorzystać z wyjątku opisanego w art. 14 pkt 5 ogólnego rozporządzenia o ochronie danych osobowych (RODO), który pozwala odejść od obowiązku informowania o przetwarzaniu danych, jeżeli wymagałoby to niewspółmiernie dużego wysiłku. Firma wyszła bowiem z założenia, że koszt wydrukowania listów, zapakowania ich w koperty i wysyłki pocztą byłby niewspółmiernie duży do zysków jakie planowała osiągnąć. UODO uznał jednak, że firma postąpiła niewłaściwie i powinna powysyłać listy. Nałożył na spółkę prawie 1 mln złotych kary, a także nakazał wysyłkę listów do osób prowadzących działalność gospodarczą, które nie zostały poinformowane o fakcie, że ich dane są przetwarzane. Według obliczeń spółki oznacza to dodatkowy koszt w wysokości prawie 25 mln zł. Szkopuł w tym, że ta pierwsza kara nałożona przez Urząd Ochrony Danych Osobowych ma znaczenie nie tylko dla nowoczesnego biznesu przetwarzającego dane dla zysku, ale także dla organizacji pozarządowych walczących z korupcją. Ich też dotyczy obowiązek informowania o przetwarzaniu danych wszystkich zarejestrowanych w Centralnej Ewidencji i Informacji o Działalności Gospodarczej (CEIDG). Prawnicy wskazując na ogromne koszty takiej operacji alarmują, że w praktyce uniemożliwi to wykorzystanie takich danych organizacjom działającym non profit. Absurdem jest również to, że podmiot w CEIDG jest inaczej chroniony niż podmiot w Krajowym Rejestrze Sądowym (KRS). KRS został bowiem wyłączony spod RODO, co oznacza, że każdy bez żadnych przeszkód może przetwarzać informacje o powiązaniach osobowych i kapitałowych, które się w nim znajdują. Niestety, mimo prezentacji Łukasza Nowaka z Transparent Data o obecnych barierach technologicznych i nietechnologicznych dla informacji gospodarczej, zabrakło dyskusji dotyczącej jawności rejestrów publicznych. To, co chronione jedną ustawą, drugą ustawą się udostępnia. Dotyczy to również tajemnic państwowych, służbowych itd., których w naszym ustawodawstwie jest ponad 130. Ich regulacja prawna (ze względu na problemy definicyjne, różnorodność i niespójność) jest tak samo rozległa, rozproszona i niejednoznaczna jak ochrony danych osobowych. W efekcie, jak udowodnił kolejny prelegent – Marcin Preś, zawodowo związany z dochodzeniem należności z wykorzystaniem wywiadu jawnoźródłowego (ang. OSINT), wszystkie informacje są na wyciągnięcie ręki. Pokazał to na przykładzie losowo wybranego budynku. Jego dane wprowadził do portalu Geoportal.pl, który pozwolił zmierzyć kubaturę nieruchomości w celu oszacowania jego wartości. Następnie poprzez ewidencję gruntów i budynków (EGiB) sprawdził, jakie podmioty gospodarcze go zajmują. Była to apteka i przychodnia, więc przeszedł do informacji o umowach na stronie NFZ, by zorientować się na jaką sumę opiewa ich kontrakt. Dodatkowo zerknął w REGON, by przeanalizować przeszłość gospodarczą właścicieli. A następnie przeskoczył do KRS, do przeglądarki dokumentów finansowych, by zorientować się ile zarobili w danym roku, a także przy okazji zerknął w pesele, żeby dowiedzieć się „kiedy właściciel ma urodziny”. Dzięki tym peselom otworzyły się przed nim informacje zawarte w Naczelnej Izbie Lekarskiej. Z portalu CEDIG wydobył adresy mailowe właścicieli wraz z adresami domowymi i nazwiskami rodowymi.  Mając już taki komplet informacji mógł poznać prywatne życie tych osób ujawnione w mediach społecznościowych.

A jak znaleźć londyńską prostytutkę z końca XIX w. mając tylko fragment jej nazwiska S… k..us? Zwłaszcza, kiedy pasjonat chce za poszukiwania zapłacić aż 70 euro? Wystarczy pasja językoznawcy i informatyka, czyli „grepowanie” internetu za pomocą wyrażenia regularnego S… k..us i dodanie do tego paru słów kluczowych typu  „nazwisko”, „prostytutka” itp. Z owej pasji językoznawczo-informatycznej w Instytucie Językoznawstwa i Pracowni Systemów Informacyjnych Uniwersytetu im. Adama Mickiewicza w Poznaniu powstał system wyszukiwawczy Odkrywka, który na konferencji zaprezentowali Filip Graliński i Karol Świetlik. Odkrywka pozwala na prowadzenie badań w zakresie m.in.: kreatywności językowej literatów i dziennikarzy, fluktuacji ortograficznych, legend miejskich, trendów społecznych, lingwochronologizacji czyli historii słów. Planowane są również badania nad słowami-efemerydami, tj. wyrazami używanymi w języku wyłącznie w krótkich odstępach czasu, nad śledzeniem historii wybranych polemik prasowych, a także historii polskiej prasy XIX i XX w. Odkrywka ma być również używana do wyszukiwania informacji biograficznych, jak również do poszukiwania informacji rozproszonych bądź zaginionych. Może taka Odkrywka znalazłaby też zastosowanie w katalogu NUKAT?

Iwona Ruść, Centrum NUKAT

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.