Internet nie gwarantuje wieczności - MIROSŁAW USIDUS o archeologii sieci

Nigdy więcej smutnego losu Biblioteki Aleksandryjskiej, która, według legend zgromadziła całą mądrość starożytnego świata i przepadła w całości – taka myśl patronowała wczesnym twórcom i „ideologom” internetu. Okazało się, że cyfrowa przestrzeń jest tkanką równie kruchą i podatną na zniszczenie, zaginięcie i zapomnienie, jak wszelkie zasoby kulturowe.

Ćwierć wieku temu, gdy internet zaczynał się rozgaszczać w naszym życiu i pracy, nie zastanawialiśmy się nad tym, czy wszystko, co wówczas powstaje, owe pierwsze proste strony, katalogi, bazy danych, projekty, dokumenty i obrazy, zostanie z nami na stałe lub „na zawsze”. Tak, tak. Tak właśnie wtedy myślano o cyberprzestrzeni – jako o sposobie na „uwiecznienie” wytworów myśli i kultury, w przeciwieństwie do np. ulotnego życia egzemplarza gazety codziennej, który przestawał mieć znaczenie, gdy minął dzień. Internet miał stać się wreszcie trwałym uniwersów wypełnionym całym dorobkiem ludzkości, w którym wszystko co stworzyliśmy i zapisaliśmy na nietrwałych nośnikach materialnych, książkach, płytach, taśmach, miało już po wieczne czasy być w całości dostępne jako ogromne archiwum, wiecznotrwała biblioteka ludzkości, której nikt nie będzie mógł spalić czy rozkraść.

Po dwu dekadach z hakiem okazuje się, że, owszem zasoby internetowe stały się przebogate, ale wciąż trudno o cyberprzestrzeni mówić jako o pełnym i trwałym repozytorium dorobku ludzkości. Okazało się też, że przetrwanie rzeczy wydawałoby się (wtedy w latach 90-tych XX wieku) oczywistej, czyli różnego rodzaju artefaktów wczesnego, ale nawet tego nieco późniejszego internetu, wcale nie jest takie oczywiste. Wiele stron czy publikacji, jeśli nikt specjalnie, z planem w głowie, nie zadbał o ich utrwalenie, zapis czy chociażby zrobienie zrzutu ekranowego, istnieje jedynie w pamięci ludzi, którzy je widzieli i czytali. Nawet pierwsza strona WWW, powstała w 1991 roku już nie istnieje. Strona, którą można zobaczyć na stronie World Wide Web Consortium jest kopią wykonaną rok później.

Zdajemy sobie coraz silniej sprawę, że sieć nie różni się zasadniczo od terenów eksploracji archeologicznej, gdzie trzeba żmudnie odtwarzać stratygrafię pradziejową, a w głębszych pokładach podobnie jak w archeologii pełno jest luk, braków, których nie da się już niczym wypełnić, bo historyczne artefakty, po prostu zniknęły, zostały zniszczone, przerobione na coś nowszego, jak np. meksykańskie piramidy z których budulec posłużył budowie katolickich kościołów.

Są oczywiście narzędzia, które specjalizują się w gromadzeniu danych archiwalnych, pomagające w archeologii dawnej sieci, ale nie ma w nich, bo nie może być, wszystkiego. Nie można powiedzieć, że za ich pomocą dotrzemy do dowolnej starej treści, strony, czy wiadomości. W zasobach służących do archeologii starego internetu, np. w serwisie Internet Archive, jest tylko to, co ktoś przezorny w odpowiednim momencie postanowił zindeksować, zachować i uchronić przed całkowitym skasowaniem.

Internet upiorów

Strony WWW są aktualizowane – stare wersje znikają. Tak to zwykle bywa. Czasami strony z zasobami, na których nam jako odbiorcom, zależało, z dnia na dzień przestają istnieć na zawsze a przyczyny mogą być różne. Choćby zaprzestanie publikacji przez autora (lub firmę), który od razu sam zamyka serwis lub wygasa on z powodu braku opłat za hosting. Powodów i przypadków jest bardzo wiele. Efektem jest po prostu rozpływanie się w nicość tego, co miało być „wiecznotrwałym repozytorium ludzkości”.

Inna para kaloszy to platformy społecznościowe. Właściwie, obecnie wciąż jest na nich dostępne wszystko, nawet publikacje z poprzedniej dekady, ale raczej nie w taki prosty sposób, by po prostu wpisać do wyszukiwarki czy cofnąć się na osi czasu. Facebook jeszcze kilka lat temu oferował tego typu narzędzie, za pomocą którego łatwo, z poziomu profilu, można było wyszukać swoje publikacje od początku obecności na platformie. Była to dosłownie „oś czasu”, w sensie wizualnym. Wycofał się z tego, jak łatwo się domyślić, ze względu na ogromną zasobochłonność takiego kalendarium na żądanie. Pamiętajmy, że łączna liczba postów ponad miliarda użytkowników Fejsa już dawno sięgnęła poziomu bilionów, a pewnie i biliardów.

Obecnie swoje i innych stare facebookowe wpisy można wyszukiwać, ale w nieco mniej poręczny sposób, ustawiając słowa kluczowe i lata w wyszukiwarce. Do pradziejowych tweetów też można dotrzeć za pomocą wyszukiwarki Twittera, a dokładnie mówiąc jej rozbudowanej wersji pod adresem: https://twitter.com/search-advanced.

Co się jednak stanie z tym wszystkim, co może w nie tak prosty sposób, ale jednak wciąż jest dostępne na Twitterze i Facebooku, gdy te platformy przestaną istnieć. Jeśli ktoś mi mówi, że nigdy nie przestaną istnieć, to reakcją może być tylko pobłażliwy uśmiech. Pozostaje tam spory i rosnący kawałek naszego życia, rzeczy czasem cenne ze względów osobistych, czasem mające szersze, nawet społeczne i kulturowe znaczenie. I myślicie, że w razie czego tymi biliardami wpisów ktoś się ot tak, za darmo, z dobrego serca i „oczywistej potrzeby przechowania tak cennego archiwum”, zaopiekuje? Wątpię.

Spójrzmy na zasobny Google. Ktoś pamięta jego podejścia do serwisów społecznościowych, np. Google Buzz. Gdzie są treści z tego serwisu? Ktoś umie wskazać, wydobyć, odzyskać? Po co zresztą tak daleko w przeszłość sięgać. Przypomnijmy sobie Google+, kolejną próbę Google’a walki z Facebookiem. Gdzie są te kręgi znajomych, te udostępniane treści itd.? Przypomnijmy sobie w końcu serwis Myspace, kilkanaście lat temu najpopularniejszą społecznościówkę. Ktoś umie pokazać archiwa owego nadzwyczaj bogatego przecież życia społecznościowego?

Jak uważają badacze problemu, na platformach społecznościowych znacząca część publikacji użytkowników i tak znika szybciej, a dokładnie mówiąc – znikają treści, do których odsyłają użytkownicy. Już w 2011 roku Hany Salah-Eldeena i Michael L. Nelson z Old Dominion University. Snappily opublikowali pracę pt. „Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost?”. Praca analizowała treści w społecznościach dotyczące sześciu najważniejszych wydarzeń informacyjnych z poprzednich lat – epidemię wirusa H1N1, śmierć Michaela Jacksona, irańskie wybory i protesty, pokojową Nagrodę Nobla dla Baracka Obamy, rewolucję egipską i powstanie syryjskie. Badacze przeanalizowali zasoby, do których odsyłają te tweety, oraz to, czy są one nadal dostępne, czy zostały zachowane w cyfrowym archiwum, czy też przestały istnieć. Okazało się, że rok po wydarzeniu, średnio około 11 proc. treści online, do których odnoszą się media społecznościowe, zostało utraconych, a tylko 20 proc. zarchiwizowanych. Z czasem to zjawisko się pogłębiało – po dwóch i pół roku 27 proc. opublikowanych treści zostało utraconych, a jedynie 41 proc. Można by powiedzieć, że to nie problem platform, takich jak Twitter, lecz samego WWW. Jednak jaki sens mają i ile są warte wpisy z pourywanymi i pustymi linkami?

Podobne zjawisko, które nasuwa łacińską refleksję „sic transit glora mundi”, możemy ujrzeć na stronie Million Dollar Homepage, która powstała w połowie pierwsze dekady XXI wieku opierając się na pomyśle reklamowej sprzedaży pikseli na powierzchni. Sama strona wciąż jest dostępna, stanowiąc pomnik dobrego pomysłu jej twórcy Alexa Tewa, który rzeczywiście zarobił na niej milion a nawet więcej, ale również jako muzeum upiorów internetu. To może przesada, bo tylko część linków prowadzących z obrazkowych reklam pokrywających stronę jest całkowicie urwana, ale wiele jest np. takich, które odsyłają do czegoś innego niż to, do czego prowadziły pierwotnie.

Oczywiście nie można powiedzieć, że postęp w kierunku cyfryzacji zasobów kultury i myśli ludzkiej nie został dokonany przez te wszystkie lata i dekady. Do sieci trafiły ogromne biblioteki i archiwa nie tylko tekstu, ale również obrazu i filmu. Trudno wręcz opisać całe to bogactwo, z którego możemy czerpać w cyberprzestrzeni, zarówno w otwartym jak tez tym zamkniętych, komercyjnym internecie. Jednak szybkie, czasem niespodziewane i bardzo bolesne znikanie treści wygenerowanych w internecie przed laty zasiewa niepokój o trwałość tej współczesnej nieprzebranej skarbnicy zasobów. Skoro zniknęły te wszystkie strony i publikacje społecznościowe sprzed dwudziestu pięciu, dwudziestu a nawet piętnastu lat, to zaczynamy myśleć o kruchości tego świata, który istnieje tylko wtedy, gdy ktoś za to płaci, czyli ma czym płacić.

Rośnie znaczenie archiwów starej sieci

Liczbę stron internetowych istniejących obecnie szacuje się na blisko dwa miliardy. Co sekundę pojawiają się nowe, co widać w serwisie Live Stats, rejestrującym na żywo rozwój internetu za pomocą serii, nieustannie obracających się liczników. Powstawanie nowych obiektów, na przykład stron na WWW, jest często połączone z kasowaniem obiektów starszych. Jeśli starsze wersje nie zostały nigdzie zapisane, to znikają bez powrotu. Zapisywanie wszystkich starszych obiektów to sprawa nieoczywista, bo miejsce na dyskach kosztuje. Czy jest jakiś sposób za odzysk dawniejszych wersji stron i publikacji sieciowych? Owszem, są takie możliwości, ale, wszystko wskazuje na to, że każdy z nich pozwala na to jedynie częściowo, do pewnego stopnia.

Istnieje na przykład coś takiego jak Cache Google’a, czyli pamięć podręczna wyszukiwarki Google. Zapisuje zrzuty wszystkich stron internetowych, by wyświetlać je, gdy bieżące wersje nie są dostępne. Strony te zostają zapisane w pamięci podręcznej Google. Trzeba w wynikach wyszukiwani kliknąć w link „Kopia”, by zobaczyć poprzednią zapisaną wersję strony.

Trudno jednak uznać to narzędzie za rzeczywiście przydatne do prawdziwej archeologii internetu. Cache podaje wersję poprzednią, wykonaną wtedy, kiedy ostatni raz Googlebot odwiedził stronę, indeksując jej zawartość. A zatem pamięć podręczna Google nie pozwala nam kopać wystarczająco głęboko dla prawdziwego amatora internetowych wykopalisk. Daje nam jedynie dostęp do najnowszej wersji strony, która w 99 proc. przypadków będzie dokładnie tą samą stroną, która działa w danej chwili.

Archeolog internetu potrzebuje nie narzędzia, które odsłoni najwyżej to, co było wczoraj, lecz chciałby wkopać się znacznie głębiej. Crawlery Internet Archive w odróżnieniu od robotów indeksujących Google’a skupiają się nie na wyszukiwaniu najnowszych wersji, lecz na „zatrzymywaniu w kadrze” i zapisie wersji historycznych. Serwis prowadzony jest przez organizację non-profit, która podjęła się zadania zachowania informacji cyfrowej dla przyszłych pokoleń. Gromadzi ona wszelkiego rodzaju dane – skany książek, filmy, nagrania audio, obrazy, a nawet programy komputerowe. A co najważniejsze dla nas, Internet Archive daje nam dostęp do sięgającej lat 90-tych historii sieci, mając już w bazie grubo prawie sześćset miliardów zapisanych stron internetowych. Można je przeszukiwać za pomocą strony internetowej Wayback Machine.

Serwis powstał w San Francisco z inicjatywy Brewstera Kahle w 1996 roku, czyli we właściwym, można powiedzieć, momencie. Upubliczniony został w 2001 roku, po pięciu latach zbierania danych. W 2016 roku pojawiła się bardziej zaawansowana wersja serwisu. Jak wspomniano wcześniej, Wayback Machine, trochę podobnie do Google, wykorzystuje bota do archiwizacji stron. Nawiguje on między stronami, korzystając z linków. I zapisuje wszystko, co znajdzie w tym procesie. Im więcej linków kierujących do strony z innych domen, tym większa szansa, że strona ta zostanie odkryta, czyli znów analogia do Google, ale z innym punktem ciężkości niż w wyszukiwarce. Dlatego duże i popularne strony mają większe szanse na bycie zapisanymi w sposób automatyczny. Natomiast niewielki blog osobisty może umknąć temu mechanizmowi. Dlatego Internet Archive zaprasza wszystkich do zgłaszania swoich stron do archiwum.

Aby znaleźć zarchiwizowane wersje jakiejś strony, trzeba wpisać jej adres URL w pasku wyszukiwania w Wayback Machine. Jeśli nie znamy dokładnego adresu, można spróbować wyszukać po słowach kluczowych, które powinien zawierać. Wynik ma postać graficznego kalendarza z zaznaczeniami. Demonstruje to, ile migawek danej strony zostało utworzonych w ciągu jednego roku. Po wybraniu roku, na kalendarzu poniżej osi czasu pojawiają się kropki, różnej wielkości i barwy. Kropka oznacza, że strona została zarchiwizowana w danym punkcie czasu, a wielkość kropki wskazuje, ile zrzutów zostało wykonanych dla danej daty. Dokładną liczbę można zobaczyć po prostu najeżdżając na kropkę. Kropki mogą mieć cztery różne kolory. Niebieska kropka wskazuje, że obiekt (adres URL) został pomyślnie odwiedzony i zarchiwizowany. Zielony punkt oznacza, że obiekt zawiera przekierowanie do innego snapshota (lub do innego obiektu, który może nie być dostępny w archiwum). Pomarańczowa kropka oznacza, że bot odwiedzając dany URL natrafił na błąd http. Czerwona zaś kropka to wskaźnik, że pojawił się błąd serwera, gdy bot próbował dotrzeć do oryginalnego adresu URL. Jedynymi więc kropkami, które zawierają przechowywane archiwa, są niebieskie. Pozostałe kolory mogą informować o napotkanych problemach lub zmianach w strukturze strony.

To co archeolog sieci otrzymuje po wejściu w zarchiwizowany punkt czasowy może być dość zbliżone do oryginalnej strony, jednak nie będzie to kopia „jeden do jednego”. Widać arkusze stylów i kod HTML oryginalnej strony, ale brakuje m. in. możliwości obsługi JavaScript. Innymi słowy, jeśli strona jest dynamiczna, oparta na skryptach, nie otrzymamy dokładnej kopii. Ponadto archiwum często ma problem z przechowywaniem obrazów. Pomimo swoich ograniczeń, narzędzie jest nadal niezwykle użyteczne i daje możliwość zbadania historii pojedynczej strony i jej ewolucji na przestrzeni lat (pod warunkiem, że istnieje wystarczająca ilość zarchiwizowanych danych). Można również uzyskać dostęp do podsumowania historii strony.

Nikt nie ma wszystkiego

Internet Archive uchodzi za najbogatsze repozytorium historii internetu. Ma jednak swoje ograniczenia i, jak wspominaliśmy nie pokazuje wszystkiego. Narzędzi przydatnych dla archeologów sieciowych jest więcej, ale jasno trzeba sobie powiedzieć, że żadne z nich nie dotrze do wszystkiego a przede wszystkim nie dotrze do tego co fizycznie nie istnieje i nie można zrobić kopii i zrzutu strony. Zamierzenie znalezienia wszystkiego co kiedykolwiek ukazało się w sieci, jest w ogóle niewykonalne. Mając świadomość tych ograniczeń możemy podjąć realistyczną eksplorację, której wyniki będą lepsze, jeśli skorzystamy nie z jednego a z kilku narzędzi, dodając kolejne obszary oferowane przez różne narzędzia.

Nie tyle alternatywą Internet Archive, ile innym sposobem utrwalania archiwaliów jest odpłatny serwis Stillio, który wykonuje regularne automatyczne zrzuty ekranowe stron internetowych. Jest to zasadniczo serwis komercyjny stworzony z myślą o webmasterach, specjalistach SEO itp., ale przez to, że gromadzi bazę wersji stron jest również narzędziem dla archeologów sieci. Podobnymi do Stillio rozwiązaniami są PageFreezer lub Domain Tools, w którym można również sprawdzić rekordy Whois, aby ustalić dane kontaktowe właściciela witryny, datę rejestracji domeny, jej historię IP i wiele innych

Narzędziem do badania historii serwisów i domen jest archive.today. W porównaniu z Internet Archive nacisk kładzie się tu nie tylko na aspekty tekstowe, ale również przechowanie obrazów, które, o czym każdy użytkownik Wayback Machine wie, że znikają i są niedostępne znacznie częściej niż tekst. Serwis jest darmowy w użyciu, prosi jednak o darowizny bez których nie może funkcjonować.

Interfejs programistyczny API archive.today i Internet Archive jest wykorzystywany przez inne szperacze historyczne, np. Memento TimeTravel. Istnieją też lokalizowane wersje repozytoriów archiwalnych takie jak budowany przez British Library od 2004 roku, ukierunkowany na internet brytyjski (choć można znaleźć tym repozytorium także wiele zasobów z innych krajów) serwis – www.webarchive.org.uk, lub archiwum portugalskie arquivo.pt, które jak się w praktyce okazuje, potrafi również serwować polskie zasoby internetowe z dawnych lat.

Można się spodziewać, że z biegiem czasu i starzeniem się internetu, rola historycznych archiwów, narzędzi pozwalających wejrzeć w dawne strony, zamierzchłe wersje i zapomniane publikacje, będzie rosła. Niewykluczone, że archeologia, historia i badanie dziejów sieci stanie się tak samo poważną dziedziną nauki jak historia wojen czy ekonomii a ludzie chętnie będą odwiedzać muzea artefaktów dawnego internetu

Internet oprócz wielu innych cech miał też charakterystyczny rys „szybkości” – szybkości działania, dostępu, dystrybucji, zapisu itd. Okazało się, że tempo, w jakim stał się polem badań dla archeologów, w końcu ledwie trzy dekady, również potwierdza tę cechę. Ruiny, skorupy i inne artefakty tradycyjnej archeologii czekały tysiące i setki lat. Cyberprzestrzeń staje się obszarem poszukiwań artefaktów już po kilkunastu latach. Może wkrótce dorobi się swojego Indiany Jonesa?

Mirosław Usidus

Mirosław Usidus

Redaktor naczelny miesięcznika m.technik („Młody Technik”). Dziennikarz i przedsiębiorca. Weteran Internetu. Współtwórca „Rzeczpospolitej” Online, portalu TVP, i wielu innych serwisów internetowych. Jako partner, mentor i szkoleniowiec pomaga ludziom, organizacjom i firmom, ulepszać komunikację w nowych mediach

See author's posts