Dżentelmeni o danych nie dyskutują, dżentelmeni je znają – MIROSŁAW USIDUS o dziennikarstwie danych

Jest stara anegdota o człowieku na dachu swego domu, wśród strasznej powodzi, który modli się do Boga o ratunek. Odprawia jednak łódź a potem helikopter ratunkowy, twierdząc, że Bóg go uratuje. Podobnie do prasy i dziennikarzy znajdujących się również w niewesołej sytuacji Najwyższy kieruje rozmaite pomysły ratunkowe… np. tzw. data journalism, czyli dziennikarstwo danych. Czy ta nieoczywista pomoc od opatrzności zostanie przyjęta przez ludzi mediów?

Dziennikarstwo oparte na danych w nowoczesnym, opartym na wielkich mocach obliczeniowych, zaawansowanym oprogramowaniu analitycznym i wreszcie – niezwykłych narzędziach wizualizujących, które pozwalają przygotowane przez ludzi i system dane atrakcyjnie sprzedać – to ani jedyny, ani uniwersalny, ani tym bardziej „cudowny” sposób na odnowienie medialnego biznesu. Niewątpliwie jest to jednak ciekawy nurt innowacji.

Warto uświadomić sobie, że w cyberprzestrzeni coraz większa liczba nie tylko firm i organizacji, ale również zwykłych ludzi poszukuje nie tyle tekstów, artykułów, lecz danych. Te z kolei tylko dla niewielu są strawne na surowo. Kto ma je przyrządzić, zrobić z nich pożywne i smaczne dania, poporcjować je i estetycznie podać? Kto, jeśli nie dziennikarze i redakcje?

Gdyby się nad tym zastanowić, to praca środków masowego przekazu od zawsze polegała na przetwarzaniu zgodnie z redaktorską wiedzą i umiejętnościami, redagowaniu i serwowaniu danych w postaciach, które były przyswajalne dla czytelnika, słuchacza, widza. Różnica związana z upowszechnianiem się pojęcia „data journalism” w ostatnich latach ma charakter poniekąd ilościowy, bowiem w tym nowym sensie chodzi o przetwarzanie ogromnych ilości danych (big data), z czym człowiek z natury rzeczy nie umiałby sobie poradzić.

W przykładach, które podaję, także część zadań „ludzkich”, związanych analizą, syntezą, skrótem a nawet interpretacją danych, jest przejmowana przez maszyny. Wciąż jednak kluczowy jest czynnik ludzki, redakcja, decyzje, pomysły i koncepcje. Choć tak bardzo „data”, to jednak wciąż „journalism”.

Dziennikarstwo z szafy

Może trzeba zacząć od tego, że „data journalism” nie jest wcale taką nowinką, jak niektórzy mogliby pomyśleć. Jeden z pierwszych przykładów wykorzystania komputerów w dziennikarstwie pochodzi już z 1952 roku, kiedy stacja CBS podjęła próby wykorzystania komputera typu mainframe do przewidywania wyników wyborów prezydenckich.

Dopiero w 1967 r. zaczęto powszechniej stosować komputery do analizy danych. Pracujący dla „Detroit Free Press”, Philip Meyer używał w późniejszych latach komputerów typu mainframe (czyli zestawu wielkich szaf – pecetów wtedy nie było) do przetwarzania danych na temat zamieszek w mieście i zapadających w związku z nimi wyroków skazujących. Meyer napisał później książkę „Precision Journalism” (Dziennikarstwo precyzyjne), w której rekomendował wykorzystanie komputerowych technik syntezy i analizy danych w dziennikarstwie.

Pod koniec lat osiemdziesiątych XX wieku dziedzina dziennikarstwa wspomaganego komputerowo zaczęła przyspieszać. W 1989 r. reporter śledczy Bill Dedman z „The Atlanta Journal-Constitution” zdobył nagrodę Pulitzera za zbiór reportaży pt. „Kolor pieniędzy”. Dzięki technikom komputerowej obróbki dużych zasobów danych zebrał dowody na praktyki dyskryminacji rasowej, z jakimi mają do czynienia kolorowi w bankach i innych instytucjach udzielających kredytów.

Pierwszą odnotowaną historycznie formą wykorzystania wielkich danych przez dużą organizację informacyjną jest inicjatywa „The Guardiana”, który w marcu 2009 roku uruchomił Datablog, określany oficjalnie jako „pierwszy systematyczny projekt polegający na włączeniu publicznie dostępnych źródeł danych do serwisów prasowych i newsowych”.

Zawiera teraz całą sekcję wiadomości, w której znajdują się historie napędzane danymi, bazy danych z możliwością wyszukiwania, wizualizacje danych oraz narzędzia do ich eksploracji. Opisy Dzienników Wojennych Strażnika wykorzystywały bezpłatne narzędzia do wizualizacji danych, takie jak Google Fusion Tables, kolejny popularny aspekt dziennikarstwa danych. Fakty są święte dla redaktora The Guardian’s Datablog, Simona Rogersa, który tak opisuje dziennikarstwo danych. Dziennikarze Datablog używają arkuszy kalkulacyjnych Google, aby dzielić się pełnymi danymi, które kryją się za ich pracą, wizualizować i analizować te dane oraz dostarczać historie dla gazety i strony internetowej. „The Guardian” włączył dane do procesu produkcji wiadomości w sposób, który odróżnia je od wielu innych gazet. Poprzez Datablog, Guardian zapewnia dostęp do surowych statystyk stojących za wiadomościami i sprawia, że można je eksportować w dowolnej formie, jakiej życzy sobie użytkownik.

Według założyciela Datablog, Simona Rogersa, dziennikarstwo danych może być wszystkim, gdy tylko zechce być. „To mogą być te ogromne projekty analizy danych. Czasem może to być po prostu znajdowanie określonych danych do prezentacji czytelnikom. Nie różni się to w żadnym razie od podstaw warsztatu dziennikarskiego polegającego na pozyskiwaniu i poszukiwaniu informacji”.

Argentyńska mapa korupcji

Wspominałem o wizualizacji danych, które można wykorzystać w praktyce w publikacjach, czy to tradycyjnym czy też o cyfrowym charakterze. Nie chodzi o efekciarstwo i urozmaicanie monotonnych „blach tekstowych”, lecz o programowe wizualizowanie informacji, które z jednej strony wychodzi naprzeciwko współczesnej kulturze obrazkowej, z drugiej – sprawia, że najtrudniejsze, najcięższe tematy zyskują na czytelniczej atrakcyjności. Z Argentyny pochodzi przykład, w którym dziennikarze śledczy wykorzystali nie tylko techniki „data journalism”, ale również działające na wyobraźnię wizualizacje, aby zwiększyć siłę rażenia swoich demaskujących publikacji.

„La Nación”, największa gazeta codzienna w Argentynie, od kilku lat korzysta z technik przetwarzania danych. Pełną garścią sięgnęła po nowe środki pozyskiwania informacji i ich prezentowania w szeroko zakrojonym śledztwie dziennikarskim dotyczącym korupcji. Więcej na jego temat można się dowiedzieć, zapuszczając w Google hasło „La Nacion The notes of bribes”.

Rzecz zaczęła się w styczniu 2018 roku, kiedy to w ręce Diego Cabota, dziennikarza śledczego „La Nación”, trafiło osiem zeszytów/notesów, z notatkami kierowcy Roberto Baratty, argentyńskiego sekretarza ds. energii. Ministrem odpowiedzialnym za kierowaną przez niego agencję był Julio De Vido, znany urzędnik administracji prezydenta Kirchnera (w latach 2003 – 2015 r.). Zespół „La Nación” od samego początku widział, że notatniki zawierają interesujące informacje – szczegółowe opisy tras, którą kierowca pokonał w ciągu ostatnich dziesięciu lat, wożąc Barattę i innych urzędników do miejsc, w których podrzucano worki z gotówką, czyli łapówki od dużych przedsiębiorstw, otrzymujących duże zamówienia publiczne.

Redakcja „La Nación”, jak każe rzemiosło, przede wszystkim chciała zweryfikować wszystkie wynikające z notatek informacje. Doprowadziło to do problemu, z którym muszą się zmierzyć wszystkie przedsiębiorstwa zajmujące się przetwarzaniem danych – co robić, gdy najważniejsze dane są w problematycznej formie? W tym świecie nie ma magicznych różdżek tylko żmudna praca. I zespół Cabota ją podjął, transkrybując z mozołem, ale systematycznie każdy wiersz do arkuszy kalkulacyjnych Excela, dzieląc na kolumny z nazwiskami i stanowiskami, adresami, danymi rejestracyjnymi samochodów, nazwami przedsiębiorstw, miejscami dostaw, danymi osobowym osób zidentyfikowanych w momencie wypłaty łapówki i kwotami łapówek.

Wszystkie informacje dotyczące płatności zostały skorelowane z listą przetargów i zamówień publicznych. W pewnym momencie redakcja „La Nación”, jak sama napisała, „zrozumiała, że pracuje nad największą siecią korupcji, jaką kiedykolwiek ujawniono w Argentynie”. Po siedmiu miesiącach śledztwa dziennikarskiego i żmudnej analizy danych, jego wyniki zostały opublikowane. Obecnie prowadzonych jest kilkadziesiąt dochodzeń organów ścigania w tej sprawie, w tym przeciw byłemu prezydentowi Argentyny. Czterdzieści osób jest już w areszcie. Odzyskano 600 milionów dolarów pieniędzy z łapówek.

Zgromadzone dane są prezentowane a przede wszystkim wizualizowane w formie map w ramach projektu Open Data Journalism for Change. Jeśli o czymś mówi się, że jest „porażające” to dane prezentowane przez „La Nación”, wizualizowane jako „mapy korupcji” są porażające tym bardziej. Każdy obywatel może sprawdzić jak jego miasto czy okręg został przeżarty tym zjawiskiem.

Pozyskane w tym wielkim projekcie know-how informacje gazeta wykorzystuje teraz do innych projektów „data journalism”, dotyczących m. in. kwestii zmian klimatu i ich wpływu na różne regiony Argentyny, zanieczyszczeń w poszczególnych okręgach lub ubóstwa dotykającego dzieci. Warto dodać, że „La Nación” udaje się pozyskiwać z zewnątrz finansowanie dla swoich projektów. W 2018 roku zebrano ponad pół miliona dolarów na analizy danych dotyczących ubóstwa.

Jest tu wszystko, co definiuje poważne i liczące się dziennikarstwo. Ważne tematy, dochodzenia, wytrwałe i bezkompromisowe odkrywanie prawdy, zaangażowanie społeczne i ogromny oddźwięk społeczny. Widać nawet rozwiązanie problemu opłacalności podejmowanych działań, gdyż takie zbiory danych mają wartość wykraczającą poza jednorazową sprzedaż publikacji. Z tym tylko, że wszystko to dotyczy nie tradycyjnie rozumianej reporterki, lecz przetwarzania big data.

Ciekawa rozmowa to wciąż podstawa

Praktyk „data journalism” Ben Casselman, dziennikarz ekonomiczny redakcji „The New York Times”, opowiadał w listopadowym wydaniu swojej gazety, o tym jak używa języka programowania o nazwie R i pracuje z ogromnymi zbiorami danych. Owszem, warsztat dziennikarza zajmującego się przetwarzaniem danych to narzędzia informatyczne. Casselman podkreślał jednak, że najlepsze materiały powstają wciąż dzięki rozmowom z ludźmi.

„Myślę, że niektórzy ludzie mają takie wyobrażenie, że „data journalism” oznacza wpatrywanie się w arkusze kalkulacyjne aż do momentu, w którym magicznie pojawia się materiał do publikacji, jednak w prawdziwym świecie, niemal nigdy nie dochodzi do takiej sytuacji. Najlepsze artykuły prawie zawsze wyłaniają się z rozmów z ludźmi, niezależnie od tego, czy są oni ekspertami, czy po prostu zwykłymi ludźmi, których dotyczą sprawy, o których piszemy. To oni zadają pytania, na które dane mogą pomóc odpowiedzieć, wyjaśniają tendencje, które dane ujawniają, lub też mogą dostarczyć zmarszczek i niuansów, które dane przyćmiewają” – mówił.

Jego redakcja prowadzi kursy dla reporterów i redaktorów, które mają na celu przekazanie im podstawowych umiejętności dotyczących rozumienia i przetwarzania danych, w tym sztuki sprawdzania ich wiarygodności, oceny twierdzeń statystycznych i korzystania z arkuszy kalkulacyjnych w celu analizy zbiorów danych. Rośnie przekonanie, że w obecnym świecie coraz trudniej będzie zajmować się żurnalistyką bez umiejętności w tej dziedzinie. Od dziennikarzy będzie się tego oczekiwać.

Można to ująć inaczej. Kiedyś od dziennikarza oczekiwano, aby był dobrze poinformowany, czyli znał fakty, jak prawdziwy dżentelmen, który o faktach nie dyskutuje, bo fakty zna. Dziś można już rozciągnąć te oczekiwania na nieco szersze niż fakty pojęcie danych. Nie dyskutujemy o danych. Znamy je, rozumiemy i wiemy, co z nich wynika.

Mirosław Usidus

Mirosław Usidus

Redaktor naczelny miesięcznika m.technik („Młody Technik”). Dziennikarz i przedsiębiorca. Weteran Internetu. Współtwórca „Rzeczpospolitej” Online, portalu TVP, i wielu innych serwisów internetowych. Jako partner, mentor i szkoleniowiec pomaga ludziom, organizacjom i firmom, ulepszać komunikację w nowych mediach

See author's posts