Ten algorytm zidentyfikuje „fake newsy” w Internecie. Cykl „Młodzi naukowcy UG”

09.02.2022

To, co chcę zrobić w swojej pracy doktorskiej, to stworzyć algorytm, który będzie mógł z pewnym prawdopodobieństwem wskazywać, że dany artykuł jest fake newsem. Fot. Mateusz Byczkowski.

O zalewie informacji zamieszczanych w Internecie, szerzącej się dezinformacji, a także manipulacji opinią publiczną i niebezpieczeństwach, które się za tym kryją rozmawiam z Katarzyną Racą, specjalistką z zakresu analizy danych, asystentką Katedry Statystyki Wydziału Zarządzania Uniwersytetu Gdańskiego, która w ramach swoich badań zajmuje się problematyką „fake newsów” w czasach „postprawdy”.

Elżbieta Michalak-Witkowska: - Żyjemy w społeczeństwie informacyjnym, w którym dominującą rolę, zarówno w aspekcie ekonomicznym, społecznym, kulturalnym czy politycznym odgrywa informacja. Patrząc na to, co dzieje się w Internecie, w którym każdy może napisać wszystko, to nieco niepokojące. Pojawia się pytanie, jak weryfikować treści pod kątem ich wiarygodności?

Katarzyna Raca: - Zawsze u źródła. Ale to, jak wiemy, wymaga dużo czasu. Weryfikacja treści pod kątem wiarygodności, przy tak dużym zalewie danych, to nie lada wyzwanie. Przede wszystkim dlatego, że ilość odbieranych przez nas codziennie informacji przekracza nasze możliwości adaptacyjne. Według badań przeciętny człowiek wchłania ok. 100 tys. słów dziennie ze źródeł masowego przekazu. Sprawę komplikuje też fakt, że część informacji, na które trafiamy, jest nieweryfikowalna - mam na myśli np. teksty, które wzbudzają sensację, ale najczęściej nie niosą ze sobą żadnej informacji.

- Zajmujesz się analizą danych tekstowych, które udostępniane są w Internecie, głównie pod kątem fake newsów. Czyli przychodzisz nam z pomocą i tworzysz algorytm, który ma ocenić, czy dana wiadomość jest prawdziwa, czy nie?

- Tak. Moja przygoda z danymi tekstowymi zaczęła się od pracy magisterskiej, w której analizowałam komentarze na jednym z lokalnych portali informacyjnych. Wtedy pierwszy raz spotkałam się z analizą tego typu danych. Potem zrozumiałam, jak trudne jest to zadanie, m.in. przez stopień skomplikowania naszego języka brakuje narzędzi pozwalających na przeprowadzenie pełnej analizy. Zaczęłam zgłębiać temat, poznawać nowe metody statystyczne. Wiele z nich znałam ze względu na skończony kierunek studiów, ale analiza tekstu to dodatkowe aspekty przygotowania danych, zamiany ich na liczby. Jest to proces długotrwały, który wymaga cierpliwości oraz dokładności. Myślę, że to właśnie zainteresowanie jakością danych występujących w Internecie sprawiło, że obecnie zajmuję się dezinformacją.

- Dezinformacja postępuje. Zwłaszcza w ostatnich latach zjawisko to przybrało na sile i szybko rozprzestrzenia się na skalę globalną.

- Niepokojąca jest świadomość, że nie brakuje ludzi, którzy chcą z premedytacją nami manipulować i celowo sieją nieufność oraz zaostrzają i tak już istniejące podziały społeczne. Przeraża też postępująca technologia, z jakiej korzystają. Można zaobserwować swoistą walkę między obrońcami prawdy, którzy tworzą algorytmy wynajdujące fake newsy, a tymi, którzy z pomocą specjalnie opracowanych algorytmów i sztucznej inteligencji dbają o szerzenie się fałszu.

Katarzyna Raca. Fot. Mateusz Byczkowski/UG.

- Wolność wypowiedzi jest jak najbardziej pożądana, nie ma ku temu wątpliwości. Choć, jak wszystko, ma to też drugą stronę…

- Tak, niesie za sobą negatywne skutki, z którymi osobiście nie mogę się pogodzić. To właśnie spowodowało, że zaczęłam interesować się tą tematyką. Jednym z takich skutków jest wprowadzanie użytkowników Internetu w błąd, co bardzo wyraźnie widać teraz, podczas pandemii koronawirusa - wiele osób wierzy w negatywne skutki szczepień, nie zwracając uwagi na ryzyko wynikające z niezaszczepienia się, co można zauważyć w danych statystycznych. Dodatkowo nieproporcjonalna liczba fałszywych i prawdziwych informacji znajdujących się w Internecie nie ułatwia sprawy. Przykładem takiej nieprawdziwej informacji może być krążące niedawno stwierdzenie: „większość zmarłych z COVID-19 w Szwecji to osoby zaszczepione”. Brak dodatkowych informacji o liczbie zaszczepionych osób w Szwecji (jeden z najbardziej wyszczepionych krajów) czy występowaniu chorób współistniejących przedstawia niepełną informację, wprowadzającą w błąd czytelnika. Niestety mogliśmy o tym przeczytać nie tylko w Internecie. Ta informacja pojawiła się również w telewizji. Co to oznacza? Dziennikarze jej nie zrozumieli lub nie sprawdzili informacji dokładnie, a w ten sposób puścili w świat brednię.

- Od razu przyszła mi na myśl historia znana pod hasłem „pizzagate”.

- Teorie spiskowe są kolejnym przykładem negatywnych skutków wolności wypowiedzi. Jedną z bardziej znanych jest właśnie „pizzagate”. Zwolennicy tej teorii twierdzili, że w jednej z siedzib pizzerii znajduje się gang przestępczy powiązany politycznie z szefem kampanii Hilary Clinton, zajmujący się przemytem ludzi i seksualnym wykorzystywania nieletnich. Pamiętamy, do czego to doprowadziło…. mężczyzna uzbrojony w karabin i pistolet wtargnął do pizzerii, oddając kilka strzałów. Warto tu dodać, że powstawaniu takich teorii sprzyjają bańki filtrujące, które sami tworzymy na portalach społecznościowych poprzez polubienia i obserwację postów potwierdzających nasze przekonania…. Istniały one od zawsze, natomiast mechanizmy występujące w Internecie wzmacniają ich znaczenie w naszym życiu. Powstające w ten sposób teorie spiskowe są niebezpieczne, dlatego trzeba już teraz zahamować proces szerzenia się fake newsów.

- Jesteś więc obrońcą prawdy i właśnie o nią walczysz…

- To, co chcę zrobić w swojej pracy doktorskiej, to stworzyć algorytm, który będzie mógł z pewnym prawdopodobieństwem wskazywać, że dany artykuł jest fake newsem. Udało mi się ustalić podczas badań, że mamy wiele typów fake newsów. W zależności od intencji możemy spotkać się z mylną informacją, celową dezinformacją i propagandą. Z drugiej strony takie informacje mogą przybierać między innymi formę satyry czy manipulacji. Z kolei manipulacja, na której się skupiam w swoich badaniach, może mieć różny charakter, np. mogą to być sfabrykowane dane, zmodyfikowane prawdziwe informacje, treści niezgodne z tytułem, informacje mylnie zacytowane, treści upozorowane. Ze względu na różnorodność fake newsów nie spodziewam się, że stworzę algorytm identyfikujący wszystkie możliwe fake newsy, jest tego po prostu za dużo. Natomiast liczę na to, że mój algorytm będzie w stanie wykrywać choć część z nich, co mam nadzieję przerwie ich rozprzestrzenianie się.

- Co konkretnie miałaś na myśli mówiąc o postępie technologii wykorzystywanej do siania fałszu w Internecie?

- Między innymi deepfake – dość nowy wymiar internetowej manipulacji. Odnoszą się one do nieprawdziwych fotografii czy video. Istnieje po prostu algorytm statystyczny, który na podstawie dostępnych baz zdjęć umożliwia tworzenie wizerunku osób nieistniejących. Łatwo można też zmanipulować video. Dzięki technice stosowanej do łączenia i nakładania obrazów nieruchomych i ruchomych na filmy źródłowe, przy użyciu komputerowych systemów uczących się. W ten sposób można np. zamienić twarze aktorów występujących w jakimś filmie.

- Czy do zwalczania dezinformacji wystarczą same statystyczne algorytmy?

- Zdecydowanie nie. Tworząc swój algorytm niewiele wskóram, ale dołożę choć małą cegiełkę do walki z dezinformacją. Tu otwiera się pole do badań dla psychologów, socjologów, filozofów, czy informatyków – warto przyjrzeć się sprawie fake newsów szerzej - razem zdziałalibyśmy więcej. Tym bardziej, że jest naprawdę dużo do zrobienia.

Moim zdaniem powinniśmy też od najmłodszych lat uczyć dzieci tego, jak znajdywać prawdziwe informację w Internecie. Poza tym zauważam tu dużą rolę mediów – nie tylko w sprawdzaniu podawanych dalej informacji, ale w stworzeniu systemu oceniania prawdziwości informacji. Miałby on analizować artykuł na podstawie zamieszczonych cytatów, źródeł itd.

- Wracając do Twojego algorytmu. Jak to działa, jak go tworzysz?

- W wielkim uproszczeniu wygląda to tak, że mamy bazę prawdziwych i fałszywych informacji, które są odpowiednio poetykietowane. Przygotowujemy dane i dzielimy je na dwie części: zbiór uczący i testowy. Jeden z nich służy do trenowania modelu statystycznego, a drugi do jego testowania. Główną bazę tworzymy sami, to my określamy, czy coś jest fake newsem czy nie.

- Czyli chcąc wierzyć algorytmowi musimy najpierw zaufać komuś, kto go stworzył? Skąd mam wiedzieć, w jaką prawdę ktoś wierzy. I czym w ogóle jest prawda. To mocno filozoficzne pytanie, wiem, ale może zdołasz się do tego jakoś ustosunkować?

- Prawda jest zawsze subiektywna. To fakt. I choć nad jej definicją od lat pracują filozofowie, wciąż bardzo trudno jest wskazać, co jest tą prawdą.

W swojej pracy staram się odwoływać do sprawdzonych, realnych źródeł, zawsze odsyłać do wiarygodnych, konkretnych stron czy video. Algorytm, który tworzę, będzie analizował też strukturę danego artykułu. Sprawdzi, czy na przykład nie występują w fake newsach pewne zależności związane z tekstem, jak choćby interpunkcja czy jakieś powtarzalne słowa.

Jako że sama mam większe zaufanie do algorytmów, które są oparte na danych etykietowanych przez człowieka, w swoim modelu również sama te dane etykietuję, wskazując, czy coś jest prawdą, czy nie.

- Powiedz proszę, jak to się stało, że poszłaś w analizę i statystykę? Od zawsze miałaś do tego głowę, czy wybór studiów był przypadkowy i po prostu świetnie trafiłaś?

Zawsze wiedziałam, że matematyka i informatyka to są te kierunki, które lubię i mnie interesują. Tak się stało że informatyka i ekonometria miała te dwa elementy. To było dla mnie odkryciem - wcześniej długo rozmyślałam, gdzie i jaki kierunek wybrać. Skąd wtedy miałam wiedzieć, czym jest informatyka i ekonometria... Na studiach bardzo zainteresowały mnie te statystyczne przedmioty, a kiedy zrozumiałam, co można z nich wyciągnąć, do czego mogą mnie doprowadzić, nie miałam złudzeń, że wybrałam właściwie.

Obecnie mam wiele pomysłów na badania naukowe związane z analizą tekstu. W związku z tym, oprócz analizy zagadnień związanych z pracą doktorską, prowadzę kilka badań naukowych. Jednym z nich jest projekt realizowany z Zespołem Badawczym Katedry Statystyki Wydziału Zarządzania Uniwersytetu Gdańskiego, w którym próbujemy zidentyfikować wiek użytkowników na Twitterze na podstawie ich wpisów. Na portalu społecznościowym nie ma takich informacji, więc obecnie nie jesteśmy w stanie określić, jakie tematy są poruszane przez konkretne pokolenia, czy jakie emocje wywołują pewne wydarzenia. Takie dane byłyby korzystne z punktu widzenia badań marketingowych, ale nie tylko… myślę, że obecna ilość danych w Internecie może pozwolić nam również na poznanie samych siebie.

- Za chwilę masz obronę doktoratu, do tego prowadzisz zajęcia ze studentami, a dodatkowo jesteś zaangażowana w różne badania naukowe. Niewiele czasu zostaje Ci chyba na odpoczynek?

- W swoim planie dnia zdecydowanie cenię sobie odpoczynek i sen - zapewniają mi lepszą koncentrację i skupienie w ciągu dnia. A moim najlepszym źródłem pomysłów badawczych są spacery – można więc to wszystko połączyć.

Dziękuję za rozmowę.

W cyklu „Młodzi naukowcy UG” piszemy o ludziach z pasją, badaczach, którzy zmieniają świat na lepsze. Zdradzamy, nad czym pracują i jakie korzyści dla społeczeństwa mogą dać owoce ich badań. Przekonajcie się, jak bardzo utalentowani, pełni pasji i zaangażowania są naukowcy z Uniwersytetu Gdańskiego.

Fot. Mateusz Byczkowski/UG

Elżbieta Michalak-Witkowska/Zespół Prasowy UG

Wydział Ekonomiczny

Cykl Młodzi Naukowcy UG

algorytm

fake news

społeczeństwo informacyjne

Analiza danych – Big data