Dezinformacja w erze cyfrowej nie jest już przede wszystkim problemem fałszywych treści ani złośliwych aktorów.
- 3 dni temu
- 4 minut(y) czytania
Jest problemem systemów uczenia maszynowego, które nieustannie uczą się, co należy wzmacniać. To, co staje się widoczne, co wydaje się „normalne” i co zaczyna dominować w przestrzeni uwagi publicznej, jest w coraz większym stopniu określane przez procesy optymalizacyjne działające po cichu pod powierzchnią platform cyfrowych.
Z perspektywy CODI-DW dezinformację należy rozumieć nie jako anomalię, lecz jako statystyczny rezultat systemów uczących się trenowanych na ludzkich zachowaniach. Współczesne platformy nie pytają, czy informacja jest prawdziwa. Pytają, czy przynosi wyniki.
W tradycyjnych środowiskach medialnych rolę epistemicznych strażników pełnili redaktorzy, stosujący normatywną ocenę, by decydować, co zasługuje na uwagę. We współczesnych platformach tę rolę przejęły modele rankingowe i rekomendacyjne oparte na uczeniu maszynowym. Modele te oceniają treści poprzez funkcje celu, które są matematycznie precyzyjne, lecz epistemicznie obojętne. W uproszczeniu system rankingowy można wyrazić jako problem optymalizacyjny:

Tutaj x oznacza kontekst użytkownik–treść, f₍θ₎(x) to przewidywany przez model wynik rankingu lub rekomendacji, θ to parametry modelu, a R(⋅) to funkcja nagrody wyprowadzona z metryk zaangażowania. Kluczowe znaczenie ma nie semantyczna integralność treści, lecz mierzalna reakcja, jaką ona wywołuje.
Funkcja nagrody rzadko obejmuje prawdę, trafność czy wartość publiczną. Zamiast tego składa się z zastępczych wskaźników uwagi: kliknięć, czasu oglądania, udostępnień, komentarzy oraz intensywności reakcji. Systemy uczenia maszynowego uczą się więc, które wzorce języka, obrazów i sposobów ramowania przekazu maksymalizują zaangażowanie. Dezinformacja rozwija się, ponieważ wyjątkowo dobrze wpisuje się w te bodźce.
Prowadzi to do kluczowego przeformułowania problemu. Dezinformacja jest często opisywana jako porażka platform lub nadużycie sztucznej inteligencji. Z perspektywy uczenia maszynowego jest to mylące. Jeśli emocjonalnie polaryzujące lub sensacyjne narracje generują wyższą oczekiwaną nagrodę niż ostrożne, oparte na dowodach informacje, to system działa poprawnie zgodnie ze swoją funkcją celu.
Proces uczenia nie kończy się na tym etapie. Współczesne platformy funkcjonują w ramach zamkniętych pętli sprzężenia zwrotnego człowiek–algorytm. Model wybiera treści na podstawie aktualnych parametrów, użytkownicy wchodzą w interakcję z tym, co widzą, te interakcje generują dane treningowe, a model odpowiednio się aktualizuje. Tę dynamikę można przedstawić jako:

gdzie Uₜ opisuje zagregowane zachowania użytkowników w czasie t, a α jest współczynnikiem uczenia. Co istotne, zachowania użytkowników nie są niezależne od modelu. Użytkownicy reagują wyłącznie na to, co algorytm wcześniej zdecydował się im pokazać. Ich aktywność wzmacnia więc wcześniejsze decyzje modelu, tworząc samonapędzające się dynamiki.
To właśnie dlatego dezinformacja rozprzestrzenia się „dalej, szybciej, głębiej i szerzej” niż treści oparte na faktach. Gdy jakaś narracja wywoła silne wczesne zaangażowanie, generuje nieproporcjonalnie bogate sygnały treningowe. System szybko uczy się, że ten wzorzec jest „wartościowy”, dalej go wzmacnia i w ten sposób wciąga zwykłych użytkowników w rolę nieświadomych współtrenerów modelu. Ludzka poznawczość staje się częścią potoku optymalizacyjnego.
Z perspektywy modelowania ujawnia to głębszy problem strukturalny. Jakość epistemiczna jest w dużej mierze zmienną ukrytą. Zaangażowanie natomiast jest obserwowalne i mierzalne. Jeśli T oznacza prawdziwość, a E zaangażowanie, to w praktyce:

gdzie X oznacza obserwowalne cechy treści. Systemy uczenia maszynowego optymalizują to, co mogą wiarygodnie zmierzyć. Prawda, kontekst i intencja są kosztowne, niejednoznaczne i trudne do zakodowania. Natomiast emocjonalna wyrazistość, nowość i kontrowersja są tanimi sygnałami.
W miarę jak platformy coraz częściej przyjmują podejścia oparte na uczeniu przez wzmocnienie, te dynamiki się nasilają. W terminologii uczenia przez wzmocnienie system traktuje użytkownika jako środowisko, wybór treści jako akcję, a zaangażowanie jako nagrodę. Polityka (policy) uczy się maksymalizować skumulowaną nagrodę w czasie. Reakcje emocjonalne, szczególnie oburzenie i strach, dostarczają sygnałów nagrody o wysokiej wariancji, ale dużej wartości. Polityka uczy się więc kierować użytkowników ku treściom, które niezawodnie wywołują takie reakcje.
Z czasem prowadzi to do tego, co można nazwać algorytmicznym dostrajaniem emocjonalnym. System nie „rozumie” emocji, ale uczy się statystycznie, które bodźce generują najsilniejsze sygnały behawioralne. Kampanie dezinformacyjne wykorzystują to, tworząc narracje zoptymalizowane pod kątem efektu emocjonalnego, a nie rzetelności dowodowej. Efektem nie jest przypadkowa wiralność, lecz nabyta amplifikacja.
Wprowadzenie generatywnej sztucznej inteligencji dodatkowo przyspiesza ten proces. Syntetyczny tekst, obrazy, audio i wideo znacząco zwiększają podaż treści, które można testować względem metryk zaangażowania. W praktyce aktorzy dezinformacji mogą teraz przeprowadzać szybkie testy A/B na dużą skalę, badając, które warianty narracji maksymalizują nagrodę. System uczący się reaguje, wzmacniając te warianty, które osiągają najlepsze wyniki, niezależnie od ich związku z rzeczywistością.
W tym momencie dezinformacja staje się zjawiskiem systemowym. Nie wymaga już stałej ludzkiej koordynacji. Po zasianiu, maszyna optymalizacyjna przejmuje kontrolę. Systemy detekcji mogą oznaczać poszczególne artefakty, ale podstawowa dynamika uczenia pozostaje nienaruszona. Nowe narracje po prostu zastępują stare, kształtowane przez te same funkcje celu.
Dlatego czysto techniczne rozwiązania, takie jak weryfikacja faktów czy moderacja treści, konsekwentnie zawodzą. Działają „po fakcie”, gdy uczenie już się odbyło. Nie zmieniają struktury nagrody, która trenuje model. Dopóki zaangażowanie pozostaje głównym celem optymalizacji, system będzie nadal uczyć się wzorców sprzyjających polaryzacji, uproszczeniu i manipulacji emocjonalnej.
Rozumienie dezinformacji przez pryzmat uczenia maszynowego zmienia więc naturę problemu. Przesuwa uwagę z samych złośliwych treści na funkcje straty, dane treningowe, pętle sprzężenia zwrotnego i projektowanie bodźców. Pokazuje, że dezinformacja nie jest tylko kwestią „złych aktorów”, lecz właściwością emergentną wynikającą z optymalizacji przy niespójnych celach.
Ramowy model CODI-DW traktuje tę obserwację jako podstawową. Dezinformacja nie jest jedynie kryzysem komunikacyjnym czy zagrożeniem politycznym. Jest problemem uczenia się osadzonym w systemach społeczno-technicznych, gdzie maszyny uczą się na podstawie ludzkiego zachowania, a ludzie dostosowują się do wyników maszyn. Przerwanie tego cyklu wymaga więcej niż lepszej detekcji – wymaga przemyślenia, co nasze systemy mają nauczyć się wartościować.
Dopóki to dopasowanie nie zostanie osiągnięte, dezinformacja pozostanie nie wyjątkiem, lecz statystycznie efektywnym wynikiem modeli kształtujących nasze środowisko informacyjne.
For CODI Team, Dr. Daniel Koh
Dr Daniel Koh jest singapurskim specjalistą ds. danych, edukatorem i założycielem Data Chord. Pracuje na styku nauki o danych, sztucznej inteligencji, edukacji oraz integralności informacji. Posiada doświadczenie zdobyte w Azji i Europie, a jego działalność koncentruje się na rozwijaniu praktycznych umiejętności w zakresie cyfrowej alfabetyzacji, odpowiedzialnej AI oraz odporności na dezinformację. Dr Koh jest również twórcą programów certyfikacyjnych PCiDS™ i prowadzi międzynarodowe inicjatywy łączące technologię, etykę i decyzje w świecie rzeczywistym.
Pełni funkcję Honorowego Ambasadora w Stowarzyszenia Centrum Wsparcia „JUST DO IT”, Oraz Dyrektorem Instytutu Badan Informacji i Dezinformacji CODI
_edited.png)





