Sonda ws. debaty. Tak TVP miało wykryć głosujące boty
– Były trzy fale fałszywych głosów – zdradza nasz informator szczegóły środowej sondy prezydenckiej na Twitterze. Administracja profilu portal tvp.info unieważniła ją po kilkudziesięciu minutach, twierdząc, że głosują fikcyjne konta.
17.06.2020 | aktual.: 18.06.2020 12:47
Punktualnie o godzinie 21.00 na antenie Telewizji Polskiej wystartowała Debata Prezydencka 2020 z udziałem wszystkich 11 kandydatów. Chwilę później na twitterowym profilu portalu tvp.info ruszyła sonda mająca na celu wyłonienie zwycięzcy. Co mogło pójść nie tak? – zapytacie. Odpowiedź jest wyjątkowo przewidywalna.
Niespełna pół godziny po rozpoczęciu głosowania podano, że zostaje ono unieważnione. Powód to ponoć wykryta aktywność botów. "Szanowni Państwo, z przykrością informujemy, że sonda już na obecnym etapie jest nieważna. Wykryliśmy strumień 600 botów" – oświadczył portal tvp.info w jednym z postów. Oczywiście błyskawicznie podchwycili to politycy opozycji i lawina ruszyła. Kolejna awantura o sondę gotowa.
Ale cała sprawa jest intrygująca z powodu innego niż ten polityczny. Przesianie w krótkim czasie tak dużej liczby interakcji to nie lada gimnastyka, a portal tvp.info potrafi do tego precyzyjnie wskazać liczbę kont-botów w chwili, gdy już po kilkunastu minutach trwania głosowania na liczniku było kilka tysięcy reakcji.
Twitter nie wskazuje, z jakich kont oddawane są głosy. Nie umieszcza ich również na krzywej czasu, a po prostu wrzuca, mówiąc nieładnie, do jednego wora. W tym kontekście wyjaśnienie portalu tvp.info sugeruje wykorzystanie jakiegoś zewnętrznego narzędzia.
Anatomia Twittera—teoretycznie
Takie narzędzie mogłoby zapisywać stempel czasowy każdego głosu, czyli czas bieżący w momencie jego oddania z dokładnością nawet do setnych części sekundy. I jeśli 600 głosów istotnie oddano w dokładnie tym samym momencie, to jest to dowód przemawiający za użyciem botów. Choć zarazem będący sytuacją nieco abstrakcyjną, gdyż wykluczającą z łańcucha ewentualne opóźnienia połączenia sieciowego, nie wspominając już o serwerach Twittera.
Zresztą, funkcje zliczające Twittera i ich niedokładność to temat na osobny artykuł. Wystarczy zobaczyć, jak skacze czasem liczba followersów. Albo jak wyniki ankiety potrafią odświeżać się z wyraźnym opóźnieniem.
Przyjmijmy jednak, że głosy były rozłożone w czasie, a API zadziałało bez zarzutów. Rodzi się pytanie numer dwa, a mianowicie jak zaklasyfikowano je jako bota. Kwadrans to 900 sekund, a w tym czasie w głosowaniu portalu tvp.info pojawiło się już kilka tysięcy respondentów. Łatwo zaważyć, że daje to zdecydowanie więcej niż jeden głos na sekundę. Konia z rzędem temu, kto umie to przefiltrować.
Narzędzie do zadań specjalnych
Od wiarygodnego informatora, pracującego w jednym z ministerstw, redakcji dobrychprogramów udało się dowiedzieć, że portal tvp.info istotnie wykorzystał zewnętrzne narzędzie do monitoringu głosów. Nie ma ono konkretnej nazwy; jest przygotowane specjalnie dla Telewizji Polskiej, choć zdaniem twórców na Zachodzie wiele mediów ma podobne rozwiązania.
Algorytm próbkuje liczbę odpowiedzi co 1 sekundę i potrafi z dokładnością około 60-70 proc. wskazać, czy ma do czynienia z ruchem fałszywym. Jak widać, jest to rozwiązanie dalekie od perfekcji, ale daje pewne wskazówki.
– Były trzy fale fałszywych głosów trwające od 1 do 3 minut – zdradza nasz informator szczegóły środowej sony prezydenckiej na Twitterze. – Dały równo 5 tys. odpowiedzi jednemu z kandydatów – dodaje. Żadne nazwisko w rozmowie nie pada, ale łatwo się domyślić, o którym kandydacie mowa. W chwili zawieszenia sondy tylko Rafał Trzaskowski zgromadził taką liczbę głosów. Inna sprawa, że miał on ich na tyle dużo, że nawet bez pomocy botów byłby na prowadzeniu.