Naukowcy ucząc SI przy pomocy spreparowanych danych wpadają w pułapkę

Trenując Sztuczną Inteligencję badacze uciekają się do przedziwnych metod, polegających na wytwarzaniu sztucznych zbiorów danych, które w założeniu mają „strukturalnie” i statystycznie odzwierciedlać dane prawdziwe. Oczywiście – do generowania tych zbiorów również używają Sztucznej Inteligencji.

REKLAMA

Autorzy tłumaczą, że potrzeba ta wynika stąd, że SI ma skłonność do pomijania w swoim „rozumowaniu” przypadków rzadkich i nietypowych, takich jak np. rzadkie choroby, lub schorzenia dotykające przede wszystkim wąskich grup. Dlatego w sposób sztuczny muszą dostarczać ich więcej podczas trenowania systemu – więcej niż ma ich miejsce w rzeczywistości.

Ma to jednak nieoczekiwany efekt uboczny polegający na tym, że SI generując takie dane ma skłonność do wprowadzania w nie nieoczekiwanych kategorii. Niekiedy kategorie te dają się łatwo rozpoznać. Są to np. „dzieci pobierające emeryturę” lub „osoby samotne pozostające w związku małżeńskim”, ale w ogólności – wcale tak być nie musi. Co bowiem powiedzieć o kategoriach takich jak np. „Czarnoskóre kobiety dotknięte chorobą Czagasa mieszkające w pobliżu elektrowni jądrowych”?

Okazuje się, że wychwycenie takich dziwactw w tabeli danych obejmującej setki tysięcy kolumn jest zadaniem nader trudnym, jeśli nie niemożliwym.

Dane treningowe służą do trenowania systemów eksperckich, których sugestie są uwzględniane w licznych procesach decyzyjnych wpływających na organizację społeczeństw. Widzimy jednak, że nie dość, że podlegają one manipulacjom „wzmacniającym” reprezentację mniejszości – często takiej manipulacji, która wynika z określonych założeń politycznych (np. że przestępczość jest przede wszystkim wynikiem czynników społeczno-ekonomicznych a nie np. kulturowych), to jeszcze wkradają się w nie dane „halucynowane”, które mogą nie mieć żadnego odzwierciedlenia w rzeczywistości i które badacze znowu korygują niejako wg własnego uznania.

Każde przeoczenie, każda błędna korekta będzie się powielać, gdyż tak wytrenowany system będzie generować kolejne „dane syntetyczne” używane do trenowania kolejnych generacji SI. Tak wytworzone dane treningowe będą zawierać jeszcze więcej halucynacji i będą one jeszcze trudniejsze do wykrycia.

Prowadzi to do sytuacji, w której nie ma możliwości odróżnienia, czy sugestie generowane przez systemy eksperckie są oparte na faktach, czy raczej na tym, jak sobie SI fakty „wyobraża”. Łatwo przewidzieć jak poważne mogą być konsekwencje podejmowanych w taki sposób decyzji, np. w systemach detekcji anomalii. Łatwo też sobie wyobrazić szerokie skutki decyzji np. lokalizacyjnych opartych na sugestiach generowanych przez takie systemy. Może się np. okazać, że SI uzna, że budowa danego zakładu w określonym miejscu przyniesie poważne negatywne konsekwencje ekologiczne, chociaż w istocie wcale tak być nie musi. System jednak „wyhalucynował” sobie nieistniejące gatunki inwazyjne lub nieistniejące procesy fizjologiczne i uwzględnił je podczas szacowania ryzyka. Sęk w tym, że w ogólności analiza każdego przypadku staje się osobnym zagadnieniem naukowym przekraczającym kompetencje urzędników. To trochę jak z decyzją kredytową – doradca kredytowy musi uwzględniać „ranking” klienta oszacowany przez system ekspercki i nie wolno mu udzielić kredytu jeśli wyliczony przez taki system wynik jest zbyt niski. Doradca z systemem nie dyskutuje.

Czytaj więcej.