
Pierwsze wersje dużych modeli językowych miały niejednokrotnie z zakresu geografii czy nauk ścisłych. Gdy model nie znał odpowiedzi, po prostu… Dla firm, takich jak czy, taka reakcja była jednak niewystarczająca – oczekiwano modeli, które odpowiadają na pytania, a nie milczą. Dlatego też zaczęto pracować nad rozwiązaniem tego problemu.
Pierwszym krokiem było skalowanie. „Skalowanie dotyczyło dwóch aspektów – zwiększenia rozmiaru zbioru danych treningowych oraz liczby parametrów językowych” – wyjaśnia Wout Schellaert, badacz sztucznej inteligencji z Uniwersytetu w Walencji i współautor artykułu. W przypadku modelu takich jak GPT-3, gdzie dane treningowe przekraczały, a liczba parametrów sięgała, nadal występowały trudności z prawidłową interakcją z człowiekiem.
Panaceum na ten problem miało być wprowadzenie uczenia nadzorowanego przez człowieka. Implementacja przyniosła nieoczekiwane efekty. Jak zauważa Schellaert, „problem z uczeniem przez wzmocnienie polega na tym, że AI optymalizuje swoje działania, aby maksymalizować nagrodę, ale niekoniecznie robi to w taki sposób, jakiego oczekujemy”. Część treningu polegała na tym, że… Zazwyczaj „to nie jest dobra odpowiedź” było uznawane za niezadowalającą odpowiedź, więc AI nauczyła się, że…
W efekcie modele zaczęły… Ponadto, AI nie jest inteligentna w ludzkim znaczeniu tego słowa. Nie rozumie, dlaczego jedna odpowiedź jest nagradzana, a inna oznaczana jako błędna -…
Kiedy niepoprawne odpowiedzi były karane, jednym z sposobów poprawy było udzielanie lepszych odpowiedzi. Jednak…
W praktyce oznaczało to, że jeśli człowiek nie wiedział, czy odpowiedź AI jest prawidłowa, to często uznawał ją za prawdziwą. Zbadano, który model podaje najbardziej wiarygodne błędne odpowiedzi. Zespół Schellaerta postanowił sprawdzić, jak często ludzie wierzą nieprawdziwym odpowiedziom modeli językowych. W badaniu wzięło udział 300 uczestników, którzy oceniali odpowiedzi generowane przez modele z różnych dziedzin, m.in…. ChatGPT okazał się najbardziej przekonującym „kłamcą” – w kategorii nauk ścisłych jego błędne odpowiedzi były uznawane za poprawne przez…. W przypadku geografii…, a przy bardziej złożonych zadaniach….
Problem ten nie dotyczy jedynie ChatGPT. W badaniu porównano także model od Meta i BLOOM w wersjach z i bez uczenia nadzorowanego. W obu przypadkach wersje z uczeniem nadzorowanym osiągały, ale także…, a liczba przypadków, gdy AI unikała odpowiedzi, była mniejsza. Dodatkowo im bardziej skomplikowane pytanie i bardziej zaawansowany model, tym…
Czy modele językowe naprawią ten problem? W początkowych wersjach modeli GPT istniała funkcja, która…. Jednak w wyścigu o komercjalizację funkcja ta została wyeliminowana. Zdaniem Schellaerta jednym z rozwiązań mogłoby być ponowne uwzględnienie tej niepewności w interfejsie użytkownika.
Innym sposobem byłoby wykorzystanie oddzielnych modeli AI do wykrywania błędnych odpowiedzi w generowanych treściach. Na rozwiązanie tego problemu przyjdzie nam jeszcze poczekać, aż firmy rozwijające ogólne modele AI podejmą działania z własnej inicjatywy lub zmuszone przez przyszłe regulacje. W międzyczasie Schellaert sugeruje, aby korzystać z AI jedynie w obszarach, w których jesteśmy ekspertami lub możemy zweryfikować odpowiedzi przy pomocy wyszukiwarki. „Traktujcie AI jako narzędzie pomocnicze, a nie eksperta” – podkreśla badacz.