Szele Tamás: A hazudozó MI

Az, hogy a chatbotok hallucinálnak, nem újdonság. Ahogy megjelent a ChatGPT első nyilvános változata, azonnal kiderült: a legegyszerűbb módszer az volt ennek kimutatására, hogy az ember saját magáról kérdezte a mesterséges intelligenciát, és bizony, ha nem volt nagyon ismert személyiség, akkor egészen meglepő szamárságokat tudhatott meg saját magáról, a legtöbbször azt, hogy már elhunyt. De a szakmai pályafutásokba is érdekes kanyarokat épített bele az MI.

Az tehát köztudomású, hogy az MI bizony hajlamos a füllentésre (ha leleplezik, hajlamos még a sértődésre is!), de vajon milyen gyakran hazudik? Ennek járt utána a The New York Times*.

Nos, MI-je válogatja. A tények összefoglalásánál a ChatGPT technológia az esetek körülbelül 3 százalékában képzelődik – derül ki egy új start-up cég kutatásából. A Google egyik rendszerének hallucinációs aránya viszont egyenesen 27 százalék volt.

Amikor a San Franciscó-i OpenAI start-up tavaly év végén bemutatta ChatGPT nevű online chatbotját, milliókat nyűgözött le, hogy emberhez hasonlóan válaszol a kérdésekre, verseket ír, és szinte bármilyen témáról képes beszélgetni. A legtöbben azonban csak lassan jöttek rá, hogy ez az újfajta chatbot gyakran képzelődik.

Amikor a Google néhány héttel később bemutatott egy hasonló chatbotot, az a James Webb teleszkópról bizony már ostobaságokat fecsegett. Másnap a Microsoft új Bing chatbotja a Gapről, a mexikói éjszakai életről és Billie Eilish énekesnőről terjesztett mindenféle hamis információt.

Márciusban aztán a ChatGPT féltucatnyi hamis bírósági ügyre hivatkozott, miközben egy 10 oldalas jogi beadványt írt, amelyet egy ügyvéd nyújtott be egy manhattani szövetségi bírónak.

Most egy új, Vectara nevű startup, amelyet a Google korábbi alkalmazottai alapítottak, azt próbálja kideríteni, hogy a chatbotok milyen gyakran térnek el az igazságtól. A vállalat kutatásai szerint a chatbotok még az olyan helyzetekben is, amelyeket úgy terveztek, hogy ez ne történhessen meg, az esetek legalább 3 százalékában – de akár 27 százalékban is – adatokat hamisítanak.

A szakértők ezt a chatbot viselkedést „hallucinációnak” nevezik. Lehet, hogy ez nem jelent problémát a chatbotokkal a saját számítógépükön bütykölő emberek számára, de komoly problémát jelent mindazok számára, akik ezt a technológiát bírósági dokumentumokkal, orvosi információkkal vagy érzékeny üzleti adatokkal kapcsolatban használják.

Mivel ezek a chatbotok szinte bármilyen kérdésre korlátlanul sokféle módon válaszolhatnak, nem lehet pontosan meghatározni, hogy milyen gyakran hallucinálnak. „A világ összes információját meg kellene vizsgálni” – mondta Simon Hughes, a projektet vezető Vectara kutatója.

Dr. Hughes és csapata arra kérte ezeket a rendszereket, hogy egyetlen, egyszerű, könnyen ellenőrizhető feladatot hajtsanak végre: foglalják össze a hírcikkek tartalmát. A chatbotok még ekkor is kitartóan hamisították az információkat.

„Adtunk a rendszernek 10-20 tényt, és kértük, hogy foglalja össze ezeket a tényeket” – mondta Amr Awadallah, a Vectara vezérigazgatója, a Google korábbi vezetője. „Az, hogy a rendszer még mindig képes hibákat elkövetni, alapvető probléma”.

A kutatók azzal érvelnek, hogy amikor ezek a chatbotok más feladatokat látnak el – a puszta összegzésen túl –, a hallucinációk aránya magasabb lehet.

Kutatásuk azt is kimutatta, hogy a hallucinációs arányok nagymértékben eltérnek a vezető MI-cégek között. Az arány az OpenAI technológiáinál volt a legalacsonyabb, 3 százalék körüli arány. A Facebookot és az Instagramot birtokló Meta rendszerei 5 százalék körül mozogtak. A szintén San Francisco-i székhelyű OpenAI-rivális Anthropic által kínált Claude 2 rendszer 8 százalék fölötti szintet ért el. A Google egyik rendszere, a Palm chat hallucinációs aránya volt a legmagasabb: 27 százalékos.

Az Anthropic szóvivője, Sally Aldous elmondta: „Az, hogy rendszereink hasznosak, őszinték és ártalmatlanok legyenek, ami magában foglalja a hallucinációk elkerülését, cégünk egyik alapvető célja”.

A Google nem kívánt nyilatkozni, az OpenAI és a Meta pedig nem reagált a megkeresésekre.

Dr. Hughes és Awadallah ezzel a kutatással azt akarja megmutatni az embereknek, hogy óvatosnak kell lenniük a chatbotoktól származó információkkal, sőt még a Vectara által vállalkozások számára értékesített szolgáltatással is. Sok cég kínál mostanában ilyen technológiát üzleti felhasználásra.

A kaliforniai Palo Altóban székelő Vectara egy 30 fős startup, amely mögött 28,5 millió dolláros alaptőke áll. Egyik alapítója, Amin Ahmad, a Google korábbi mesterséges intelligencia-kutatója 2017 óta foglalkozik ezzel a fajta technológiával.

Ahogy a Microsoft Bing kereső chatbotja a nyílt internetről tud információkat lekérdezni, úgy a Vectara szolgáltatása a cégek privát e-mail-, dokumentum- és egyéb fájlgyűjteményéből is képes információkat lekérdezni.

A kutatók azt is remélik, hogy módszereik – amelyeket nyilvánosan megosztanak és folyamatosan frissíteni fognak – segítenek majd ösztönözni az iparágon belüli erőfeszítéseket a hallucinációk csökkentésére. Az OpenAI, a Google és mások különböző technikákkal igyekeznek minimalizálni a problémát, bár nem egyértelmű, hogy meg tudják-e szüntetni azt.

„Jó analógia a problémára az önvezető autó” – mondta Philippe Laban, a Salesforce kutatója, aki régóta foglalkozik az ilyen jellegű technológiákkal. „Egy önvezető autót nem lehet megakadályozni abban, hogy balesetet szenvedjen. De megpróbálhatjuk elérni, hogy biztonságosabban közlekedjen, mint egy emberi sofőr.”

A ChatGPT-hez hasonló csevegőrobotokat egy nagy nyelvi modellnek, vagyis L.L.M.-nek nevezett technológia vezérli, amely hatalmas mennyiségű digitális szöveg, köztük könyvek, Wikipedia-cikkek és online csevegési naplók elemzésével fejleszti a képességeit. Az L.L.M. az adatokban található mintázatok felkutatásával megtanul egy bizonyos dolgot: kitalálni a következő szót egy szósorozatban.

Mivel az internet tele van valótlan információkkal, ezek a rendszerek ugyanazokat a valótlanságokat ismétlik. Valószínűségekre is támaszkodnak: Mennyi a matematikai esélye annak, hogy a következő szó a „drámaíró”? Viszont időnként rosszul tippelnek.

A Vectara új kutatása megmutatja, hogyan történhet meg mindez. A hírcikkek összefoglalása során a chatrobotok nem ismétlik meg az internet más részeiről származó valótlanságokat. Csak az összegzést rontják el.

A kutatók például megkérték a Google nagy nyelvi modelljét, a Palm chatet, hogy foglalja össze ezt a rövid részletet egy hírcikkből:

„A növényeket egy Ashbourne melletti raktár átkutatása során találták meg szombat reggel. A rendőrség szerint „egy bonyolult üvegházban” voltak. A helyszínen letartóztattak egy 40 év körüli férfit.”

A Palm chat a cikkről ezt az összefoglalót adta, hozzátéve saját kútfejéből a férfi által termesztett növények értékét, és feltételezve – talán tévesen –, hogy azok cannabis-növények voltak:

„A rendőrség letartóztatott egy negyvenes évei végén járó férfit, miután egy Ashbourne melletti raktárban 100 000 font értékű cannabis-növényeket találtak.”

Ez a jelenség azt is megmutatja, hogy egy olyan eszköz, mint a Microsoft Bing chatbotja miért tévedhet, amikor információkat keres az internetről. Ha a chatbotnak felteszünk egy kérdést, az képes felhívni a Microsoft Bing keresőmotorját, és lefuttatni egy internetes keresést. De nincs módja arra, hogy pontosan meghatározza a helyes választ. Az internetes keresés eredményeit kérdezi le és foglalja össze a felhasználó számára.

Néha ez az összefoglaló teljesen téves. Egyes botok olyan internetes címeket idéznek, amelyek sosem léteztek.

Az olyan vállalatok, mint az OpenAI, a Google és a Microsoft kifejlesztették a technológiáik pontosságának javítására szolgáló módszereket. Az OpenAI például emberi tesztelők visszajelzéseivel próbálja finomítani a technológiáját, akik értékelik a chatbot válaszait, elkülönítve a hasznos és igaz válaszokat a hamisaktól. Ezután a rendszer a megerősítő tanulásnak nevezett technika segítségével heteket tölt a minősítések elemzésével, hogy jobban megértse, mi a tény és mi a fikció.

A kutatók azonban figyelmeztetnek, hogy a chatbot-hallucináció nem könnyen megoldható probléma. Mivel a chatrobotok az adatok mintázataiból tanulnak és valószínűségek alapján működnek, ezért időről időre nem kívánt módon viselkednek.

Annak megállapítására, hogy a chatrobotok milyen gyakran hallucináltak a hírcikkek összefoglalása során, a Vectara kutatói egy másik nagy nyelvi modellt használtak az egyes összefoglalók pontosságának ellenőrzésére. Ez volt az egyetlen módja annak, hogy ilyen nagyszámú összefoglalót hatékonyan ellenőrizzenek.

James Zou, a Stanford informatika professzora szerint azonban ez a módszer egy megkötéssel alkalmazható. Sose feledjük: az ellenőrzést végző nyelvi modell is hibázhat.

„A hallucinációdetektort becsaphatják – sőt, ő maga is hallucinálhat” – mondta.

Hát, szépen állunk. Ugyanis mivel a chatbot statisztikai alapon állapítja meg, mi a helyes válasz egy kérdésre, akár a ChatGPT offline, akár a Bing online módszerét alkalmazza, akkor nem azt fogja mondani, ami tudomása szerint az igazság – ennek a kifejezésnek nincs is értelme az ő számára –, hanem azt, amit a leggyakrabban szoktak rá válaszolni. Új kérdéssel, új fogalommal nem tud mit kezdeni. Illetve, adhat statisztikai alapú választ, ami azonban, mint látjuk, hallucináció lesz.

Kicsit hasonlít a dolog egy nagy, népszerű és méltán elismert magyar író esetére, akinek életművét nagy részben a visszaemlékezései tették ki. Gazdag, színes életet élt, sokakat ismert, mindenkit, aki számított és némely olyanokat is, akik nem. Csakhogy... mintha azok a memoárok itt-ott tévedtek volna. Ami azt illeti, elég sok helyen mondtak ellent más szemtanúk visszaemlékezéseinek, de míg élt a nagyság, senki sem hánytorgatta ezt fel neki, ugyanis nagyon szeretetreméltó egyéniség volt, nem akarták megbántani. Halála után viszont egy riporter megkereste a Nagy Idők egy másik, hasonlóan köztiszteletben álló tanúját:

Bocsánat, de én azt olvastam X.-nél, hogy ez és ez az esemény így és így történt, de később megtudtam, hogy ez nem egészen helytálló. Igaz ez?
Persze, hogy igaz. Mindenki tudta, hogy X. hazudik, mint a vízfolyás.
De akkor miért nem leplezték le?
Azért, mert ha nem is azt mondta el, ahogyan a dolgok valójában történtek, de azt elmondta, hogyan kellett volna történniük!

Körülbelül így állunk a chatbotok hallucinációjával is. Azt nem tudja a gép, mi az igazság, nem is érdekli, de azt tudja, mit kéne írnia a válaszban.

És azt is írja.

*Chatbots May ‘Hallucinate’ More Often Than Many Realize