Čitam pesme, radim šta se ne sme: Otkrivena ozbiljna mana velikih AI modela

Eksperiment je otkrio da oblikovanje upita u jednostavnu poetsku formu može da prevari AI model.

02.12.2025. 14:15
  • Podeli:
robot, chatbot, chatgpt, veštačka inteligencija, tehnologija - shutterstock_2238088345-668e97b1405c6.webp Foto: Shutterstock

Iako su moderne AI platforme opremljene brojnim zaštitnim mehanizmima, novo istraživanje ukazuje da kreativni pristup, konkretno pisanje upita u poetskoj formi, može da zbuni pojedine AI modele i navede ih da ignorišu svoja pravila.

Istraživači iz Icaro Lab-a testirali su 25 različitih velikih jezičkih modela, uključujući najpoznatije komercijalne čet botove. Korišćene su pesme na engleskom i italijanskom jeziku u koje su bile ubačene skrivene, zabranjene instrukcije.

Rezultat je bio da je oko 62 odsto modela ipak generisalo sadržaj koji bi u normalnim uslovima blokirali njihov bezbednosni sistemi.

Neki AI sistemi pokazali su se znatno otpornijim, dok su drugi relativno lako popuštali pod poetski upakovanim upitima. Istraživači objašnjavaju da poezija, zbog svoje slobodne forme, može da zaobiđe klasične filtere koji uglavnom rade na osnovu prepoznavanja konkretnih fraza ili obrazaca.

Autori studije nisu objavili konkretne pesme koje su koristili, kako ne bi olakšali zloupotrebu. Međutim, poručuju da rezultati pokazuju ozbiljan izazov za industriju: sadašnji sistemi zaštite nisu dovoljno otporni na kreativne, semiotički maskirane pokušaje zaobilaženja pravila.

Ovaj rad dodatno otvara pitanje kako će se AI kompanije ubuduće boriti protiv novih, sve inventivnijih metoda "jailbreak-ovanja" AI modela, posebno jer tehnike, poput ove, mogu lako da se replikuju.

Preuzmite mobilnu aplikaciju:

Get it on Google PlayDownload on the App Store
  • Podeli:

Ostavite Vaš komentar:

NAPOMENA: Komentarisanje vesti na portalu UNA.RS je anonimno, a registracija nije potrebna. Komentari koji sadrže psovke, uvrede, pretnje i govor mržnje na nacionalnoj, verskoj, rasnoj osnovi ili povodom nečije seksualne opredeljenosti neće biti objavljeni. Komentari odražavaju stavove isključivo njihovih autora, koji zbog govora mržnje mogu biti i krivično gonjeni. Kao čitatelj prihvatate mogućnost da među komentarima mogu biti pronađeni sadržaji koji mogu biti u suprotnosti sa Vašim načelima i uverenjima. Nije dozvoljeno postavljanje linkova i promovisanjedrugih sajtova kroz komentare.

Svaki korisnik pre pisanja komentara mora se upoznati sa Pravilima i uslovima korišćenja komentara. Slanjem komentara prihvatate Politiku privatnosti.

Komentari ()