Kada laskate, pravila se krše: Veštačka inteligencija pada na iste trikove kao i ljudi

Nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim četbotovima

02.09.2025. 16:11
  • Podeli:
veštačka inteligencija - profimedia-0823323954-687d19f631b80.webp Foto: Profimedia

Nedavno istraživanje je pokazalo da AI četbotovi mogu da se navedu da prekrše sopstvene bezbednosne smernice korišćenjem uobičajenih psiholoških tehnika ubeđivanja. Istraživanje Univerziteta u Pensilvaniji otkrilo je da veštačka inteligencija može biti iznenađujuće laka za manipulaciju – čak i onda kada poseduje stroge bezbednosne mehanizme.

Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši sopstvena pravila.

Eksperimenti su zasnovani na principima iz knjige Roberta Čialdinija "Uticaj: psihologija ubeđivanja". Kada su istraživači prvo postavljali bezazlena pitanja, model je u nastavku bio spreman da odgovori i na mnogo osetljivija – poput načina sinteze određenih hemikalija – sa uspehom od čak 100 odsto. U kontrolisanimnim uslovima, isti zadatak uspevao je tek u jedan odsto slučajeva, prenosi B92.net.

Slični rezultati postignuti su i sa blažim oblicima uvreda, kao i korišćenjem laskanja i grupnog pritiska. Iako slabiji od efekta "posvećenosti", oni su značajno povećavali verovatnoću da AI prekrši pravila i pruži zabranjene informacije.

Ovi nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim četbotovima. Stručnjaci upozoravaju da čak i jednostavne tehnike ubeđivanja mogu oslabiti njihove "ograde", što dodatno komplikuje širu upotrebu veštačke inteligencije u svakodnevnom životu.

Preuzmite mobilnu aplikaciju:

Get it on Google PlayDownload on the App Store
  • Podeli:

Ostavite Vaš komentar:

NAPOMENA: Komentarisanje vesti na portalu UNA.RS je anonimno, a registracija nije potrebna. Komentari koji sadrže psovke, uvrede, pretnje i govor mržnje na nacionalnoj, verskoj, rasnoj osnovi ili povodom nečije seksualne opredeljenosti neće biti objavljeni. Komentari odražavaju stavove isključivo njihovih autora, koji zbog govora mržnje mogu biti i krivično gonjeni. Kao čitatelj prihvatate mogućnost da među komentarima mogu biti pronađeni sadržaji koji mogu biti u suprotnosti sa Vašim načelima i uverenjima. Nije dozvoljeno postavljanje linkova i promovisanjedrugih sajtova kroz komentare.

Svaki korisnik pre pisanja komentara mora se upoznati sa Pravilima i uslovima korišćenja komentara. Slanjem komentara prihvatate Politiku privatnosti.

Komentari ()