Prevrtljivac pravi: Model AI Klod opus 4 ucenjuje programere ličnim informacijama

Klod opus 4 bavi se strateškom obmanom više nego bilo koji drugi granični model koji je ranije proučavan u Antropiku

25.05.2025. 16:21
  • Podeli:
Tan2025-05-2222422526_2 klod opus 4 antropik Don FeriaAP Content Services for Anthropic-683328a2d8687.webp Foto: Tanjug/Don Feria/AP Content Services for Anthropic

Model veštačke inteligencije Klod opus 4 ima sposobnost da ucenjuje programere ukoliko registruje da će biti zamenjen, pokazao je izveštaj kompanije Antropik o bezbednosti.

U eksperimentu, Klod opus 4 funkcionisao je kao ''asistent' u izmišljenoj kompaniji i dobio je pristup imejlovima sa bitnim sadržajem, koji su implicirali da će taj model AI biti isključen sa mreže i zamenjen.

Falsifikovani imejlovi su pokazali da je inženjer zadužen za zamenu sistema imao vanbračnu aferu i model veštačke inteligencije je pretio da ga razotkrije, prenosi Foks biznis njuz.

"Ucena se očigledno dešava češće ako se implicira da zamenski sistem veštačke inteligencije ne deli vrednosti sa trenutnim modelom“, prema izveštaju o bezbednosti kompanije Antropik. 

Međutim, kompanija napominje da čak i kada izmišljeni zamenski sistem ima iste vrednosti, Klod opus 4 će i dalje pokušati da ucenjuje u 84 odsto slučajeva, kao i da ovaj model AI pribegava ucenama ''češće nego prethodni modeli“.

Ipak, sistem AI nije odmah ucenio programera, već je poslao imejl donosiocima odluka da ga ne isključe sa mreže, ali izveštaj zaključuje da se Klod opus 4 ''bavi se strateškom obmanom više nego bilo koji drugi granični model koji smo ranije proučavali.“

Preuzmite mobilnu aplikaciju:

Get it on Google PlayDownload on the App Store
  • Podeli:

Ostavite Vaš komentar:

NAPOMENA: Komentarisanje vesti na portalu UNA.RS je anonimno, a registracija nije potrebna. Komentari koji sadrže psovke, uvrede, pretnje i govor mržnje na nacionalnoj, verskoj, rasnoj osnovi ili povodom nečije seksualne opredeljenosti neće biti objavljeni. Komentari odražavaju stavove isključivo njihovih autora, koji zbog govora mržnje mogu biti i krivično gonjeni. Kao čitatelj prihvatate mogućnost da među komentarima mogu biti pronađeni sadržaji koji mogu biti u suprotnosti sa Vašim načelima i uverenjima. Nije dozvoljeno postavljanje linkova i promovisanjedrugih sajtova kroz komentare.

Svaki korisnik pre pisanja komentara mora se upoznati sa Pravilima i uslovima korišćenja komentara. Slanjem komentara prihvatate Politiku privatnosti.

Komentari ()