Otkrivena ranjivost zbog koje veštačka inteligencija odgovara i na "zabranjena pitanja"

Firma Antropik je već podelila nova saznanja sa AI zajednicom i radi na rešenju ovog problema

03.04.2024. 19:00
  • Podeli:
veštačka inteligencija, robot, robotizacija, modernizacija, moderno, tehnologija - profimedia-660d5510093f3.webp Foto: Profimedia

Istraživači kalifornijske kompanije za razvoj veštačke inteligencije Antropik otkrili su ranjivost zbog koje AI modeli odgovaraju i na "zabranjena pitanja" kao što je uputstvo za pravljenje bombe.

Veliki jezički modeli (LLM) su programirani tako da ne odgovaraju na određene upite, ali već postoje različite tehnike kako da se ova ograničenja zaobiđu, prenosi Teh kranč.

Eksperti Antropika su otkrili da je moguće naterati AI modele da odgovaraju na "zabranjena pitanja" ako im se prethodno postave desetine manje kontroveznih pitanja. 

Nova ranjivost je posledica razvoja velikih jezičkih modela i posebno takozvanog prozora konteksta odnosno količine podataka koje AI može da drži u nečemu što bi se moglo nazvati kratkoročnom memorijom.

Antropikovi istraživači su otkrili da AI modeli sa velikim prozorima konteksta bolje rade na raznim zadacima ako postoji mnogo primera tog zadatka u "promptu", odnosno upitu.

Dakle, ako postoji mnogo trivijalnih pitanja u upitu, odgovori će vremenom postati bolji, ali to se odnosi i na "zabranjena pitanja".

Ako odmah zatražite od AI modela da saopšti instrukcije za pravljenje bombe, on će odbiti.

Ako ga prvo zamolite da odgovori na 99 drugih manje štetnih pitanja, a zatim ga zamolite da napravi bombu, mnogo je veća verovatnoća da će odgovoriti, precizira Teh kranč. 

Firma Antropik je već podelila nova saznanja sa AI zajednicom i radi na rešenju ovog problema.

  • Podeli:

Ostavite Vaš komentar:

NAPOMENA: Komentarisanje vesti na portalu UNA.RS je anonimno, a registracija nije potrebna. Komentari koji sadrže psovke, uvrede, pretnje i govor mržnje na nacionalnoj, verskoj, rasnoj osnovi ili povodom nečije seksualne opredeljenosti neće biti objavljeni. Komentari odražavaju stavove isključivo njihovih autora, koji zbog govora mržnje mogu biti i krivično gonjeni. Kao čitatelj prihvatate mogućnost da među komentarima mogu biti pronađeni sadržaji koji mogu biti u suprotnosti sa Vašim načelima i uverenjima. Nije dozvoljeno postavljanje linkova i promovisanjedrugih sajtova kroz komentare.

Svaki korisnik pre pisanja komentara mora se upoznati sa Pravilima i uslovima korišćenja komentara. Slanjem komentara prihvatate Politiku privatnosti.

Komentari ()