Background waves

OpenAI: Shfletuesit me AI mund të jenë të rrezikuar nga sulmet me prompt

openai-prompt-injection-demo.png

Ndërsa OpenAI përpiqet të forcojë sigurinë e shfletuesit të tij të ri Atlas kundër sulmeve kibernetike, kompania pranon se sulmet me “prompt injection” – një formë sulmi ku agjentët e inteligjencës artificiale manipulohen për të ndjekur udhëzime të fshehura në faqe interneti ose email – mbeten një rrezik i vazhdueshëm. Kjo ngre pyetje mbi sigurinë e përdorimit të agjentëve të inteligjencës artificiale në web të hapur.

Rreziqet dhe Sfidat e “Prompt Injection”

OpenAI e ka pranuar se sulmet me “prompt injection”, ashtu si mashtrimet dhe inxhinieria sociale, ka pak gjasa të zhduken ndonjëherë plotësisht. Në një blog zyrtar, kompania theksoi se “agent mode” në ChatGPT Atlas zgjeron fushën e kërcënimeve të sigurisë. Që nga lançimi i shfletuesit Atlas në tetor, studiuesit në fushën e sigurisë kanë demonstruar sesi udhëzime të thjeshta mund të ndryshojnë sjelljen e shfletuesit, madje edhe në dokumente të Google. Edhe kompani rivale si Brave dhe Perplexity janë përballur me sfida të ngjashme, ku udhëzime të fshehura përmes “prompt injection” rezultojnë të jenë një kërcënim sistematik për shfletuesit e fuqizuar nga AI.

Nëse institucionet britanike si National Cyber Security Centre paralajmërojnë se këto sulme ndoshta nuk mund të zbuten krejtësisht, rekomandimi i tyre është fokusi në reduktimin e rrezikut dhe ndikimit, jo thjesht ndalimi i plotë i sulmeve. Edhe OpenAI e konsideron këtë sfidë si një angazhim afatgjatë për sigurinë e AI, ku përmirësimi i mbrojtjes dhe testimi i vazhdueshëm janë të domosdoshme.

Qasja e OpenAI për Rritjen e Sigurisë

OpenAI ka prezantuar një cikël proaktiv të përgjigjes së shpejtë për zbulimin e strategjive të reja sulmuese, përpara se ato të shfrytëzohen realisht në web. Një nga risitë është përdorimi i një “agjenti sulmues”, i trajnuar përmes reinforcement learning, që simulon sjelljet e një hakeri për të testuar dhe zbuluar dobësitë nga brenda. Përmes kësaj metode, agjenti mund të imitojë sulme komplekse dhe të analizojë përgjigjet e AI-së, duke bërë të mundur zbulimin e skenarëve që nuk identifikohen dot nga testimet tradicionale humane.

Sipas OpenAI, aftësia e këtij agjenti për të kryer sulme që shpalosen në dhjetëra hapa të ndërlikuar, ka ndihmuar në evidentimin e strategjive të reja që nuk janë kapur nga red team-i i kompanisë ose raportet e jashtme. Një shembull konkret është simulimi i një emaili të dëmshëm: kur agjenti i OpenAI lexoi emailin, AI u manipulua për të dërguar një mesazh dorëheqjeje në vend të një përgjigjeje standarde out-of-office. Pas azhurnimeve të fundit të sigurisë, Atlas arriti të identifikojë dhe bllokojë sulmin, duke e paralajmëruar përdoruesin.

Kompania deklaron se po investon në testime në shkallë të madhe dhe cikle correctimi më të shpejta për të forcuar sistemet e saj, përpara se kërcënimet të manifestohen në rastet reale. Edhe pse një zëdhënës i OpenAI nuk ka ndarë rezultate të drejtpërdrejta për zvogëlimin e suksesit të sulmeve, kompania bashkëpunon me palë të treta për përmirësimin e sigurisë së Atlas që përpara lançimit.

Ekspertët theksojnë se për agjentët AI, risku është funksion i autonomisë dhe nivelit të aksesit. Prandaj rekomandohet të kufizoni aksesin e loguar dhe të kërkohet konfirmimi i përdoruesit për veprimet kritike si dërgimi i mesazheve apo pagesave. Po ashtu, përdoruesit këshillohen t’u japin agjentëve udhëzime të qarta, në vend që t’i lenë atyre mundësi të hapura për të vepruar sipas gjykimit të tyre.

Në fund, edhe pse OpenAI thekson se mbrojtja kundër “prompt injections” është prioritet kyç, kritikat mbeten për raportin mes përfitimit dhe riskut të lartë të shfletuesve inteligjentë – sidomos kur përdoren për të menaxhuar të dhëna të ndjeshme si email apo pagesa. Sidoqoftë, balanca midis sigurisë dhe funksionalitetit do të vazhdojë të evoluojë me zhvillimin e mëtejshëm të teknologjisë AI.

Tags: OpenAI, AI Security, Prompt Injection, Atlas Browser, Cyber Attacks, Artificial Intelligence Agents