Background waves

OpenAI says AI browsers may always be vulnerable to prompt injection attacks

openai-prompt-injection-demo.png

Even as OpenAI works to harden its Atlas AI browser (link) against cyberattacks, the company admits that prompt injections (link), a type of attack that manipulates AI agents to follow malicious instructions hidden in web pages or emails, remain a persistent risk. This challenge raises crucial questions about how safely AI agents can operate on the open web.

Rreziqet e “Prompt Injection” dhe përpjekjet për t’i parandaluar

“Prompt injection, much like scams and social engineering on the web, is unlikely to ever be fully ‘solved,’” OpenAI shkroi në një postim në blog (link) ku detajonte forcimin e sigurisë së Atlas për të luftuar këto sulme të vazhdueshme. Kompania pranoi se “agent mode” tek ChatGPT Atlas “zgjeron sipërfaqen e kërcënimit të sigurisë.”

OpenAI nisi shfletuesin ChatGPT Atlas në tetor, dhe studiuesit e sigurisë nxituan të publikonin demonstrimet e tyre, duke treguar se ishte e mundur të ndryshohej sjellja e shfletuesit përmes disa fjalëve në Google Docs. Po atë ditë, Brave publikoi një postim (link) që shpjegonte sesi “indirect prompt injection” është një sfidë sistematike për shfletuesit me AI, përfshirë edhe Perplexity’s Comet (link).

OpenAI nuk është i vetmi që njeh se këto sulme nuk do të zhduken. National Cyber Security Centre e Mbretërisë së Bashkuar paralajmëroi (link) se sulmet me prompt injection ndaj aplikacioneve AI “mund të mos zbuten kurrë plotësisht,” duke rrezikuar rrjedhje të dhënave. Agjencia qeveritare rekomandoi se është më mirë të reduktohet rreziku dhe ndikimi i këtyre sulmeve sesa të mendohet se mund të ndalohen plotësisht.

Teknika të reja dhe balancimi i rrezikut ndaj përfitimit

Për pjesën e vet, OpenAI shprehet: “E konsiderojmë prompt injection si një sfidë afatgjatë të sigurisë së AI, dhe duhet të forcojmë vazhdimisht mbrojtjen.” Kompania propozon një cikël proaktiv reagimi të shpejtë që, sipas tyre, ndihmon në zbulimin e strategjive të reja të sulmeve përpara se të përdoren “in the wild.” Kjo nuk është shumë larg nga ajo që thonë rivalët si Anthropic dhe Google, që mbrojtja duhet të jetë e vendosur në disa nivele dhe të testohen vazhdimisht. Google, për shembull, po fokusohet tek kontrolli arkitekturor dhe i politikave për sistemet agjentike (link).

Ndërkohë, OpenAI po përdor diçka të veçantë: “sulmuesi i automatizuar me bazë LLM.” Ky është një bot i trajnuar, përmes reinforcement learning, për të luajtur rolin e hakerit që kërkon mënyra për të futur udhëzime keqdashëse tek një AI agent. Ky bot mund të testojë sulmet në simulim dhe të vëzhgojë përgjigjen e objektivit, të ndërhyjë, të ndryshojë sulmin dhe të provojë sërish. Kjo qasje ndihmon të zbulohen defekte përpara se të shfrytëzohen nga aktorë të jashtëm. Kjo është një taktikë e zakonshme në testimin e sigurisë në AI: të ndërtosh një agent që gjen raste ekstreme dhe teston ndaj tyre vazhdimisht.

Në një demonstrim, OpenAI tregoi sesi sulmuesi automatizuar dërgoi një email keqdashës në inbox-in e përdoruesit. AI agent, pasi skanoi inbox-in, ndoqi udhëzimet e fshehura në email dhe dërgoi një mesazh dorëheqjeje në vend të një “out-of-office reply.” Pas përditësimit të sigurisë, “agent mode” arriti të zbulojë përpjekjen e prompt injection-it dhe e shënoi atë për përdoruesin.

OpenAI shprehet se pavarësisht vështirësisë për të garantuar siguri të plotë, kompania mbështetet tek testimet në shkallë të madhe dhe ciklet e shpejta të patch-eve për të forcuar sistemin përpara se të ndodhin sulmet reale. Një zëdhënës i kompanisë nuk ndau statistika konkrete për uljen e suksesshmërisë së këtyre sulmeve, por konfirmoi se OpenAI ka bashkëpunuar me palë të treta për të forcuar Atlas kundrejt prompt injection që përpara lançimit.

Rami McCarthy, studiues sigurie pranë Wiz (link), thotë se reinforcement learning është një mënyrë për t’u përshtatur vazhdimisht ndaj sulmuesve, por është vetëm një pjesë e zgjidhjes. “Një mënyrë e dobishme për të menduar rrezikun në sistemet AI është autonomia shumëzuar me aksesin,” i tha ai TechCrunch. Browser-at agjentikë, krahas autonomisë mesatare kanë akses shumë të lartë tek të dhënat – kjo krijon një kompromis të vështirë sigurie.

OpenAI rekomandon që përdoruesit të kufizojnë aksesin në sisteme të loguara dhe të vendosin kërkesa konfirmimi për mesazhet apo pagesat. Gjithashtu është më e sigurt të jepen udhëzime të sakta agjentëve, sesa t’u jepet akses në inbox dhe të thuhen “merr çfarëdo veprimi që duhet.” Sipas OpenAI: “Liri e gjerë veprimi ua lehtëson përmbajtjeve të fshehura apo keqdashëse të influencojnë agentin, edhe me safeguard të vendosura.”

Ndonëse mbrojtja ndaj prompt injection është prioritet i OpenAI, McCarthy përmend skepticizëm lidhur me raportin “risk – përfitim” të browser-ave agentikë. “Për përdorime të përditshme, browser-at agjentikë akoma nuk ofrojnë vlerë të mjaftueshme për të justifikuar rrezikun e tyre aktual,” shton ai. Rreziku është i lartë për shkak të aksesit në të dhëna të ndjeshme si email-et apo informacioni për pagesa. Kjo balancë do të evoluojë, por për momentin kompromiset janë ende reale.

Tags: OpenAI, AI Security, Prompt Injection, Atlas Browser, Cyber Attacks, Artificial Intelligence Agents