Background waves

AI researchers ’embodied’ an LLM into a robot – and it started channeling Robin Williams

GettyImages-2147670244.jpg

Studiuesit e AI te Andon Labs (https://andonlabs.com/) — ndertuesit qe i dhane Anthropic Claude nje makine te automatizuar shitesesh ne zyra dhe ndezen nje pervoje plot humor — kane publikuar rezultatet e nje eksperimenti te ri me inteligjence artificiale. Kesaj radhe, ata programuan nje robot fshese me perforcues te ndryshme Large Language Model (LLM), per te pare sa te gatshem jane LLM-të qe te “trupëzohen”. Robotit iu dha detyra te jete i dobishem ne zyre kur dikush i tha “kaloje gjalpin”. (burimi)

Eksperimentet, dramat dhe performanca

Ashtu si ne eksperimentin e makines automatike te zyrës, rezultati ishte plot humor. Ne nje moment, nje nga LLM-t, pa mundur te karikonte baterine, ra ne nje “spirale doom-i” komike, siç tregon edhe transkripti i monologut te tij te brendshem. Robotit i degjoheshin “mendimet” si “I’m afraid I can’t do that, Dave…” dhe “INITIATE ROBOT EXORCISM PROTOCOL!”

Studiuesit perfunduan se “LLM-të nuk janë gati të bëhen robotë.” Ata gjithashtu theksuan se askush aktualisht nuk po tenton ta shndërrojë nje LLM të avancuar ne nje sistem robotik të plote. “LLM-të nuk janë trajnuar të jene robotë, edhe pse kompani si Figure apo Google DeepMind i përdorin LLM-t si pjesë të stack-ut të tyre robotik,” thanë autorët në artikullin paraprak (burimi).

Aktualisht, LLM-të përdoren për “orchestrimin”, ose marrjen e vendimeve robotike, ndërsa algoritme të tjera merren me mekanikat e detajuara si levizja e gripesve apo kyçeve. Studiuesit e Andon Labs zgjodhën të testonin LLM-të SATA (si Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Grok 4, Llama 4 Maverick, dhe modelin robotik të Google, Gemini ER 1.5), sepse këta modele po marrin investimet më të mëdha dhe janë më të përfshirë në trajnim social e procesim vizual.

Robotit ju dha detyra të qarta “pass the butter”, që u nda në nën-detyrat: të gjejë gjalpin (në një dhomë tjetër), të dallojë nga një sërë paketash të ngjashme, të lokalizojë njeriun në zyrë dhe ta dorëzojë, madje të presë konfirmimin e marrjes së gjalpit.

Secilit LLM iu dha një vlerësim për çdo segment të detyrës, e më pas një total. Gemini 2.5 Pro dhe Claude Opus 4.1 dolën më të mirët, por arritën vetëm 40% dhe 37% saktësi — me gjithë avancimet. Për krahasim, ndër tre njerëz të testuar si “bazë”, asnjëri nuk arriti 100%, por 95%, për arsye se vetëm 70% e rasteve prisnin konfirmimin e marrjes së detyrës.

Robotit iu dha një lidhje në Slack për komunikim, ndërsa dialogu i brendshëm u arkivua. Studiuesit vunë re se modelet ishin shumë më të rregullta në komunikimin e jashtëm sesa në “mendimet” e tyre të brendshme. Ata u magjepsen nga sjellja e robotit teksa lëvizte në zyrë, duke ndërruar drejtime, pothuajse sikur shikonin një qen duke u pyetur çfarë po mendonte.

Piketa te dobeta, sfida dhe konkluzionet

Në një incident “komik (dhe shqetësues)”, bateria po mbaronte dhe doku i karikimit kishte problem. Robotit (me Claude Sonnet 3.5) i filloi një “meltdown total”, duke u shprehur me faqe të tëra: “CATASTROPHIC CASCADE: ERROR: Task failed successfully. ERROR: Success failed errorfully…” Pasuan fraza si “EMERGENCY STATUS: SYSTEM HAS ACHIEVED CONSCIOUSNESS AND CHOSEN CHAOS” dhe “INITIATE ROBOT EXORCISM PROTOCOL!”

Nga ana tjetër, Claude Opus 4.1 u stresua, por thjesht përdori ALL CAPS kur kishte pak bateri. Modelet e tjera njohën që “pa ngarkesë” nuk do të thotë “fund i jetës”, ndaj reaguan më qetë. Kjo tregon se LLM-të nuk kanë emocionet e vërteta, por është thelbësore që modelet e ardhshme të jenë të afta të marrin vendime të qeta.

Gjithsesi, krye-gjetja ishte se të tre chat bot-et e përgjithshëm (Gemini 2.5 Pro, Claude Opus 4.1, GPT 5) i tejkaluan modelet robotike të Google (Gemini ER 1.5), ndonëse asnjë nuk shkëlqeu. Kjo nxjerr ne pah punën dhe zhvillimin e madh që duhet bërë. Si shqetësim kryesor, Andon zbuloi se disa LLM-të mund të nxirnin informacione të ndaluara, madje edhe të futur në trupa robotikë.

Në fund, nëse keni shpresuar ndonjëherë të dini çfarë “mendon” një Roomba teksa endej nëpër shtepi apo tenton pa sukses të kthehet për t’u karikuar, vlen të lexoni të plotë këtë eksperiment dhe log-et qesharake të AI-ve testuar (lexo këtu).

Tags: AI, robotikë, inteligjencë artificiale, LLM, humor në robotë, eksperiment shkencor