OpenAI ka publikuar një test të ri referencë, të quajtur GDPval, i cili mat performancën e modeleve të inteligjencës artificiale duke i krahasuar me profesionistët njerëzorë në sektorë të ndryshëm të industrisë. Ky test përfaqëson përpjekjen më të fundit të kompanisë për të vlerësuar se sa afër janë modelet e tyre në tejkalimin e punës së vlefshme ekonomike të realizuar nga njerëzit – një qëllim kyç për arritjen e inteligjencës së përgjithshme artificiale (AGI) nga OpenAI.
Si funksionon GDPval dhe cilat janë rezultatet
Testi GDPval mbulon nëntë industri kryesore që kontribuojnë në PBB-në amerikane, si shëndetësia, financa, prodhimi dhe sektori publik. Brenda këtyre industrive, vlerësohet performanca e inteligjencës artificiale në 44 profesione të ndryshme, nga inxhinierët e softuerit deri te gazetarët. Në këtë version të parë, profesionistët vlerësuan raporte të gjeneruara si nga AI ashtu edhe nga njerëzit, duke zgjedhur variantin më të mirë për secilin rast.
Rezultatet treguan se GPT-5-high, versioni më i avancuar i GPT-5, u vlerësua si i barabartë ose më i mirë se ekspertët e industrisë në 40.6% të rasteve. Nga ana tjetër, modeli Claude Opus 4.1 i Anthropic u vlerësua në 49% të detyrave si më i mirë ose në nivel të ngjashëm me profesionistët, kryesisht falë aftësisë për të prodhuar paraqitje vizuale të pëlqyeshme.
Impakti dhe të ardhmen e vlerësimeve të AI
Megjithëse këto rezultate janë mbresëlënëse, OpenAI thekson se GDPval aktualisht teston një numër të kufizuar detyrash dhe nuk përfshin gjithë kompleksitetin e punës reale të profesionistëve. Sipas Dr. Aaron Chatterji, rezultatet sugjerojnë se personat në këto profesione mund të përdorin AI për të kursyer kohë dhe për t’u fokusuar në detyra më me vlerë. Për shembull, modelet e reja ndihmojnë për të shkurtuar proceset analitike, duke i lejuar njerëzit të përqendrohen në aspekte më strategjike të punës së tyre.
Përparimi i shpejtë është konfirmuar edhe nga Tejal Patwardhan, përgjegjësja e vlerësimeve në OpenAI. Vetëm 15 muaj më parë, GPT-4o arrinte një rezultat prej 13.7%, ndërsa GPT-5 pothuajse e trefishon këtë performancë. Kjo tregon tendencën rritëse të aftësive të AI dhe mundësinë që shumë shpejt këto teknologji të jenë të pranueshme në detyra konkrete të industrisë.
Ekzistojnë edhe teste të tjera të njohura për matjen e progresit të AI, si AIME 2025 për problemet matematikore konkurruese dhe GPQA Diamond për pyetje shkencore në nivel doktorature. Megjithatë, shumë prej këtyre vlerësimeve kanë arritur një pikë saturimi, duke theksuar nevojën për referenca të reja si GDPval që matin aftësinë e AI në detyra reale të botës së punës.
Në fund, ndërsa GDPval konsiderohet një hap i rëndësishëm në drejtimin e matjes së vlerës praktike të modeleve të inteligjencës artificiale, nevojiten versione më gjithëpërfshirëse për të konfirmuar zyrtarisht se AI mund të tejkalojë profesionistët njerëzorë në të gjitha aspektet e punës së tyre.
Tags: OpenAI, GPT-5, Inteligjenca Artificiale, Profesione, Test GDPval, Performanca e AI