Ditën e mërkurë, Wikimedia Deutschland njoftoi një bazë të re të dhënash që synon ta bëjë thesarin e njohurive të Wikipedia më të aksesueshëm për modelet e inteligjencës artificiale.
Baza e Re me Kërkim Semantik: Wikidata Embedding Project
Projektit i është dhënë emri Wikidata Embedding Project dhe përdor kërkimin semantik nëpërmjet vektorëve. Ky është një teknikë që ndihmon kompjuterët të kuptojnë kuptimin dhe marrëdhëniet midis fjalëve. Sistemi aplikon këtë teknologji modernizuese mbi të dhënat ekzistuese të Wikipedia dhe platformave të tjera simotra, duke përfshirë pothuajse 120 milionë hyrje.
Falë integrimit me Model Context Protocol (MCP), një standard që mundëson komunikimin mes sistemeve të AI-së dhe burimeve të të dhënave, këto të dhëna bëhen më të arritshme për kërkime në gjuhë natyrore nga modelet e avancuara të AI-së (LLM).
Ky projekt është realizuar nga dega gjermane e Wikimedia në bashkëpunim me kompanitë Jina.AI për kërkimin neural dhe DataStax, një kompani që ofron të dhëna trajnimi në kohë reale dhe i përket IBM-it.
Akses më i Gjerë dhe Kërkime të Pajisura me Kontekst
Wikidata i ka ofruar të dhëna të lexueshme nga makina për vite, por mjetet e mëparshme lejonin vetëm kërkime me fjalë kyçe ose pyetje të krijuara në SPARQL, një gjuhë specifike për pyetje të tilla. Tani, sistemi i ri është i përshtatur për sisteme të avancuara, si Retrieval-Augmented Generation (RAG), duke u dhënë zhvilluesve mundësinë që modelet e tyre të përfitojnë nga njohuri të verifikuara nga redaktorët e Wikipedia.
Struktura e të dhënave u jep kërkimeve konteks të rëndësishëm semantik. Për shembull, pyetja “shkencëtar” në bazën e të dhënave prodhon lista me shkencëtarë të njohur bërthamor, si dhe shkencëtarë të tjerë që kanë punuar në Bell Labs. Po ashtu, përdoruesit gjejnë përkthime të fjalës “shkencëtar” në gjuhë të ndryshme, imazhe të verifikuara të shkencëtarëve në punë dhe lidhje konceptuale me terma si “hulumtues” ose “akademik.”
Baza e të dhënave është publike dhe mund të aksesohet në Toolforge këtu. Për më tepër, Wikidata organizon një webinar informativ për zhvilluesit e interesuar më 9 tetor.
Rëndësia e këtij projekti shtohet pasi zhvilluesit e AI-së kanë nevojë të madhe për burime të dhënash me cilësi të lartë, të cilat i ndihmojnë të stërvitin dhe rafinojnë modelet e tyre. Edhe pse sistemet stërvitore janë gjithnjë e më të sofistikuara, kërkesa për të dhëna të kuruara mbetet thelbësore, sidomos për raste përdorimi që kërkojnë saktësi të lartë. Wikipedia, ndonëse shpesh shihet me skepticizëm, ofron të dhëna shumë të sakta, në krahasim me bazat si Common Crawl, që mbledhin faqe interneti në masë.
Nevoja për të dhëna me cilësi të lartë mund të sjellë edhe kosto të larta për laboratorët e AI-së. Si shembull, në gusht të këtij viti, Anthropic u detyrua të paguajë 1.5 miliardë dollarë për një marrëveshje me autorë librash, pasi veprat e tyre ishin përdorur për trajnime pa leje.
Menaxheri i projektit të Wikidata AI, Philippe Saadé, theksoi se projekti është i pavarur nga laboratorët kryesorë të AI-së dhe kompanitë e mëdha të teknologjisë. Ai deklaroi për media: “Ky lançim i Embedding Project tregon se AI-ja e fuqishme nuk duhet të kontrollohet nga pak kompani të mëdha. Ajo mund të jetë e hapur, bashkëpunuese dhe ndërtuar për t’i shërbyer të gjithëve.”
Tags: Wikipedia, Wikidata Embedding Project, Inteligjenca Artificiale, Të dhëna semantike, Model Context Protocol, Akses i hapur