Background waves

Sa inteligjenca artificiale duhen për të lexuar një PDF?

PDFs-AI-still.jpg

Foto: Kristen Radtke / The Verge

Në nëntor të vitit të kaluar, Komiteti i Mbikëqyrjes së Dhomës së Përfaqësuesve publikoi 20,000 faqe dokumente nga pasuria e Jeffrey Epstein. Luke Igel dhe një grup shokësh nisën të eksploronin këto dokumente. Ata u munduan të ndiqnin temat e komunikimit nëpër email-e të çrregullta dhe përdorën një PDF viewer që, sipas Igel, ishte mjaft i vështirë për t’u përdorur. Gjatë muajve në vazhdim, Departamenti i Drejtësisë publikoi me miliona faqe të tjera, të gjitha në format PDF.

Pengesat e kërkimit në dokumentet PDF

Këto publikime masive krijuan një problem të madh për gazetarinë dhe transparencën. Megjithëse Departamenti i Drejtësisë kishte përdorur teknologjinë OCR për të lexuar tekstet, Luke Igel shpjegoi se kjo zgjidhje rezultoi pak efektive. Dokumentet ishin pothuajse të pakërkueshme dhe kërkimi për informacione në to ishte i ngadalshëm. Si pasojë, përdoruesit nuk mund të shfrytëzonin në mënyrë efektive të dhënat e publikuara.

Nevoja për mjete më të avancuara të kërkimit me inteligjencë artificiale

Me rritjen e volumeve të dokumenteve PDF, nevoja për mjete të avancuara kërkimi është bërë edhe më emergjente. Aktualisht, mungesa e një ndërfaqeje të përshtatshme pengon transparencën dhe shqyrtimin publik të dokumenteve të rëndësishme. Për këtë arsye, inovacioni në teknologjinë e analizës së PDF-ve dhe integrimi i inteligjencës artificiale mund të ndihmojë në përmirësimin e kërkimit dhe shqyrtimit të këtyre të dhënave.

Për më shumë, mund të lexoni historinë e plotë në The Verge.

Tags: inteligjenca artificiale, PDF, kërkimi i dokumenteve, OCR, transparenca, gazetaria