Získávání metadat ze skenovaných dokumentů NATO pomocí LLM
Historické archivy obsahují cenné informace, ale ve skenovaných dokumentech se obtížně hledá, pokud jsou metadata neúplná nebo nekonzistentní. Na C4DHI Anniversary Workshop jsem představil pracovní postup, který využívá velké jazykové modely k získávání strukturovaných metadat ze skenovaných archivních dokumentů NATO. Přednáška se zaměřila na zašuměné OCR, vícejazyčné záznamy a zachování podkladů pro lidskou kontrolu.