OpenDataLoader PDF je open-source parser PDF pro AI aplikace. Převádí dokumenty do strukturovaných formátů jako JSON nebo Markdown.
Kdo za projektem stojí
Projekt vede OpenDataLoader Project na GitHubu (opendataloader-project). Vydavatel je Hancom Inc., která v březnu 2026 vydala verzi 2.0 s vylepšeným motorem.
K čemu slouží
Parser extrahuje text, tabulky, obrázky a layout do formátů pro RAG, LLM a vektorovky. Běží lokálně bez GPU, filtruje bezpečnostní rizika a podporuje LangChain integraci. Usnadňuje zpracování velkých sad PDF pro AI workflow.
Čísla a benchmarky
Verze 2.0 vede open-source benchmarky s celkovým skórem 0.90. Nabízí vysoký throughput díky heuristické inferenci, bez cloud závislosti.
| Výstup | Funkce | Použití |
|---|---|---|
| JSON | Layout + bounding boxy | RAG DB |
| Markdown | Struktura + obrázky | LLM |
| HTML | Stylovaný | Web |
Zdroje
- https://github.com/opendataloader-project/opendataloader-pdf[1]
- https://www.npmjs.com/package/@opendataloader/pdf[2]
- https://pdfa.org/opendataloader-pdf-v20-tops-open-source-pdf-benchmarks-in-pdf-data-loading/[3]
- https://docs.langchain.com/oss/python/integrations/document_loaders/opendataloader_pdf[5]
- https://opendataloader.org[6]
- https://github.com/opendataloader-project[4]
![]()

