本日がDoclingについて調べたことについて情報共有を行います。
Doclingとはドキュメントを構造化することができるオープンソースであり、
例えばPDF, Word文書などをマークダウン形式やJSONに変換することができます。
簡単な使い方として
PDFをマークダウンに変換するのは以下のように実行するだけです。
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert(“sample.pdf”)
doc = result.document
print(doc.export_to_markdown())
出力形式は様々なものが選べます。
doc.export_to_markdown()
doc.export_to_text()
doc.export_to_json()
doc.export_to_html()
CLIからも使えます。
URLを直接読むこともできます。
TextItemTableItemPictureItemSectionHeaderItemKeyValueItemPageItemGroupItemBoundingBoxProvenanceItemといったものでこれらはrefを参照して下さい。
https://docling-project.github.io/docling/reference/docling_document/