一般社団法人 全国個人事業主支援協会

COLUMN コラム

本日がDoclingについて調べたことについて情報共有を行います。

 

Doclingとはドキュメントを構造化することができるオープンソースであり、

例えばPDF, Word文書などをマークダウン形式やJSONに変換することができます。

簡単な使い方として

pip install docling

PDFをマークダウンに変換するのは以下のように実行するだけです。

from docling.document_converter import DocumentConverter

converter = DocumentConverter()

result = converter.convert(“sample.pdf”)

doc = result.document

print(doc.export_to_markdown())

 

出力形式は様々なものが選べます。

 

doc.export_to_markdown()
doc.export_to_text()
doc.export_to_json()
doc.export_to_html()

 

CLIからも使えます。

docling sample.pdf -o output.md

URLを直接読むこともできます。

from docling.document_converter import DocumentConverter
source = “https://arxiv.org/pdf/2408.09869”
converter = DocumentConverter()
doc = converter.convert(source).document
print(doc.export_to_markdown())
内部としてはDoclingDocumentが多なオブジェクトで
Pydanticとして定義された木構造になっている。
主な型は
  • TextItem
  • TableItem
  • PictureItem
  • SectionHeaderItem
  • KeyValueItem
  • PageItem
  • GroupItem
  • BoundingBox
  • ProvenanceItem

といったものでこれらはrefを参照して下さい。

https://docling-project.github.io/docling/reference/docling_document/

The following two tabs change content below.

片桐 奏羽

アプリ開発をしながら物理を研究しています。

最新記事 by 片桐 奏羽 (全て見る)

この記事をシェアする

  • Twitterでシェア
  • Facebookでシェア
  • LINEでシェア