這篇博客文章將向你展示如何將 PDF 轉換為 YAML,通過提取帶有結構標簽的標記內容來實現。
什么是結構化 PDF?
一些 PDF 文件包含結構化內容,也稱為帶標簽(tagged)或標記內容(marked content),這是一種語義信息,為文件的結構提供了意義。這類似于 HTML,文本被標簽包裹,這些標簽指示了文本的含義。
什么是 YAML?
YAML 是一種數據序列化格式,與 JSON 類似,因此在系統之間傳輸內容時非常有用。
與 JSON 和 XML 等其他標記語言相比,YAML 的一個關鍵區別在于:YAML 使用縮進而不是括號或標簽來定義層級結構。
我可以將 PDF 轉換為 YAML 嗎?
如果一個 PDF 文件包含標記內容(如何判斷?),那么你就可以處理這些結構標簽并生成 YAML 輸出。
我們的 PDF 庫 JPedal 支持將帶標簽的 PDF 轉換為 YAML 格式。你可以使用以下代碼片段實現這一功能:
ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();
properties.setFileOutputMode(OutputModes.YAML);ExtractStructuredText.
writeAllStructuredTextOutlinesToDir("inputFile.pdf", password, "outputFolder", null, null);
下載 Jar 包
如果你對 PDF 有更深入的興趣,歡迎閱讀我們的其他文章——我們已經與這種格式打交道超過十年!
?