使用java獲取PDF文檔指定坐標的文本內容

前言

臨時接到一個緊急需要處理的事項。業務側一個同事有幾千個PDF文件需要整理：需要從文件中的指定位置獲取對應的編號和地址。
要的急，工作量大。所以就問到技術部有沒有好的解決方案。
問技術的話就只能寫個demo跑下了。

解決辦法

1. 研究下PDF文檔，找出解決方案

PDF的文檔看起來比較簡單，因為只是需要讀取兩個坐標位置的文本內容，而且位置相對固定。所以就直接用java的第三方庫pdfbox來操作PDF文檔。

2. 找個能操作PDF的第三方庫pdfbox。

先下載pdfbox的jar包。
官網介紹
pdfbox能干啥：
- pdfbox是Apache軟件基金會的一個開源項目，它提供API和工具來處理PDF文檔。
- pdfbox是Apache PDFBox的Java版本，它提供了一個類庫，用于讀取，寫入，轉換和創建PDF文檔。
- pdfbox支持處理各種PDF特性，如文本，字體，圖像，表單字段，注釋，書簽，頁面布局等。
- pdfbox還提供了對加密和數字簽名PDF文檔的支持，以及對PDF文檔的提取和合并。
- pdfbox還提供了對PDF文檔的驗證，簽名驗證，加密驗證和數字簽名的支持。
- PDFBox是一個用于處理PDF文檔的Java庫。它提供了一組功能強大的API，可以用于創建、修改和提取PDF文檔的內容。PDFBox可以用于各種用途，包括生成PDF文檔、提取文本和圖像、合并和拆分PDF文件、添加水印和書簽等。
- PDFBox支持處理各種PDF特性，如文本、字體、圖像、表單字段、注釋、書簽、頁面布局等。它還提供了對加密和數字簽名PDF文檔的支持，以及對PDF文檔的高級操作，如提取文本位置信息、提取圖像和字體等。

3. maven加載包

      pdfbox有三個大的版本，每個版本差異較大，這個時候如果要引入的時候，要注意對應的版本了，否則demo就有可能跑不起來。![pdfbox三個版本官方說明](https://img-blog.csdnimg.cn/3a822ec1571f4e088431d58704756781.png)pdfbox最新的大版本是3.0。作為新時代的青年，肯定要與時俱進。3.0肯定是要用上的。

3. 先驗證下第三方庫是否可行

下載jar包后，直接用java代碼跑下demo。 demo讀取pdf文檔內容并輸出文本數據到控制臺

    import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.text.PDFTextStripper;import java.io.File;import java.io.IOException;public class PDFBoxDemo {public static void main(String[] args) throws IOException {PDDocument document = PDDocument.load(new File("D:\\pdf\\test.pdf"));PDFTextStripper stripper = new PDFTextStripper();String text = stripper.getText(document);System.out.println(text);document.close();}}

發現demo跑起來后，報錯。
原因是因為demo是2.0的版本，而當前的jar包是3.0的版本。PDDocument.load這個修改為Loader.load就OK了。

接下來，就是如何獲取到指定坐標位置的文本內容。

4. 確認文本在PDF文檔中的坐標位置。

確認PDF文本坐標一般有兩種方案。

1. 代碼校驗（最精準）

先用demo跑下，看下是否可以讀取到指定坐標位置的文本內容。

 /*** 獲取文檔坐標* @param  file PDF文件對象* @param sourceTex 匹配的字符* @return 坐標*/public static Point getPoint(File file,String sourceTex) {Point point = new Point();//獲取文檔坐標try {PDDocument document =  Loader.loadPDF(file);PDFTextStripper textStripper = new PDFTextStripper() {@Overrideprotected void writeString(String text, List<TextPosition> textPositions) throws IOException {if (text.contains(targetText)) {TextPosition textPositionStart = textPositions.get(0);TextPosition textPositionEnd = textPositions.get(textPositions.size()-1);point.setX(textPositionStart.getX());point.setY(textPositionStart.getY()); }}};textStripper.setSortByPosition(true);textStripper.setStartPage(1);textStripper.setEndPage(document.getNumberOfPages());textStripper.getText(document);document.close();} catch (IOException e) {e.printStackTrace();}return point;}

跑完demo后，發現可以讀取到指定坐標位置的文本內容。
這里會有個小問題，就是返回的坐標點有的會有小數。因為當前返回類型float，所以需要轉換成int。

2. 最直接粗暴的方法。

  1. 福昕PDF文檔工具。2. 直接用福昕PDF文檔定位工具定位坐標。說實話，開發比較少用這種方式，因為感覺有點lower(其實是自己不太會用)

5. 整個demo先驗證第三方庫是否可行。

拿1個文件試試水

 public static void main(String[] args) {String filePath = "D:\\test\\test.pdf";try {PDDocument document = Loader.loadPDF(file);PDFTextStripperByArea  textStripper = new PDFTextStripperByArea ();Rectangle rectangle = new Rectangle(80,120, 250,10);String regionName = "regionName";textStripper.addRegion(regionName, rectangle);PDPage page = document.getPage(0);textStripper.extractRegions(page);String text = textStripper.getTextForRegion(regionName);System.out.println(text);textStripper.setSortByPosition(true);textStripper.setStartPage(1);textStripper.setEndPage(document.getNumberOfPages());textStripper.getText(document);document.close();}catch (IOException e) {e.printStackTrace();}}

結果能夠正常輸出對應的文本內容。

6. 整活上代碼。

奉上全部demo代碼

package com.example.demo;
import cn.hutool.poi.excel.ExcelUtil;
import cn.hutool.poi.excel.ExcelWriter;
import com.alibaba.fastjson2.JSON;
import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;
import org.apache.pdfbox.text.TextPosition;
import org.springframework.boot.test.autoconfigure.data.cassandra.DataCassandraTest;import java.awt.*;
import java.awt.geom.Rectangle2D;
import java.io.File;
import java.io.IOException;
import java.util.*;
import java.util.List;
import java.util.stream.Collectors;/*** Desc: 驗證pdfbox的可行性** @author admin* @date since 2023/8/8 18:44*/public class PdfDemo {//要匹配的位置內容點private  static final String[] target= {"name", "address"};public static void main(String[] args) {ExcelWriter excelWriter= ExcelUtil.getWriter("D:\\test\\pdf\\test.xls");String folderPath = "D:\\test\\pdf";File folder = new File(folderPath);if (folder.exists() && folder.isDirectory()) {List<Map<String,Object>>  mps =  listPdfFiles(folder);excelWriter.write(mps, true);} else {System.out.println("Invalid folder path.");}excelWriter.close();}/*** 獲取pdf文件列表** @param folder 文件夾* @return {@code List<Map<String,Object>>}*/private static  List<Map<String,Object>>  listPdfFiles(File folder) {List<Map<String,Object>> mps = new ArrayList<>();File[] files = folder.listFiles();if (files != null) {for (File file : files) {if (file.isDirectory()) {listPdfFiles(file); // 遞歸調用，處理子文件夾} else {String fileName = file.getName();if (fileName.toLowerCase().endsWith(".pdf")) {mps.add(getLineData(file));}}}}return mps;}/*** 行數據** @param file 文件* @return {@code Map<String,Object>}*/public static Map<String,Object> getLineData(File file){Map<String,Object> lineData = new HashMap<>(target.length+2);List<Point> pointList =  getPoint(file);String[]  arr=  getPointValue(file, pointList.stream().map(s -> new Rectangle(s.getX(), s.getY(), 260, 10)).toArray(Rectangle[]::new));if(arr.length>=target.length) {for(int i=0;i<target.length;i++){lineData.put(target[i], arr[i]);}lineData.put("fileName", file.getName().toLowerCase().replace(".pdf", ""));}return lineData;}/*** 獲得PDF指定坐標點文本值** @param file       文件* @param rectangles 矩形坐標* @return {@code String[]}*/public  static String[] getPointValue( File file,Rectangle... rectangles){String[] textArr = new String[rectangles.length];// String text="";try {PDDocument document = Loader.loadPDF(file);PDFTextStripperByArea  textStripper = new PDFTextStripperByArea ();for(int i = 0; i < rectangles.length;i++   ) {Rectangle rectangle =rectangles[i];String regionName = "regionName"+rectangle.getX()+rectangle.getY();textStripper.addRegion(regionName, rectangle);PDPage page = document.getPage(0);textStripper.extractRegions(page);// 獲取區域的textString text = textStripper.getTextForRegion(regionName);text = text.replace("\u0000","-").replace(" ","");System.out.println(">>text"+text);textArr[i]=text;}textStripper.setSortByPosition(true);textStripper.setStartPage(1);textStripper.setEndPage(document.getNumberOfPages());textStripper.getText(document);document.close();}catch (IOException e) {e.printStackTrace();}return  textArr;}public  static List<Point> getPoint( File file){List<Point> pointList=new ArrayList<>();try {PDDocument document =  Loader.loadPDF(file);PDFTextStripper textStripper = new PDFTextStripper() {@Overrideprotected void writeString(String text, List<TextPosition> textPositions) throws IOException {for(String target:target){if (text.contains(target)) {Point point = new Point();TextPosition textPositionEnd = textPositions.get(textPositions.size() - 1);point.setX((int) textPositionEnd.getEndX());point.setY((int) textPositionEnd.getY());pointList.add(point);}}}};textStripper.setSortByPosition(true);textStripper.setStartPage(1);textStripper.setEndPage(document.getNumberOfPages());textStripper.getText(document);document.close();} catch (IOException e) {e.printStackTrace();}System.out.println(">>>>>pointList" + JSON.toJSONString(pointList));return pointList;}
}