應用效果:
1、安裝 Apache Tika 依賴
pom.xml
<!-- Apache Tika 從文件中提取結構化文本和元數據 --><dependency><groupId>org.apache.tika</groupId><artifactId>tika-core</artifactId><version>2.9.2</version></dependency><dependency><groupId>org.apache.tika</groupId><artifactId>tika-parsers-standard-package</artifactId><version>2.9.2</version></dependency>
2、配置
新建配置文件:src/main/resources/tika-config.xml
<?xml version="1.0" encoding="UTF-8"?>
<properties><encodingDetectors><encodingDetector class="org.apache.tika.parser.html.HtmlEncodingDetector"><params><param name="markLimit" type="int">64000</param></params></encodingDetector><encodingDetector class="org.apache.tika.parser.txt.UniversalEncodingDetector"><params><param name="markLimit" type="int">64001</param></params></encodingDetector><encodingDetector class="org.apache.tika.parser.txt.Icu4jEncodingDetector"><params><param name="markLimit" type="int">64002</param></params></encodingDetector></encodingDetectors>
</properties>
新建配置類:src/main/java/com/weiyu/config/TikaConfiguration.java
package com.weiyu.config;import org.apache.tika.Tika;
import org.apache.tika.config.TikaConfig;
import org.apache.tika.detect.Detector;
import org.apache.tika.exception.TikaException;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.core.io.Resource;
import org.springframework.core.io.ResourceLoader;
import org.xml.sax.SAXException;import java.io.IOException;
import java.io.InputStream;
/*** Tika 配置*/
@Configuration
public class TikaConfiguration {@Autowiredprivate ResourceLoader resourceLoader;@Beanpublic Tika tika() throws IOException, TikaException, SAXException {Resource resource = resourceLoader.getResource("classpath:tika-config.xml");InputStream inputStream = resource.getInputStream();TikaConfig config = new TikaConfig(inputStream);Detector detector = config.getDetector();Parser parser = new AutoDetectParser(config);return new Tika(detector, parser);}
}
擴展原有文件工具類(增加提取文本內容的方法) 或 新建文件服務類
工具類:src/main/java/com/weiyu/utils/FileUtils.java
package com.weiyu.utils;import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;import java.io.File;
import java.io.IOException;
import java.io.InputStream;/*** 文件工具*/
public class FileUtils {private static final Tika tika = new Tika();/*** 獲取路徑分隔符* <p>如 windows:D:\\MyCode\\file\\example.txt,返回 \\; example.txt,返回 \u0000(空字符)* <p>如 windows:D:/MyCode/file/example.txt,返回 /; example.txt,返回 \u0000(空字符)* <p>如 Linux:/MyCode/file/example.txt,返回 /; example.txt,返回 \u0000(空字符)* @param filePathName 文件路徑名稱 或 文件名稱* @return 分隔符,如 /、\、\u0000(空字符)*/public static int getPathSplitChar(String filePathName) {if (filePathName == null || filePathName.isEmpty()) return '\u0000';int splitChar;// Linux 目錄,以 / 開頭if (filePathName.charAt(0) == '/') {splitChar = '/';}// windows 目錄else {// windows 目錄路徑使用正斜杠(/)作為路徑分隔符if (filePathName.contains("/")) {splitChar = '/';}// windows 目錄路徑使用反斜杠(\)作為路徑分隔符else if (filePathName.contains("\\")){splitChar = '\\';} else {splitChar = '\u0000';}}return splitChar;}/*** 獲取路徑分隔字符串* <p>如 windows:D:\\MyCode\\file\\example.txt,返回 \\; example.txt,返回 \u0000(空字符)* <p>如 windows:D:/MyCode/file/example.txt,返回 /; example.txt,返回 \u0000(空字符)* <p>如 Linux:/MyCode/file/example.txt,返回 /; example.txt,返回 \u0000(空字符)* @param filePathName 文件路徑名稱 或 文件名稱* @return 分隔字符串,如 /、\、\u0000(空字符)*/public static String getPathSplitString(String filePathName) {int splitChar = getPathSplitChar(filePathName);switch (splitChar) {case 47 -> {return "/";}case 92 -> {return "\\";}default -> {return "";}}}/*** 獲取文件名* <p>如 windows:D:\\MyCode\\file\\example.txt,返回 example.txt; example.txt,返回 example.txt* <p>如 windows:D:/MyCode/file/example.txt,返回 example.txt; example.txt,返回 example.txt* <p>如 Linux:/MyCode/file/example.txt,返回 example.txt; example.txt,返回 example.txt* @param filePathName 文件路徑名稱 或 文件名稱* @return 文件名(無路徑、有后綴),如:example.txt*/public static String getFileName(String filePathName) {// 獲取路徑分隔符int ch = getPathSplitChar(filePathName);// 查找最后一個 ch 的位置int lastDotIndex = filePathName.lastIndexOf(ch);// 如果沒有 ch,直接返回原文件名if (lastDotIndex == -1) {return filePathName;}return filePathName.substring(lastDotIndex + 1);}/*** 移除文件名后綴* <p>如 windows:D:\\MyCode\\file\\example.txt,返回 D:\\MyCode\\file\\example; example.txt,返回 example* <p>如 windows:D:/MyCode/file/example.txt,返回 D:/MyCode/file/example; example.txt,返回 example* <p>如 Linux:/MyCode/file/example.txt,返回 /MyCode/file/example; example.txt,返回 example* @param filePathName 文件路徑名稱 或 文件名稱* @return 文件名(有路徑、無后綴)*/public static String getFileNameContainPathWithoutExtension(String filePathName) {// 查找最后一個 . 的位置int lastDotIndex = filePathName.lastIndexOf('.');// 如果沒有后綴,直接返回原文件名if (lastDotIndex == -1) {return filePathName;}return filePathName.substring(0, lastDotIndex);}/*** 移除文件名路徑和后綴* <p>如 windows:D:\\MyCode\\file\\example.txt 或 example.txt,返回 example* <p>如 windows:D:/MyCode/file/example.txt 或 example.txt,返回 example* <p>如 Linux:/MyCode/file/example.txt 或 example.txt,返回 example* @param filePathName 文件路徑名稱 或 文件名稱* @return 文件名(無路徑、無后綴),如:example*/public static String getFileNameWithoutPathAndExtension(String filePathName) {// 獲取路徑分隔符int ch = getPathSplitChar(filePathName);// 查找最后一個 ch 的位置int lastDotIndex = filePathName.lastIndexOf(ch);// 如果沒有ch,直接返回原文件名if (lastDotIndex != -1) {filePathName = filePathName.substring(lastDotIndex + 1);}// 查找最后一個 . 的位置lastDotIndex = filePathName.lastIndexOf('.');filePathName = filePathName.substring(0, lastDotIndex);return filePathName;}/*** 獲取文件名的擴展名(后綴)* <p>如 windows:D:\\MyCode\\file\\example.txt 或 example.txt,返回 txt* <p>如 windows:D:/MyCode/file/example.txt 或 example.txt,返回 txt* <p>如 Linux:/MyCode/file/example.txt 或 example.txt,返回 txt* @param filePathName 文件路徑名稱 或 文件名稱* @return 擴展名(后綴),不帶.(如:txt)*/public static String getExtension(String filePathName) {// 處理 null 異常if (filePathName == null) return null;// 獲取文件名中最右邊的.int index = filePathName.lastIndexOf(".");// 沒有.if (index == -1) return "";// 獲取文件名的擴展名(后綴)return filePathName.substring(index + 1);}/*** 是否目錄* <p>如 windows:D:\\MyCode\\file\\example.txt,返回 true; example.txt,返回 false* <p>如 windows:D:/MyCode/file/example.txt,返回 true; example.txt,返回 false* <p>如 Linux:/MyCode/file/example.txt,返回 true; example.txt,返回 false* @param filePathName 文件路徑名稱 或 文件名稱* @return true,包含文件路徑;false,不包含文件路徑*/public static Boolean hasDirectory(String filePathName) {// 獲取路徑分隔符int ch = getPathSplitChar(filePathName);// 查找最后一個 ch 的位置int lastDotIndex = filePathName.lastIndexOf(ch);// 如果沒有 ch,不包含文件路徑return lastDotIndex != -1;}/*** 安全目錄,windows目錄以 \ 或 / 結尾,linux目錄以 / 結尾* @param directoryPath 目錄路徑* @return 返回安全目錄,如: 或 D:/MyCode/file/QualityFile/ 或 /MyCode/file/QualityFile/ 或 D:\\MyCode\\file\\QualityFile\\*/public static String safeDirectory(String directoryPath) {// 獲取目錄路徑最后一位字符String lastChar = directoryPath.substring(directoryPath.length() - 1);// 目錄路徑最后沒有目錄分割符 \ 或 /(windows) 或 /(linux)if (!lastChar.equals("\\") && !lastChar.equals("/")) {// linux 目錄路徑以 / 開頭if (directoryPath.charAt(0) == '/') {directoryPath = directoryPath + "/";}// windows 目錄路徑else {// windows 目錄路徑使用正斜杠(/)作為路徑分隔符if (directoryPath.contains("/")) {directoryPath = directoryPath + "/";}// windows 目錄路徑使用反斜杠(\)作為路徑分隔符else {directoryPath = directoryPath + "\\";}}}return directoryPath;}/*** 拼接目錄路徑* @param mainDirectoryPath 主目錄路徑* 如 windows:D:/MyCode/file 或 D:\\MyCode\\file,Linux:/MyCode/file* 如 windows:D:/MyCode/file/ 或 D:\\MyCode\\file\\,Linux:/MyCode/file/* @param subDirectoryPathAndFileName 子目錄路徑 或 文件名 或 子目錄路徑及文件名* 如 windows:QualityFile/ 或 QualityFile\\,Linux:QualityFile/* 如 windows:QualityFile/example.txt 或 QualityFile\\example.txt,Linux:QualityFile/example.txt* 如 windows:/example.txt 或 \\example.txt,Linux:/example.txt* @return 目錄路徑* 如 windows:D:/MyCode/file/QualityFile/ 或 D:\\MyCode\\file\\QualityFile\\,Linux:/MyCode/file/QualityFile/* 如 windows:D:/MyCode/file/QualityFile/example.txt 或 D:\\MyCode\\file\\QualityFile\\example.txt,Linux:/MyCode/file/QualityFile/example.txt* 如 windows:D:/MyCode/file/example.txt 或 D:\\MyCode\\file\\example.txt,Linux:/MyCode/file/example.txt*/public static String joinDirectoryPath(String mainDirectoryPath, String subDirectoryPathAndFileName) {String filePathName;// 安全檢查主目錄路徑,Linux:以 / 開頭,windows:第二位字符是 :if (!isMainDirectoryPath(mainDirectoryPath)) {throw new RuntimeException("非法目錄!");}filePathName = mainDirectoryPath;// 獲取路徑分隔符 / 或 \String pathSplitString = FileUtils.getPathSplitString(filePathName);// 確保最后是路徑分隔符 / 或 \if (!filePathName.endsWith(pathSplitString)) {filePathName = filePathName + pathSplitString;}// 拼接子目錄路徑 或 文件名 或 子目錄路徑及文件名if (subDirectoryPathAndFileName != null && !subDirectoryPathAndFileName.isEmpty()) {// 拼接子目錄路徑 或 文件名 或 子目錄路徑及文件名 以 路徑分隔符 / 或 \ 開頭if (subDirectoryPathAndFileName.startsWith(pathSplitString)) {// 先刪除子目錄路徑 或 文件名 或 子目錄路徑及文件名 開頭的路徑分隔符 / 或 \,再拼接filePathName = filePathName + subDirectoryPathAndFileName.substring(1);} else {// 直接拼接filePathName = filePathName + subDirectoryPathAndFileName;}}return filePathName;}/*** 是否是主目錄,即 Linux:以 / 開頭,windows:第二位字符是 :* @param mainDirectoryPath 主目錄路徑* 如 windows:D:/MyCode/file 或 D:\\MyCode\\file,Linux:/MyCode/file* 如 windows:D:/MyCode/file/ 或 D:\\MyCode\\file\\,Linux:/MyCode/file/* @return true 或 false*/public static boolean isMainDirectoryPath(String mainDirectoryPath) {// 安全檢查主目錄路徑,Linux:以 / 開頭,windows:第二位字符是 :return mainDirectoryPath != null &&!mainDirectoryPath.isEmpty() &&(mainDirectoryPath.startsWith("/") || (mainDirectoryPath.length() > 2 && mainDirectoryPath.charAt(1) == ':'));}/*** 解析文件,提取文件中的文本內容** @param file 文件* @return 文件中的文本內容* @throws IOException IO異常* @throws TikaException Tika異常*/public static String parseFile(File file) throws IOException, TikaException {return tika.parseToString(file);}/*** 解析文件,提取文件流中的文本內容** @param fileStream 文件流* @return 文件中的文本內容* @throws IOException IO異常* @throws TikaException Tika異常*/public static String parseFile(InputStream fileStream) throws IOException, TikaException {return tika.parseToString(fileStream);}
}
服務類:
src/main/java/com/weiyu/service/FileService.java
src/main/java/com/weiyu/service/impl/FileServiceImpl.java
package com.weiyu.service;import org.apache.tika.exception.TikaException;import java.io.File;
import java.io.IOException;
import java.io.InputStream;/*** 文件 Service 接口*/
public interface FileService {/*** 解析文件,提取文件中的文本內容** @param file 文件* @return 文件中的文本內容* @throws IOException IO異常* @throws TikaException Tika異常*/String parseFile(File file) throws TikaException, IOException;/*** 解析文件,提取文件流中的文本內容** @param fileStream 文件流* @return 文件中的文本內容* @throws IOException IO異常* @throws TikaException Tika異常*/String parseFile(InputStream fileStream) throws TikaException, IOException;
}
src/main/java/com/weiyu/service/impl/FileServiceImpl.java
package com.weiyu.service.impl;import com.weiyu.service.FileService;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;import java.io.File;
import java.io.IOException;
import java.io.InputStream;/*** 文件 Service 接口實現*/
@Service
public class FileServiceImpl implements FileService {@Autowiredprivate Tika tika;/*** 解析文件,提取文件中的文本內容** @param file 文件* @return 文件中的文本內容* @throws IOException IO異常* @throws TikaException Tika異常*/@Overridepublic String parseFile(File file) throws TikaException, IOException {return tika.parseToString(file);}/*** 解析文件,提取文件流中的文本內容** @param fileStream 文件流* @return 文件中的文本內容* @throws IOException IO異常* @throws TikaException Tika異常*/@Overridepublic String parseFile(InputStream fileStream) throws TikaException, IOException {return tika.parseToString(fileStream);}
}
3、前后端聯合應用
3.1、前端 Vue3
API:qualityFile.ts
/*** 從文件或文件流中提取文本內容* @param fileNo 文件編號(可能包含非安全字符,如:4.2 2人員v∕V/v+DW=dw,其中空格、全角斜杠∕、半角斜杠/、加號+、非ASCII字符??(如中文、日文等),這些字符為非安全字符,在URL中都會被編碼傳輸)* @returns 文本內容*/
export const qualityFileParseService = (fileNo: string) => {return request.get("/resources/qualityFile/parse", {params: {fileNo: fileNo}});
};
UI:QualityFile.vue
// 提取
const onParseClick = async (fileNo: string) => {const result = await qualityFileParseService(fileNo);store.currentParseFileText = result.data;// 顯示質量體系文件文本提取內容模態框showContentDialogRef.value?.showDialog();
};<BasePreventReClickButtonclass="table-btn"type="primary"size="default"text:loading="false":disabled="scope.row.isNullContent"@click="onParseClick(scope.row.fileNo)">提取</BasePreventReClickButton><!-- 顯示質量體系文件文本提取內容模態框 --><BaseShowContentDialog ref="showContentDialogRef" title="提取的文本內容" :content="store.currentParseFileText" />
3.2、后端 Spring Boot
Controller:QualityFileController.java
/*** 從文件或文件流中提取文本內容** @param fileNo 文件編號(可能包含非安全字符,如:4.2 2人員v∕V/v+DW=dw,其中空格、全角斜杠∕、半角斜杠/、加號+、中文為非安全字符)* @return 文本內容* @apiNote 本接口使用防抖機制,3s 內重復請求會被忽略*/@GetMapping("/parse")@Debounce(key = "/resources/qualityFile/parse", value = 3000)public Result<String> parse(String fileNo) throws TikaException, IOException {log.info("【質量體系文件】,提取文件中的文本內容,/resources/qualityFile/parse,fileNo = {}", fileNo);String fileContentStr = qualityFileService.parse(fileNo);return Result.success(fileContentStr);}
Service:QualityFileService.java
/*** 從文件或文件流中提取文本內容*/String parse(String fileNo) throws TikaException, IOException;
Service 實現(使用文件工具類實現):QualityFileServiceImpl.java
/*** 從文件或文件流中提取文本內容*/@Overridepublic String parse(String fileNo) throws TikaException, IOException {// 獲取文件數據FileData fileData = qualityFileMapper.selectFileData(fileNo);// 從文件名中獲取路徑分隔符String pathSplitString = FileUtils.getPathSplitString(fileData.getFileName());// 有路徑分隔符,提取本地磁盤中文件的文本內容if (!pathSplitString.isEmpty()) {// 獲取文件絕對路徑String filePathName = FileUtils.joinDirectoryPath(mainDirectoryPath, fileData.getFileName());// 提取本地磁盤中文件的文本內容return FileUtils.parseFile(new File(filePathName));}// 無路徑分隔符,提取數據庫中文件流的文本內容else {InputStream fileStream = new ByteArrayInputStream(fileData.getFileContent());// 提取數據庫中文件流的文本內容return FileUtils.parseFile(fileStream);}}
Service 實現(使用文件服務類實現):WorkInstructionServiceImpl.java
@Autowiredprivate FileService fileService; /*** 從文件或文件流中提取文本內容*/@Overridepublic String parse(String fileNo) throws TikaException, IOException {// 獲取文件數據FileData fileData = qualityFileMapper.selectFileData(fileNo);// 從文件名中獲取路徑分隔符String pathSplitString = FileUtils.getPathSplitString(fileData.getFileName());// 有路徑分隔符,提取本地磁盤中文件的文本內容if (!pathSplitString.isEmpty()) {// 獲取文件絕對路徑String filePathName = FileUtils.joinDirectoryPath(mainDirectoryPath, fileData.getFileName());// 提取本地磁盤中文件的文本內容return fileService.parseFile(new File(filePathName));}// 無路徑分隔符,提取數據庫中文件流的文本內容else {InputStream fileStream = new ByteArrayInputStream(fileData.getFileContent());// 提取數據庫中文件流的文本內容return fileService.parseFile(fileStream);}}