excel解析圖片pdf附件不怕

背景

工作中肯定會有導入excel還附帶圖片附件的下面是我解析的excel,支持圖片、pdf、壓縮文件

實現

依次去解析excel,看看也沒有附件,返回的格式是Map,key是第幾行,value是附件list附件格式都被解析成pdf格式

Reader.java


package com.ruoyi.srm.service;import java.util.List;import org.apache.poi.ss.usermodel.Workbook;import com.ruoyi.srm.domain.req.CapacityReceivingReq.FileListBean;public interface Reader {/*** @param workbook* @param targetRow 目標行索引(例如第3行,索引從0開始)* @return*/List<FileListBean> read(Workbook workbook, int targetCol);}

ReaderComposite.java


package com.ruoyi.srm.service.impl;import java.util.Collection;
import java.util.List;
import java.util.Map;
import java.util.stream.Collectors;import org.apache.poi.ss.usermodel.Workbook;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;import com.ruoyi.srm.domain.req.CapacityReceivingReq.FileListBean;
import com.ruoyi.srm.service.Reader;@Component
public class ReaderComposite {@Autowiredprivate List<Reader> readerList;/*** @param workbook* @param targetRow 目標行索引(例如第3行,索引從0開始)* @return*/public Map<String, List<FileListBean>> read(Workbook workbook, int targetCol) {return readerList.stream().map(reader -> reader.read(workbook, targetCol)).flatMap(Collection::stream).collect(Collectors.groupingBy(t -> t.getLine() + ""));}}

ImageReader.java


package com.ruoyi.srm.service.impl;import java.io.File;
import java.io.FileOutputStream;
import java.util.ArrayList;
import java.util.Base64;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.concurrent.atomic.AtomicInteger;import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.xssf.usermodel.XSSFClientAnchor;
import org.apache.poi.xssf.usermodel.XSSFDrawing;
import org.apache.poi.xssf.usermodel.XSSFPicture;
import org.apache.poi.xssf.usermodel.XSSFPictureData;
import org.apache.poi.xssf.usermodel.XSSFShape;
import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.springframework.boot.system.ApplicationHome;
import org.springframework.stereotype.Component;import com.ruoyi.srm.domain.req.CapacityReceivingReq.FileListBean;
import com.ruoyi.srm.service.Reader;import cn.hutool.core.io.FileUtil;
import lombok.SneakyThrows;
import lombok.extern.slf4j.Slf4j;@Slf4j
@Component
public class ImageReader implements Reader {/*** @param workbook* @param targetRow 目標行索引(例如第3行,索引從0開始)* @return*/@Override@SneakyThrowspublic List<FileListBean> read(Workbook workbook, int targetCol) {ApplicationHome home = new ApplicationHome();String rootPath = home.getDir().getAbsolutePath() + File.separator + "extract" + File.separator;List<FileListBean> result = new ArrayList<>();Map<String, AtomicInteger> counter = new HashMap<>();// 指定要讀取圖片的工作表和單元格位置Sheet sheet = workbook.getSheetAt(0); // 第一個工作表// 遍歷所有繪圖對象(包含圖片)if (sheet instanceof XSSFSheet) {XSSFSheet xssfSheet = (XSSFSheet) sheet;XSSFDrawing drawing = xssfSheet.getDrawingPatriarch();if (drawing != null) {// 遍歷所有形狀(包括圖片)String dir = rootPath + "_" + System.currentTimeMillis();for (XSSFShape shape : drawing.getShapes()) {if (shape instanceof XSSFPicture) {XSSFPicture picture = (XSSFPicture) shape;XSSFClientAnchor anchor = (XSSFClientAnchor) picture.getAnchor();// 檢查圖片的左上角是否在目標單元格int targetRow = anchor.getRow1();if (anchor.getCol1() == targetCol) {AtomicInteger integer = counter.computeIfAbsent(targetRow + "_" + targetCol, k -> new AtomicInteger());// 提取圖片數據XSSFPictureData pictureData = picture.getPictureData();byte[] imageBytes = pictureData.getData();// 保存圖片到本地new File(dir).mkdirs();String filePath = dir + File.separator + "image_" + (targetRow + 1) + "_" + targetCol + "_" + integer.incrementAndGet() + "." + pictureData.suggestFileExtension();try (FileOutputStream out = new FileOutputStream(filePath)) {out.write(imageBytes);log.info("第{}行圖片已保存到: {}", targetRow + 1, filePath);String encodeToString = Base64.getEncoder().encodeToString(FileUtil.readBytes(filePath));String mimeType = FileUtil.getMimeType(filePath);if ("image/jpeg".equals(mimeType)) {encodeToString = "data:image/png;base64," + encodeToString;}result.add(new FileListBean().setFileName(new File(filePath).getName()).setContent(encodeToString).setLine(targetRow));}}}}}}return result;}
}

AttachmentReader.java


package com.ruoyi.srm.service.impl;import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Base64;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.concurrent.atomic.AtomicInteger;import org.apache.commons.compress.archivers.zip.ZipArchiveEntry;
import org.apache.commons.compress.archivers.zip.ZipArchiveInputStream;
import org.apache.commons.io.IOUtils;
import org.apache.poi.ooxml.POIXMLDocumentPart;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.xssf.usermodel.XSSFClientAnchor;
import org.apache.poi.xssf.usermodel.XSSFDrawing;
import org.apache.poi.xssf.usermodel.XSSFObjectData;
import org.apache.poi.xssf.usermodel.XSSFShape;
import org.apache.poi.xssf.usermodel.XSSFSheet;
import org.apache.tika.Tika;
import org.springframework.boot.system.ApplicationHome;
import org.springframework.stereotype.Component;import com.ruoyi.srm.domain.req.CapacityReceivingReq.FileListBean;
import com.ruoyi.srm.service.Reader;import cn.hutool.core.io.FileUtil;
import lombok.Cleanup;
import lombok.SneakyThrows;
import lombok.extern.slf4j.Slf4j;@Slf4j
@Component
public class AttachmentReader implements Reader {/*** @param workbook* @param targetRow 目標行索引(例如第3行,索引從0開始)* @return*/@Override@SneakyThrowspublic List<FileListBean> read(Workbook workbook, int targetCol) {ApplicationHome home = new ApplicationHome();String rootPath = home.getDir().getAbsolutePath() + File.separator + "extract" + File.separator;List<FileListBean> result = new ArrayList<>();Map<String, AtomicInteger> counter = new HashMap<>();// 1. 獲取所有嵌入對象Sheet sheet = workbook.getSheetAt(0); // 第一個工作表// 1. 獲取所有嵌入對象XSSFSheet xssfSheet = (XSSFSheet) sheet;List<POIXMLDocumentPart> relationList = xssfSheet.getRelations();// 在遍歷嵌入對象時,檢查錨點位置for (POIXMLDocumentPart part : relationList) {if (part instanceof XSSFDrawing) {XSSFDrawing drawing = (XSSFDrawing) part;for (XSSFShape shape : drawing.getShapes()) {if (shape instanceof XSSFObjectData) {XSSFObjectData objData = (XSSFObjectData) shape;XSSFClientAnchor anchor = (XSSFClientAnchor) objData.getAnchor();// 檢查錨點是否在目標位置(例如第3行第2列,即B3)int targetRow = anchor.getRow1(); // 行索引從0開始if (anchor.getCol1() == targetCol) {AtomicInteger integer = counter.computeIfAbsent(targetRow + "_" + targetCol, k -> new AtomicInteger());// 提取并保存文件byte[] objectData = objData.getObjectData();@CleanupPOIFSFileSystem poifs = new POIFSFileSystem(new ByteArrayInputStream(objectData));String symbol = "\u0001Ole10Native";if (poifs.getRoot().getEntryNames().contains(symbol)) {InputStream contentStream = poifs.createDocumentInputStream(symbol);String dir = rootPath + "_" + System.currentTimeMillis();new File(dir).mkdirs();String name = "";byte[] byteArray = IOUtils.toByteArray(contentStream);Tika tika = new Tika();String detect = tika.detect(byteArray);System.err.println(detect);if ("application/pdf".equals(detect)) {name = dir + File.separator + "pdf_" + (targetRow + 1) + "_" + targetCol + "_" + integer.incrementAndGet() + ".pdf";} else if ("application/octet-stream".equals(detect)) {
//                                    name = dir + ".zip"; 注釋
//                                    @Cleanup
//                                    ZipArchiveInputStream seek = new ZipArchiveInputStream(new ByteArrayInputStream(byteArray));
//                                    try {
//                                        seek.getNextEntry();
//                                    } catch (Exception e) {
//                                        log.debug("解析zip失敗.嘗試解析成圖片");
//                                        name = dir + File.separator + "image_" + (targetRow + 1) + "_" + targetCol + "_" + integer.incrementAndGet() + ".jpg";
//                                    }}@CleanupFileOutputStream out = new FileOutputStream(name);out.write(byteArray);log.info("第{}行{}文件保存成功: {}", targetRow + 1, detect, name);if (name.endsWith(".zip")) {@CleanupZipArchiveInputStream zis = new ZipArchiveInputStream(new FileInputStream(name));ZipArchiveEntry entry;while ((entry = zis.getNextEntry()) != null) {if (entry.isDirectory()) {log.warn("是目錄");} else {// 如果是文件,則解壓文件File file = new File(dir, entry.getName());try (FileOutputStream out2 = new FileOutputStream(file)) {byte[] buffer2 = new byte[1024];int len;while ((len = zis.read(buffer2)) > 0) {out2.write(buffer2, 0, len);}}log.info("第{}提取{}已保存到: {}", targetRow + 1, entry.getName(), file.getAbsolutePath());}}}// 轉base64Arrays.stream(FileUtil.ls(dir)).forEach(item -> {// System.err.println(item.getName());extracted(result, targetRow, item);});}}}}}}return result;}private static void extracted(List<FileListBean> result, int targetRow, File item) {String path = item.getPath();String encodeToString = Base64.getEncoder().encodeToString(FileUtil.readBytes(path));String mimeType = FileUtil.getMimeType(path);// System.err.println(mimeType);if ("image/jpeg".equals(mimeType)) {encodeToString = "data:image/png;base64," + encodeToString;} else {// System.err.println(encodeToString);}result.add(new FileListBean().setFileName(item.getName()).setContent(encodeToString).setLine(targetRow));}
}

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/902184.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/902184.shtml
英文地址,請注明出處:http://en.pswp.cn/news/902184.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python爬蟲 線程,進程,協程

0x00 線程 線程是一個執行單位&#xff0c;是在一個進程里面的&#xff0c;是共享進程里面的提供的內存等資源&#xff0c;使用多個線程時和使用多個進程相比&#xff0c;多個線程使用的內存等資源較少。進程像一座“房子”&#xff08;獨立資源&#xff09;&#xff0c;線程是…

ES|QL,知道嗎,專為搜索而生 —— 推出評分和語義搜索

作者&#xff1a;來自 Elastic Ioana Tagirta 在 Elasticsearch 8.18 和 9.0 中&#xff0c;ES|QL 支持評分、語義搜索以及更多的 match 函數配置選項&#xff0c;還有一個新的 KQL 函數。 使用 ES|QL 搜索 在 Elasticsearch 8.18 和 9.0 中&#xff0c;ES|QL 增加了一系列新功…

MIT6.S081-lab4

MIT6.S081-lab4 注&#xff1a;本篇lab的前置知識在《MIT6.S081-lab3前置》 1. RISC-V assembly 第一個問題 Which registers contain arguments to functions? For example, which register holds 13 in main’s call to printf? 我們先來看看main干了什么&#xff1a; …

一文總結通信電路中LC諧振回路中各公式以及對深入解讀品質因數Q

目錄 前言 一、基本公式總結 1.并聯諧振回路 2.串聯諧振回路 二、淺談品質因數 1.衡量諧振回路能量存儲與能量損耗之比的無量綱參數&#xff0c;用于描述諧振電路的頻率選擇性 2.當受到振蕩驅動力時&#xff0c;諧振腔的中心頻率與其帶寬的比值 3.為什么諧振時電容上的…

Linux:文件系統

一.認識硬件–磁盤 1. 物理結構 1.2 存儲結構 ?如何定位?個扇區呢&#xff1f; 可以先定位磁頭&#xff08;header&#xff09;——》確定磁頭要訪問哪?個柱?(磁道)&#xff08;cylinder&#xff09;——》 定位?個扇區(sector)。 柱?&#xff08;cylinder&#xff09…

數字孿生廢氣處理工藝流程

圖撲數字孿生廢氣處理工藝流程系統。通過精準 3D 建模&#xff0c;對廢氣收集、預處理、凈化、排放等全流程進行 1:1 數字化復刻&#xff0c;實時呈現設備運行參數、污染物濃度變化等關鍵數據。 借助圖撲可視化界面&#xff0c;管理者可直觀掌握廢氣處理各環節狀態&#xff0c…

Scratch——第18課 列表接龍問題

在四級的考級中&#xff0c;接龍的題目雖然在CIE中只出現過兩次&#xff0c;但是這類題目對字符串的知識點考察相對全面。 一、接龍游戲的判斷方法 接龍的內容對應的字符數 ? 已接龍內容的字符數 滿足條件>接龍內容的第一個字符數 ? 上一項接龍的最后一個字符 滿足條件…

webgl入門實例-向量在圖形學中的核心作用

在圖形學中&#xff0c;向量是描述幾何、光照、運動等核心概念的基礎工具。以下是向量在圖形學中的關鍵應用和深入解析&#xff1a; 1. 向量的核心作用 幾何表示&#xff1a;描述點、方向、法線、切線等。空間變換&#xff1a;平移、旋轉、縮放等操作依賴向量運算。光照計算&a…

Redis 是如何保證線程安全的?

Redis 是如何保證線程安全的&#xff1f; Redis 是一個高性能的鍵值數據庫&#xff0c;廣泛應用于緩存、消息隊列、實時分析等場景。由于其性能優勢&#xff0c;Redis 已經成為許多系統的核心組件之一。然而&#xff0c;很多開發者在使用 Redis 時&#xff0c;常常會問&#x…

Img2img-turbo 在2080Ti上的測試筆記

1. 介紹 [img2img-turbo]是[pytorch-CycleGAN-and-pix2pix]推薦的更新的圖像變換的代碼實現&#xff1b; 2. 配置信息 Conda環境名稱&#xff1a;img2img-turbo 3. 問題描述 當前在我們嘗試使用了官方推薦的訓練命令在2080Ti上進行訓練&#xff0c; 3.1 出現了 CUDA out …

代碼隨想錄算法訓練營第三十五天|416. 分割等和子集、698.劃分為k個相等的子集、473.火柴拼正方形

今日題目 416. 分割等和子集 題目鏈接&#xff1a;416. 分割等和子集 - 力扣&#xff08;LeetCode&#xff09; 思考&#xff1a;本題要將數組分為兩個子數組&#xff0c;且兩個子數組和相等&#xff0c;因此首先可以想到的條件就是數組可分為兩個&#xff0c;這要求數組元素數…

純CSS實現自動滾動到底部

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>自動滾動到底部</title><style>*…

【新人系列】Golang 入門(十五):類型斷言

? 個人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4dd; 專欄地址&#xff1a;https://blog.csdn.net/newin2020/category_12898955.html &#x1f4e3; 專欄定位&#xff1a;為 0 基礎剛入門 Golang 的小伙伴提供詳細的講解&#xff0c;也歡迎大佬們…

AI大模型發展現狀與MCP協議誕生的技術演進

1. 大模型能力邊界與用戶痛點&#xff08;2023年&#xff09; 代表模型&#xff1a;GPT-4&#xff08;OpenAI&#xff09;、Claude 3&#xff08;Anthropic&#xff09;、通義千問&#xff08;阿里云&#xff09;等展現出強大的生成能力&#xff0c;但存在明顯局限&#xff1a…

深入理解Linux中的線程控制:多線程編程的實戰技巧

個人主頁&#xff1a;chian-ocean 文章專欄-Linux 前言&#xff1a; POSIX線程&#xff08;Pthreads&#xff09; 是一種在 POSIX 標準下定義的線程庫&#xff0c;它為多線程編程提供了統一的接口&#xff0c;主要用于 UNIX 和類 UNIX 系統&#xff08;如 Linux、MacOS 和 BS…

(mac)Grafana監控系統之監控Linux的Redis

Grafana安裝-CSDN博客 普羅米修斯Prometheus監控安裝&#xff08;mac&#xff09;-CSDN博客 1.Redis_exporter安裝 直接下載 wget https://github.com/oliver006/redis_exporter/releases/download/v1.0.3/redis_exporter-v1.0.3.linux-amd64.tar.gz 解壓 tar -xvf redis_…

鴻蒙應用元服務開發-Account Kit未成年人模式訂閱和處理用戶信息變更

一、概述 通過訂閱用戶信息變更&#xff0c;您可以接收有關用戶及其賬戶的重要更新。當用戶取消元服務的授權信息、注銷華為賬號時&#xff0c;華為賬號服務器會發送通知到元服務&#xff0c;元服務可以根據通知消息進行自身業務處理。 二、用戶信息變更事件介紹 三、訂閱用…

buildroot構建根文件系統報錯(已解決大部分問題)

title: buildroot構建根文件系統報錯(set FORCE_UNSAFE_CONFIGURE1) author: cbus categories: 小知識 tags:小知識 abbrlink: 53691 date: 2025-04-20 08:03:00 錯誤1 set FORCE_UNSAFE_CONFIGURE1 在使用buildroot構建根文件系統時&#xff0c;一切按照文檔的配置&#xff0…

7.QT-常用控件-QWidget|font|toolTip|focusPolicy|styleSheet(C++)

font API說明font()獲取當前widget的字體信息.返回QFont對象.setFont(const QFont& font)設置當前widget的字體信息. 屬性說明family字體家族.?如"楷體",“宋體”,"微軟雅?"等.pointSize字體??weight字體粗細.以數值?式表?粗細程度取值范圍為[…

通過面向目標的獎勵彌合人與機器人的靈活性差距

24年10月來自紐約大學的論文“Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards”。 直接通過人類視頻訓練機器人是機器人技術和計算機視覺領域的一個新興領域。盡管雙指機械手在雙指夾持器方面取得了顯著進展&#xff0c;但以這種方式讓多指機械手…