lucene解決全文檢索word2003,word2007的辦法

在上一篇文章中 ,lucene只能全文檢索word2003,無法檢索2007,并且只能加載部分內容,無法加載全文內容。為解決此問題,找到了如下方法

POI 讀取word (word 2003 和 word 2007)

? ? 最近在給客戶做系統的時候,用戶提出需求,要能夠導入 word 文件,現在 microsoft word 有好幾個版本 97、2003、2007的,這三個版本存儲數據的格式上都有相當大的差別,而現在 97 基本上已經退出市場,幾乎沒有人用這個版本了, 所以在我們的系統中只考慮 2003 版本和 2007 版本的,因為我們只要求能夠讀取 word 中的文字內容即可,其中的文字樣式、圖片等信息可以忽略,也不用直接操作 word 文件, 所以我們選擇 用 apache 的 POI 進行讀取。

?

??? 讀取 2003 版本(.doc)的word文件相對來說比較簡單,只需要 poi-3.5-beta6-20090622.jar 和 poi-scratchpad-3.5-beta6-20090622.jar 兩個 jar 包即可, 而 2007 版本(.docx)就麻煩多,我說的這個麻煩不是我們寫代碼的時候麻煩,是要導入的 jar 包比較的多,有如下 7 個之多:
?1. openxml4j-bin-beta.jar
?2. poi-3.5-beta6-20090622.jar
?3. poi-ooxml-3.5-beta6-20090622.jar
?4 .dom4j-1.6.1.jar
?5. geronimo-stax-api_1.0_spec-1.0.jar
?6. ooxml-schemas-1.0.jar
?7. xmlbeans-2.3.0.jar
其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依賴的 jar 包(在 poi-bin-3.5-beta6-20090622.tar.gz 中的?ooxml-lib 目錄下可以找到)。

?

??? 編寫代碼之前我們得先下載所需要的 jar 包, 我們只需下載?poi-bin-3.5-beta6-20090622.tar.gz?和?openxml4j-bin-beta.jar?即可,因為所需要的其他 jar 包都能在 poi-bin-3.5-beta6-20090622.tar.gz 中找到, 下面是下載地址:
poi-bin-3.5-beta6-20090622.tar.gz:http://apache.etoak.com/poi/dev/bin/poi-bin-3.5-beta6-20090622.tar.gz
openxml4j-bin-beta.jar:http://mirror.optus.net/sourceforge/o/op/openxml4j/openxml4j-bin-beta.jar
?
??? 下方是讀取 word 文件的 Java 代碼,值得注意的是: POI 在讀取 word 文件的時候不會讀取 word 文件中的圖片信息, 還有就是對于 2007 版的 word(.docx), 如果 word 文件中有表格,所有表格中的數據都會在讀取出來的字符串的最后。

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;/*** POI 讀取 word 2003 和 word 2007 中文字內容的測試類<br />* @createDate 2009-07-25* @author Carl He*/
public class Test {public static void main(String[] args) {try {//word 2003: 圖片不會被讀取InputStream is = new FileInputStream(new File("c://files//2003.doc"));WordExtractor ex = new WordExtractor(is);String text2003 = ex.getText();System.out.println(text2003);//word 2007 圖片不會被讀取, 表格中的數據會被放在字符串的最后OPCPackage opcPackage = POIXMLDocument.openPackage("c://files//2007.docx");POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);String text2007 = extractor.getText();System.out.println(text2007);} catch (Exception e) {e.printStackTrace();}}
}

 找到方法后,我們對上一篇文章indexer.java的源碼進行更改,新增函數getDocument2007(),getDocument2003()

? ?本版本lucene是4.9

    public static Document getDocument2007(File file) throws Exception {String docPath = file.getAbsolutePath();String title = file.getName();// 鍒涘緩DocumentDocument document = new Document();OPCPackage opcPackage = POIXMLDocument.openPackage(docPath);POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);String cont = extractor.getText();document.add(new StringField("filename", title, Field.Store.YES));//TOKENIZED//document.add(new Field("contents", contents));document.add(new TextField("contents", cont,Field.Store.YES));document.add(new TextField("path", docPath, Field.Store.YES));document.add(new StringField("indexDate",DateTools.dateToString(new Date(), DateTools.Resolution.DAY),Field.Store.YES));return document;}public static Document getDocument2003(File file) throws Exception {String docPath = file.getAbsolutePath();String title = file.getName();// 鍒涘緩DocumentDocument document = new Document();InputStream is = new FileInputStream(new File(docPath));WordExtractor ex = new WordExtractor(is);//is鏄疻ORD鏂囦歡鐨処nputStream String cont =  ex.getText();document.add(new StringField("filename", title, Field.Store.YES));//TOKENIZEDdocument.add(new TextField("contents", cont,Field.Store.YES));document.add(new TextField("path", docPath, Field.Store.YES));document.add(new StringField("indexDate",DateTools.dateToString(new Date(), DateTools.Resolution.DAY),Field.Store.YES));return document;}

  

 同時修改for循環中的讀取文件

?if(files[i].getName().endsWith(".doc")){
doc = getDocument2003(files[i]);
}else if(files[i].getName().endsWith(".docx")){
doc = getDocument2007(files[i]);
}

轉載于:https://www.cnblogs.com/zzlp/p/4757568.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/397630.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/397630.shtml
英文地址,請注明出處:http://en.pswp.cn/news/397630.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【JSP筆記】第三章 JSP內置對象【上】

2019獨角獸企業重金招聘Python工程師標準>>> 1.內置對象簡介&#xff1a;JSP內置對象是WEB容器創建的一組對象&#xff0c;不使用new關鍵就可以是用的對象。 <% out.println(123); %> 2.九大內置對象&#xff1a; outrequestresponsesessionapplication Page …

自定義標簽 —— 實現時間轉換和輸出功能

第一步&#xff1a;導入jar包 jsp-api-2.2-sources.jar <!-- https://mvnrepository.com/artifact/javax.servlet.jsp/jsp-api --> <dependency><groupId>javax.servlet.jsp</groupId><artifactId>jsp-api</artifactId><version>2.…

laravel5 centos6.4下的配置體驗

1. 安裝lmnp環境: nginx version: nginx/1.6.0、 php 5.5.7 、 centos6.42. laravel-v5.1.4 一鍵安裝包&#xff0c;在使用composer 安裝時出現server 500的錯誤&#xff0c;改用了一鍵安裝包注意&#xff1a;1. 防火墻的端口的&#xff0c; 2. laravel目錄的用戶權限&#xff…

java 并發編程多線程_多線程(一)java并發編程基礎知識

線程的應用如何應用多線程在 Java 中&#xff0c;有多種方式來實現多線程。繼承 Thread 類、實現 Runnable 接口、使用 ExecutorService、Callable、Future 實現帶返回結果的多線程。繼承 Thread 類創建線程Thread 類本質上是實現了 Runnable 接口的一個實例&#xff0c;代表一…

Docker監控方案(TIG)的研究與實踐之Influxdb

2019獨角獸企業重金招聘Python工程師標準>>> 前言&#xff1a; Influxdb也是有influxdata公司(www.influxdata.com )開發的用于數據存儲的時間序列數據庫.可用于數據的時間排列。在整個TIG(Telegrafinfluxdbgrafana)方案中&#xff0c;influxdb可算作一個中間件&…

iOS-生成隨機數

有時候我們需要在程序中生成隨機數&#xff0c;但是在Objective-c中并沒有提供相應的函數&#xff0c;好在C中提供了rand()、srand()、random()、arc4random()幾個函數。那么怎么使用呢&#xff1f;下面將簡單介紹&#xff1a; 1、 獲取一個隨機整數范圍在&#xff1a;[0,100)…

劍指offer 面試32題

面試32題&#xff1a; 題目&#xff1a;從上到下打印二叉樹 題&#xff1a;不分行從上到下打印二叉樹 解題代碼&#xff1a; # -*- coding:utf-8 -*- # class TreeNode: # def __init__(self, x): # self.val x # self.left None # self.right …

crc算法java_c語言的crc16算法轉java

一、c語言uint16_t crc_chk(uint8_t *data, uint8_t len){uint8_t i;uint16_t reg_crc 0xffff;while(len--) {reg_crc ^ *data;for(i 0; i < 8; i) {if(reg_crc & 0x01) {reg_crc (reg_crc >> 1) ^ 0xA001;} else {reg_crc reg_crc >> 1;}}}return reg_…

Java第三階段學習(三、字符流、轉換流)

一、字節流讀取中文時出現的問題&#xff1a; 文件中有中文時&#xff0c;用字節流讀取會出現亂碼的問題&#xff0c;因為一個中文為兩個字節。 二、字符編碼表 編碼表&#xff1a;其實就是生活中字符和計算機二進制的對應關系表。 1、ascii&#xff1a; 一個字節中的7位就可以…

windows下OpenSSL加密證書安裝步驟與使用方法

OpenSSL加密證書一般用于簽名認證&#xff0c;含私鑰和公鑰。在Linux系統中&#xff0c;OpenSSL一般是已經安裝好了&#xff0c;可以直接使用。而在Windows系統中&#xff0c;是需要安裝使用的。 最近在使用支付平臺時&#xff0c;用到了OpenSSL&#xff0c;鑒于此分享給大家&a…

linux運維(五)

頭有點大&#xff0c;也浪費了一些時間。明天過后緩沖一下1、存儲過程與觸發器的區別&#xff1f;答&#xff1a;&#xff08;1&#xff09;觸發器主要是通過事件執行觸發而被執行的&#xff0c;而存儲過程可以通過存儲過程名稱而直接調用。&#xff08;call/execute&#xff0…

django web 自定義通用權限控制

需求&#xff1a;web系統有包含以下5個url&#xff0c;分別對于不同資源&#xff1b; 1、stu/add_stu/ 2、stu/upload_homework/ 3、stu/query_homework/ 4、stu/add_record/ ----------------------------------------------------------------------------------------------…

java源碼影視源碼搭建教程_新版千月影視app源碼+搭建教程

使用notepad批量替換URL【http://】為你的域名(被替換的域名訪問有成品不能發布 需要修改的到前臺confing里面查詢)&#xff0c;替換名稱【鯨鷹影視】為你的應用名稱&#xff1b;服務端&#xff1a;1.將替換好的后端源碼打包上傳至站點根目錄后解壓&#xff1b;2.配置網站偽靜態…

git學習相關的博客地址

Git分支管理策略&#xff1a; http://www.ruanyifeng.com/blog/2012/07/git.html Git 使用規范流程&#xff1a; http://www.ruanyifeng.com/blog/2015/08/git-use-process.html 基于git的源代碼管理模型——git flow&#xff1a; http://www.ituring.com.cn/article/56870 Git…

Django框架基礎學習

Django安裝python下載地址 http://www.python.org/download/releases/3.3.4/Django的下載地址&#xff1a;https://www.djangoproject.com/download/1&#xff09;安裝&#xff08;進到解壓目錄&#xff09;python setup.py install2、配置環境變量&#xff08;PATH&#xff09…

Uboot USB模式(RK3288變磚頭的解決辦法)

RK3288啟動后有三種模式&#xff0c;可以分別進行操作。 第一種是normal也就是正常的啟動模式。這個模式無法刷固件。一般板子通電就是這個模式 第二種是loader模式。就是刷固件模式。這個模式可以刷各種image。按住recover按鍵再通電&#xff0c;通過uboot的檢測進入這個模式 …

java郵件實例_java郵件小實例

新建一個包&#xff0c;名為mail第一個類&#xff1a;MailSenderInfo.java###########################################package com.util.mail;/*** 發送郵件需要使用的基本信息*author by wangfunhttp://www.5a520.cn 小說520*/import java.util.Properties;public class Mai…

DEV GridView嵌套

/// <summary> /// 綁定主表和明顯表到GridView /// </summary> /// <param name"machineProduct">主表</param> /// <param name"configureData">字表</param> private void Mas…

局域網大型文件分發的可能解決方案

客戶原來的做法是把文件上傳到服務器&#xff0c;然后后形成一個普通的HTTP地址下入網站后臺系統&#xff0c;然后客戶端用戶看到后&#xff0c;則下載下來。但是隨著文件越來越大&#xff0c;客戶端下載量增加&#xff0c;在局域內網環境中這種文件分發方式的弊端立現。服務器…

android——獲取ImageView上面顯示的圖片bitmap對象

獲取的函數方法為&#xff1a;Bitmap bitmapimageView.getDrawingCache(); 但是如果只是這樣寫我們得到的bitmap對象可能為null值&#xff0c;正確的方式為&#xff1a; imageView.setDrawingCacheEnabled(true);Bitmap bitmapimageView.getDrawingCache();imageView.setDrawin…