lucene解決全文檢索word2003，word2007的辦法

在上一篇文章中，lucene只能全文檢索word2003，無法檢索2007，并且只能加載部分內容，無法加載全文內容。為解決此問題，找到了如下方法

POI 讀取word (word 2003 和 word 2007)

? ? 最近在給客戶做系統的時候，用戶提出需求，要能夠導入 word 文件，現在 microsoft word 有好幾個版本 97、2003、2007的，這三個版本存儲數據的格式上都有相當大的差別，而現在 97 基本上已經退出市場，幾乎沒有人用這個版本了，所以在我們的系統中只考慮 2003 版本和 2007 版本的，因為我們只要求能夠讀取 word 中的文字內容即可，其中的文字樣式、圖片等信息可以忽略，也不用直接操作 word 文件，所以我們選擇用 apache 的 POI 進行讀取。

??? 讀取 2003 版本(.doc)的word文件相對來說比較簡單，只需要 poi-3.5-beta6-20090622.jar 和 poi-scratchpad-3.5-beta6-20090622.jar 兩個 jar 包即可，而 2007 版本(.docx)就麻煩多，我說的這個麻煩不是我們寫代碼的時候麻煩，是要導入的 jar 包比較的多，有如下 7 個之多：
?1. openxml4j-bin-beta.jar
?2. poi-3.5-beta6-20090622.jar
?3. poi-ooxml-3.5-beta6-20090622.jar
?4 .dom4j-1.6.1.jar
?5. geronimo-stax-api_1.0_spec-1.0.jar
?6. ooxml-schemas-1.0.jar
?7. xmlbeans-2.3.0.jar
其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依賴的 jar 包（在 poi-bin-3.5-beta6-20090622.tar.gz 中的?ooxml-lib 目錄下可以找到）。

??? 編寫代碼之前我們得先下載所需要的 jar 包，我們只需下載?poi-bin-3.5-beta6-20090622.tar.gz?和?openxml4j-bin-beta.jar?即可，因為所需要的其他 jar 包都能在 poi-bin-3.5-beta6-20090622.tar.gz 中找到, 下面是下載地址：
poi-bin-3.5-beta6-20090622.tar.gz：http://apache.etoak.com/poi/dev/bin/poi-bin-3.5-beta6-20090622.tar.gz
openxml4j-bin-beta.jar：http://mirror.optus.net/sourceforge/o/op/openxml4j/openxml4j-bin-beta.jar
?
??? 下方是讀取 word 文件的 Java 代碼，值得注意的是： POI 在讀取 word 文件的時候不會讀取 word 文件中的圖片信息，還有就是對于 2007 版的 word(.docx), 如果 word 文件中有表格，所有表格中的數據都會在讀取出來的字符串的最后。

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;/*** POI 讀取 word 2003 和 word 2007 中文字內容的測試類<br />* @createDate 2009-07-25* @author Carl He*/
public class Test {public static void main(String[] args) {try {//word 2003： 圖片不會被讀取InputStream is = new FileInputStream(new File("c://files//2003.doc"));WordExtractor ex = new WordExtractor(is);String text2003 = ex.getText();System.out.println(text2003);//word 2007 圖片不會被讀取， 表格中的數據會被放在字符串的最后OPCPackage opcPackage = POIXMLDocument.openPackage("c://files//2007.docx");POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);String text2007 = extractor.getText();System.out.println(text2007);} catch (Exception e) {e.printStackTrace();}}
}

　找到方法后，我們對上一篇文章indexer.java的源碼進行更改，新增函數getDocument2007（），getDocument2003（）

? ?本版本lucene是4.9

    public static Document getDocument2007(File file) throws Exception {String docPath = file.getAbsolutePath();String title = file.getName();// 鍒涘緩DocumentDocument document = new Document();OPCPackage opcPackage = POIXMLDocument.openPackage(docPath);POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);String cont = extractor.getText();document.add(new StringField("filename", title, Field.Store.YES));//TOKENIZED//document.add(new Field("contents", contents));document.add(new TextField("contents", cont,Field.Store.YES));document.add(new TextField("path", docPath, Field.Store.YES));document.add(new StringField("indexDate",DateTools.dateToString(new Date(), DateTools.Resolution.DAY),Field.Store.YES));return document;}public static Document getDocument2003(File file) throws Exception {String docPath = file.getAbsolutePath();String title = file.getName();// 鍒涘緩DocumentDocument document = new Document();InputStream is = new FileInputStream(new File(docPath));WordExtractor ex = new WordExtractor(is);//is鏄疻ORD鏂囦歡鐨処nputStream String cont =  ex.getText();document.add(new StringField("filename", title, Field.Store.YES));//TOKENIZEDdocument.add(new TextField("contents", cont,Field.Store.YES));document.add(new TextField("path", docPath, Field.Store.YES));document.add(new StringField("indexDate",DateTools.dateToString(new Date(), DateTools.Resolution.DAY),Field.Store.YES));return document;}

　同時修改for循環中的讀取文件

?if(files[i].getName().endsWith(".doc")){
doc = getDocument2003(files[i]);
}else if(files[i].getName().endsWith(".docx")){
doc = getDocument2007(files[i]);
}

轉載于:https://www.cnblogs.com/zzlp/p/4757568.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/397630.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/397630.shtml
英文地址，請注明出處：http://en.pswp.cn/news/397630.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！