url轉pdf或者html轉pdf工具 — iText實現url轉pdf

url轉pdf或者html轉pdf工具 — iText實現url轉pdf

參考資料:

https://kb.itextpdf.com/itext/can-i-generate-a-pdf-from-a-url-instead-of-from-a-
http://www.micmiu.com/opensource/expdoc/itext-pdf-demo/
https://blog.51cto.com/u_16237557/7263784

iText:iText是一個非常著名的能夠快速產生PDF文件的Java類庫。支持文本,表格,圖形的操作,可以方便的跟 Servlet 進行結合。
一種生成PDF報表的Java組件。

iText的安裝非常方便,在 http://www.lowagie.com/iText/download.html - downoad 網站上下載iText.jar文件后,只需要在系統的CLASSPATH中加入iText.jar的路徑在程序中就可以使用iText類庫了。

  • 如果需要自己編譯iText包,需要用到第三方的jar:bcprov、bcmail 、bctsp.

  • 如果用到中文,需要CJK字體的擴展包:iTextAsian.jar

    默認的iText字體設置不支持中文字體,需要下載遠東字體包iTextAsian.jar,否則不能往PDF文檔中輸出中文字體。通過下面的代碼就可以在文檔中使用中文了:

    BaseFont bfChinese = BaseFont.createFont("STSong-Light","UniGB-UCS2-H", BaseFont.NOT EMBEDDED);
    com.lowagie.text.Font FontChinese = new com.lowagie.text.Font(bfChinese, 12, com.lowagie.text.Font.NORMAL):
    Paragraph pragraph=new Paragraph("你好",FontChinese);
    

    http://prdownloads.sourceforge.net/itext/iTextAsian.jar

  • 如果用到特殊符號的,需要另一個擴展包:itext-hyph-xml.jar.

  • 上述提到的所有lib包,都包含在它的發布版本里。

用iText生成PDF文檔需要5個步驟:

  1. 建立Document()實例

    Document document = new Document();
    

    document構建函數有三個:

    public Document();
    public Document(Rectangle pagesize);public Document(Rectangle pagesize.
    int marginLeft,
    int marginRight,
    int marginTop,
    int marginBottom);
    /*
    構建函數的參數pageSize是文檔頁面的大小,對于第一個構建函數,頁面的大小為A4,同Document(PageSize.A4)的效果一樣;對于第三個構建函數,參數marginLeft、marginRight、marginTop、marginBottom分別為左、右、上、下的頁邊距
    通過參數pageSize可以設定頁面大小、面背景色、以及頁面橫向/縱向等屬性。iText定義了A0-A10、AL、LETTER、HALFLETTER、 11X17、LEDGER、NOTE、BO-B5、ARCH A-ARCH E、FLSA和FLSE等紙張類型,也可以通過Rectangle pageSize = new Rectangle(144,720);自定義紙張。通過Rectangle方法rotate()可以將頁面設置成橫向。
    */
    
  2. 建立一個書寫器(Writer)與document對象關聯,通過書寫器(Writer)可以將文檔寫入到磁盤中。

    PDFWriter.getInstance(document, new FileOutputStream("Helloworld.PDF"));
    

    文檔(document)對象建立好之后,需要建立一個或多個書寫器(Writer)對象與之關聯。通過書寫器(Writer)對象可以將具體文檔存盤成需要的格式,如PDFWriter可以將文檔存成PDF文件,HtmlWriter可以將文檔存成html文件

  3. 打開文檔

    document.open();
    

    打開文檔后可以設定文檔的標題,作者,關鍵字,裝訂方法等…

  4. 向文檔中添加內容

    document.add(new Paragraph("Hello World"));
    

    向文檔添加的內容都是以對象為單位,如Phrase,Paragraph,Table等。

    文本處理:iText中用文本框(Chunk),短語(Phrase)和段落(paragraph)處理文本。

    Chunk是處理文本的最小單位

  5. 關閉文檔

    document.close();
    

通過上面5個步驟就能生成一個Helloworld.PDF,文件內容是“Hello World”

html轉pdf

  • 直接把HTML轉成單個PDF文件
  • 把HTML內容轉成PDF的元素Element,對應已有的PDF文檔,可以把轉換后的Element追加到document中,生成PDF文件
/*直接轉pdf*/
String htmlFile = "html的地址   .../xx.html";
String pdfFile = "輸出的pdf的地址   .../xxx.pdf";InputStream htmlFileStream = new FileInputStream(htmlFile);/*中文字體定義*/
//使用BaseFont類創建一個新的字體對象bfCN,這個字體是輕的宋體(STSongStd-Light),它是Unicode的GB2312版本(UniGB-UCS2-H)。
BaseFont bfCN = BaseFont.creatFont("STSongStd-Light", "UniGB-UCS2-H", false);//創建一個新的中文字體對象chFont,字體大小為14,樣式為正常,顏色為藍色。
Font chFont = new Font(bfCN, 12, Font.NORMAL, BaseColor.BLUE);//創建一個新的段落字體對象secFont,字體大小為12,樣式為正常,顏色為一種亮白色。
Font secFont = new Font(bfCN, 2, Font.NORMAL, new BaseColor(0, 204, 255));/*構建document實例*/
Document document = new Document();
/*建立書寫器wirter與document關聯*/
PdfWriter pdfwriter = PdfWriter.getInstance(document, new FileOutputStream(pdfFile));pdfwriter.setViewerPreferences(PdfWriter.HideToolbar);
/*打開文檔*/
document.open();
//文檔添加內容
//html文件
InputStreamReader isr = new InputStreamReader(htmlFileStream, "UTF-8");
//默認參數轉換
XMLWorkerHelper.getInstance().parseXHtml(pdfwriter, document, isr);
//關閉文檔
document.close();

URL轉PDF

  • 如果URL地址內容包含中文字符,需要XML Worker能支持中文字符轉換(詳見:http://www.micmiu.com/opensource/expdoc/itext-xml-worker-cn/)

  • Java 的HTML解析器,這里選擇 :jsoup (官網:http://jsoup.org/),如果是 maven 構建項目的,直接在pom文件中增加jsoup的依賴配置即可:

    <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.7.1</version><type>jar</type><scope>compile</scope>
    </dependency>
    
    - `info[0]`:第一個元素包含博客文章的標題。它從 HTML 元素 `<h2 class="title">` 中提取文本內容。- `info[1]`:第二個元素捕獲博客文章的類別。它查找帶有 `rel=category tag` 屬性的 `<a>` 元素,并提取 `href` 屬性,去除特定的 URL 前綴。- `info[2]`:這個元素包含博客文章的日期。它從具有類 `post-info-date` 的 HTML 元素中提取文本內容,使用字符串 "日期" 進行拆分,并保留其后的部分,修剪任何前導或尾隨空格。- `info[3]`:最后一個元素表示博客文章的內容。它從具有類 `entry` 的 `<div>` 元素中提取 HTML 內容,可能通過名為 `formatContentTag` 的函數進行格式化。
    /*** 根據URL提前blog的基本信息,返回結果>>:[主題 ,分類,日期,內容]等.** @param blogURL* @return* @throws Exception*/public static String[] extractBlogInfo(String blogURL) throws Exception {String[] info = new String[4];org.jsoup.nodes.Document doc = Jsoup.connect(blogURL).get();org.jsoup.nodes.Element e_title = doc.select("h2.title").first();info[0] = e_title.text();	
    org.jsoup.nodes.Element e_category = doc.select("a[rel=category tag]").first();info[1] = e_category.attr("href").replace("http://www.micmiu.com/", "");org.jsoup.nodes.Element e_date = doc.select("span.post-info-date").first();String dateStr = e_date.text().split("日期")[1].trim();info[2] = dateStr;org.jsoup.nodes.Element entry = doc.select("div.entry").first();info[3] = formatContentTag(entry);return info;
    }/*** 格式化 img標簽** @param entry* @return*/
    private static String formatContentTag(org.jsoup.nodes.Element entry) {try {entry.select("div").remove();// 把 <a href="*.jpg" ><img src="*.jpg"/></a> 替換為 <img// src="*.jpg"/>for (org.jsoup.nodes.Element imgEle : entry.select("a[href~=(?i)\\.(png|jpe?g)]")) {imgEle.replaceWith(imgEle.select("img").first());}return entry.html();} catch (Exception e) {return "";}
    }/*** 把String 轉為 InputStream** @param content* @return*/
    public static InputStream parse2Stream(String content) {try {ByteArrayInputStream stream = new ByteArrayInputStream(content.getBytes("utf-8"));return stream;} catch (Exception e) {return null;}
    }
    
    /*
    HTML文件轉換為PDF
    */
    String bolgURL = ",,,,";
    String pdfFile = "輸出的pdf路徑";/*中文字體定義*/
    //使用BaseFont類創建一個新的字體對象bfCN,這個字體是輕的宋體(STSongStd-Light),它是Unicode的GB2312版本(UniGB-UCS2-H)。
    BaseFont bfCN = BaseFont.creatFont("STSongStd-Light", "UniGB-UCS2-H", false);//創建一個新的中文字體對象chFont,字體大小為14,樣式為正常,顏色為藍色。
    Font chFont = new Font(bfCN, 12, Font.NORMAL, BaseColor.BLUE);//創建一個新的段落字體對象secFont,字體大小為12,樣式為正常,顏色為一種亮白色。
    Font secFont = new Font(bfCN, 2, Font.NORMAL, new BaseColor(0, 204, 255));//創建一個新的文本字體對象textFont,字體大小為12,樣式為正常,顏色為黑色。
    Font textFont = new Font(bfCN, 12, Font.NORMAL, BaseColor.BLACK);//創建一個新的PDF文檔對象。
    Document document = new Document();//將PDF文檔寫入指定的文件輸出流中。
    PdfWriter pdfwriter = PdfWriter.getInstance(document, new FileOutStream(pdfFile));//設置PDF文件的查看器偏好,隱藏工具欄。
    pdfwriter.setViewerPreferences(PdfWriter.HideToolbar);document.open();Sting[] blogInfo = extractBlogInfo(blogURL);//自定義的函數,提取信息//將HTML代碼解析為PDF文檔的一部分。
    XMLWorkerHelper.getInstance().parseXHtml(pdfwriter, document,parse2Stream(blogInfo[3]));document.close();
    

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/211924.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/211924.shtml
英文地址,請注明出處:http://en.pswp.cn/news/211924.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

sensitive-word 敏感詞/臟詞開源工具-v.0.10.0-臟詞分類標簽支持

sensitive-word sensitive-word 基于 DFA 算法實現的高性能敏感詞工具。 創作目的 實現一款好用敏感詞工具。 基于 DFA 算法實現&#xff0c;目前敏感詞庫內容收錄 6W&#xff08;源文件 18W&#xff0c;經過一次刪減&#xff09;。 后期將進行持續優化和補充敏感詞庫&…

幾種常用的壓力測試工具

1. JMeter 官網: Apache JMeter簡介: Apache JMeter 是一個開源軟件&#xff0c;主要用于性能測試和壓力測試。它可以用來測試靜態和動態資源&#xff0c;如文件、Web服務、REST API等。下載與使用: 訪問官網下載安裝包。解壓安裝包并運行 JMeter。通過創建測試計劃來設置壓力…

2023年終總結-輕舟已過萬重山

自我介紹 高考大省的讀書人 白&#xff0c;隴西布衣&#xff0c;流落楚、漢。-與韓荊州書 我來自孔孟故里山東濟寧&#xff0c;也許是小學時的某一天&#xff0c;我第一次接觸到了電腦&#xff0c;從此對它產生了強烈的興趣&#xff0c;高中我有一個愿望&#xff1a;成為一名計…

設計模式再探——裝飾模式

目錄 一、背景介紹二、思路&方案三、過程1.裝飾模式簡介2.裝飾模式的類圖3.裝飾模式代碼4.裝飾模式&#xff0c;職責父類拆分的奧義5.裝飾模式&#xff0c;部件抽象類的無中生有 四、總結五、升華 一、背景介紹 最近公司在做架構模型的時候&#xff0c;涉及到裝飾模式的研…

html網頁設計 01marquee標簽廣告滾動(1)

<!DOCTYPE html> <html><head><meta charset"utf-8"><title></title></head><body><!-- scrollamount:數字越大&#xff0c;滾動越快direction:滾動方向滾動的類型behaior"slide",文字滾動到邊界后就會…

Python中的lambda匿名函數詳解以及三種經典使用場景

lambda匿名函數 匿名函數&#xff0c;顧名思義就是不需要具體定義函數名的函數。我們首先拋開復雜的定義&#xff0c;看兩個具體例子。 先看一個無參數函數的例子。假設我們需要一個return 1的函數&#xff0c;如果使用普通的函數定義方式&#xff0c;其代碼為&#xff1a; …

vuepress-----20、全文搜索

默認主題自帶的搜索, 只會為頁面的標題、h2、h3 以及 tags構建搜索索引。所以盡量將圍繞知識點的關鍵字體現到標題上。而 tags 更為靈活&#xff0c;可以把相關的能想到的關鍵字都配置到 tags 中&#xff0c;以方便搜索。 默認插件介紹 (opens new window) 默認主體配置 (ope…

電子秤ADC芯片CS1237技術資料問題合集

問題11&#xff1a;實際應用中&#xff0c;多個稱重傳感器應該怎么與ADC連接&#xff1f; 解答&#xff1a;如果傳感器是測量同一物體&#xff08;例如&#xff1a;廚房垃圾處理器&#xff09;&#xff0c;一般建議使用并聯的方式。則相同類型的信號線連接在一起。對于傳感器的…

C語言指針基礎題(一)

目錄 例題一題目解析答案 例題二題目解析答案 例題三題目解析答案 例題四題目解析答案 例題五題目解析答案 例題六題目解析答案 例題七題目解析答案 感謝各位大佬對我的支持,如果我的文章對你有用,歡迎點擊以下鏈接 &#x1f412;&#x1f412;&#x1f412; 個人主頁 &#x…

C++ 教程 - 01 基礎篇

文章目錄 C介紹環境配置第一個cpp程序案例練習 變量常量關系運算符邏輯運算符條件運算符位運算符類型轉換分支循環程序調用綜合案例 C介紹 基于C語言&#xff0c;繼承了C的所有語法&#xff1b; 靜態類型語言&#xff0c;需要先編譯&#xff0c;再執行&#xff1b; 貼近底層硬…

雪花算法:分布式系統的關鍵藝術

導言 在探索分布式系統的奧秘時&#xff0c;我們經常遇到一個看似簡單卻極其關鍵的挑戰&#xff1a;如何高效、可靠地生成唯一的標識符&#xff08;ID&#xff09;。這不僅是技術的問題&#xff0c;更是一種藝術。讓我們深入探討雪花算法&#xff08;Snowflake Algorithm&…

windows下分卷解壓文件

我的文件是這樣的&#xff1a; 存放路徑為&#xff1a;C:\Users\Luli_study\MICCAI_MMAC\fudanuniversity\DDR dataset 首先要進入分卷文件的目錄cd&#xff1a; 第一步&#xff1a;cd /path/o/分卷問文件目錄 第二步&#xff1a; 執行之后的結果(紅色框出來的)&#xff1a; …

?functools --- 高階函數和可調用對象上的操作?

源代碼: Lib/functools.py functools 模塊應用于高階函數&#xff0c;即參數或&#xff08;和&#xff09;返回值為其他函數的函數。 通常來說&#xff0c;此模塊的功能適用于所有可調用對象。 functools 模塊定義了以下函數: functools.cache(user_function) 簡單輕量級未綁…

Vellum —— Fluid

目錄 Vellum fluids setups Fluid tips and troubleshooting Fluid phases Vellum fluids and soft bodies Vellum fluid vs FLIP fluid Vellum fluids setups Vellum fluid solver是基于粒子流體的解算框架&#xff0c;被完全集成到了Vellum動力學系統&#xff08;可與gr…

王道數據結構課后代碼題 p149 第3—— 7(c語言代碼實現)

目錄 3.編寫后序遍歷二叉樹的非遞歸算法 4.試給出二叉樹的自下而上、自右到左的層次遍歷算法 &#xff08;有圖解代碼詳解&#xff09;c語言代碼實現 5.假設二叉樹采用二叉鏈表存儲結構&#xff0c;設計一個非遞歸算法求二叉樹的高度。 ?編輯 6.設一棵二叉樹中各結點的值互不…

普冉(PUYA)單片機開發筆記(7): ADC-輪詢式多路采樣

概述 應用中經常會有使用單片機進行模數轉換的需求。PY32F003 具有 1 個 12 位的模擬數字轉換器&#xff08;ADC&#xff09;&#xff0c;今天我們一起來使用一下這個 ADC。 數據手冊中對 ADC 簡介如下。 SAR ADC&#xff1a;逐次逼近式 ADC&#xff0c;原理參見“參考鏈接&a…

1830_emacs lisp的交互式模式

org-mode的標記語法 Grey 全部學習匯總&#xff1a; GitHub - GreyZhang/g_org: my learning trip for org-mode 交互式模式 emacs的交互式模式讓我對emacs的生命力有了更進一步的認識&#xff0c;但是我并沒有找到什么特別豐富的資料做這方面的學習與分析。尤其是理論與實…

class070 子數組最大累加和問題與擴展-上【算法】

class070 子數組最大累加和問題與擴展-上【算法】 code1 53. 最大子數組和 // 累加和最大子數組和 // 給你一個整數數組 nums // 請你找出一個具有最大累加和的非空子數組 // 返回其最大累加和 // 測試鏈接 : https://leetcode.cn/problems/maximum-subarray/ dp[i]&#xff…

【Docker】Docker Compose,yml 配置指令參考的詳細講解

作者簡介&#xff1a; 辭七七&#xff0c;目前大二&#xff0c;正在學習C/C&#xff0c;Java&#xff0c;Python等 作者主頁&#xff1a; 七七的個人主頁 文章收錄專欄&#xff1a; 七七的閑談 歡迎大家點贊 &#x1f44d; 收藏 ? 加關注哦&#xff01;&#x1f496;&#x1f…

基于c++版數據結構基于數組棧改-Python思維總結

##棧部分-&#xff08;疊貓貓&#xff09; ##抽象數據類型棧的定義&#xff1a;是一種遵循先入后出的邏輯的線性數據結構。 換種方式去理解這種數據結構如果我們在一摞盤子中取到下面的盤子&#xff0c;我們首先要把最上面的盤子依次拿走&#xff0c;才可以繼續拿下面的盤子&…