html表格轉換為markdown

文章目錄

        • 工具功能亮點
        • 1.核心實現解析
          • 1. 剪貼板交互
          • 2. HTML檢測與提取
          • 3. 轉換規則設計
        • 2. 完整代碼

在日常工作中,我們經常遇到需要將網頁表格快速轉換為Markdown格式的場景。無論是文檔編寫、知識整理還是數據遷移,手動轉換既耗時又容易出錯。本文將介紹一個基于Go語言開發的輕量級工具,它能自動從剪貼板提取HTML表格并轉換為Markdown格式。


工具功能亮點
  1. 一鍵轉換:直接讀取剪貼板中的HTML內容
  2. 智能識別:自動檢測并提取首個HTML表格
  3. 格式優化:保留表格結構并添加Markdown語法
  4. 無縫銜接:結果自動寫回剪貼板

1.核心實現解析
1. 剪貼板交互
// 讀取剪貼板內容
content, err := clipboard.ReadAll()// 將結果寫回剪貼板
err = clipboard.WriteAll(markdown)

使用atotto/clipboard庫實現跨平臺剪貼板操作,無需文件中間步驟。

2. HTML檢測與提取
func isHTML(s string) bool {return strings.Contains(s, "<table") || strings.Contains(s, "<tr")
}func extractFirstTable(html string) string {start := strings.Index(html, "<table")end := strings.Index(html[start:], "</table>")return html[start:start+end+8] // 截取完整table標簽
}

通過簡單高效的字符串掃描定位表格位置,避免復雜解析。

3. 轉換規則設計
converter.AddRules(md.Rule{Filter: []string{"table", "tr", "td", "th"},Replacement: func(content string, selec *goquery.Selection) *string {if selec.Is("tr") {return md.String("|" + content + "|\n")}if selec.Is("td") {return md.String(strings.TrimSpace(content) + "|")}// 其他元素處理...}
})

關鍵轉換邏輯:

  • tr 轉換為行:|內容|
  • td/th 轉換為單元格:內容|
  • 自動添加表頭分隔線:|---|---|

2. 完整代碼
package mainimport ("fmt""log""os""strings"md "github.com/JohannesKaufmann/html-to-markdown""github.com/PuerkitoBio/goquery""github.com/atotto/clipboard"
)func main() {// 讀取剪貼板內容content, err := clipboard.ReadAll()if err != nil {log.Fatal("讀取剪貼板失敗:", err)}// 檢查是否為HTML內容if !isHTML(content) {fmt.Println("剪貼板內容不是HTML格式")os.Exit(0)}// 提取第一個表格tableHTML, err := extractFirstTable(content)if err != nil {log.Fatal("提取表格失敗:", err)}if tableHTML == "" {fmt.Println("未找到HTML表格")os.Exit(0)}// 轉換為Markdownconverter := md.NewConverter("", true, nil)// 添加表格轉換規則converter.AddRules(md.Rule{Filter: []string{"table", "tr", "td", "th"},Replacement: func(content string, selec *goquery.Selection, opt *md.Options) *string {if selec.Is("table") {// 添加表頭分隔線rows := strings.Split(strings.TrimSpace(content), "\n")if len(rows) > 1 {header := rows[0]cols := strings.Count(header, "|") - 1separator := "|" + strings.Repeat("---|", cols)// 合并所有行,確保每行數據單獨顯示content = strings.Join(append([]string{header, separator}, rows[1:]...), "\n") + "\n"}return &content}if selec.Is("tr") {content = "|" + strings.TrimRight(content, "|") + "|\n"return &content}if selec.Is("th") || selec.Is("td") {content = strings.ReplaceAll(content, "\n", "<br>")content = strings.TrimSpace(content) + "|"return &content}return nil},},)markdown, err := converter.ConvertString(tableHTML)if err != nil {log.Fatal("轉換Markdown失敗:", err)}// 輸出結果到控制臺fmt.Println("轉換后的Markdown表格:")fmt.Println(markdown)// 將結果寫入剪貼板err = clipboard.WriteAll(markdown)if err != nil {log.Fatal("寫入剪貼板失敗:", err)}fmt.Println("已成功將Markdown表格寫入剪貼板")
}// isHTML 檢查字符串是否是HTML格式
func isHTML(s string) bool {return strings.Contains(strings.ToLower(s), "<html") ||strings.Contains(strings.ToLower(s), "<table") ||strings.Contains(strings.ToLower(s), "<tr") ||strings.Contains(strings.ToLower(s), "<td")
}// extractFirstTable 從HTML中提取第一個表格
func extractFirstTable(html string) (string, error) {// 簡單的提取邏輯,實際應用中可能需要更復雜的HTML解析start := strings.Index(strings.ToLower(html), "<table")if start == -1 {return "", nil}end := strings.Index(strings.ToLower(html[start:]), "</table>")if end == -1 {return "", nil}return html[start : start+end+8], nil // +8 是 </table> 的長度
}

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908355.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908355.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908355.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

IDEA 中 Undo Commit,Revert Commit,Drop Commit區別

一、Undo Commit 適用情況&#xff1a;代碼修改完了&#xff0c;已經Commit了&#xff0c;但是還未push&#xff0c;然后發現還有地方需要修改&#xff0c;但是又不想增加一個新的Commit記錄。這時可以進行Undo Commit&#xff0c;修改后再重新Commit。如果已經進行了Push&…

【Linux】Linux 進程間通訊-管道

參考博客&#xff1a;https://blog.csdn.net/sjsjnsjnn/article/details/125864580 一、進程間通訊介紹 1.1 進程間通訊的概念 進程通信&#xff08;Interprocess communication&#xff09;&#xff0c;簡稱&#xff1a;IPC 本來進程之間是相互獨立的。但是由于不同的進程…

深度剖析 DeepSeek 開源模型部署與應用:策略、權衡與未來走向

在人工智能技術呈指數級發展的當下&#xff0c;大模型已然成為推動各行業變革的核心驅動力。DeepSeek 開源模型以其卓越的性能和靈活的開源特性&#xff0c;吸引了眾多企業與開發者的目光。如何高效且合理地部署與運用 DeepSeek 模型&#xff0c;成為釋放其巨大潛力的關鍵所在&…

第34次CCF-CSP認證真題解析(目標300分做法)

第34次CCF-CSP認證 矩陣重塑&#xff08;其一&#xff09;AC代碼及解析矩陣重塑&#xff08;其二&#xff09;AC代碼及解析貨物調度AC代碼及解析 矩陣重塑&#xff08;其一&#xff09; 輸入輸出及樣例&#xff1a; AC代碼及解析 1.線性化原矩陣 &#xff1a;由于cin的特性我們…

智能制造數字孿生全要素交付一張網:智造中樞,孿生領航,共建智造生態共同體

在制造業轉型升級的浪潮中&#xff0c;數字孿生技術正成為推動行業變革的核心引擎。從特斯拉通過數字孿生體實現車輛全生命周期優化&#xff0c;到海爾卡奧斯工業互聯網平臺賦能千行百業&#xff0c;數字孿生技術已從概念驗證走向規模化落地。通過構建覆蓋全國的交付網絡&#…

【技術】跨設備鏈路聚合的技術——M-LAG

原創&#xff1a;廈門微思網絡 M-LAG&#xff08;Multichassis Link Aggregation Group&#xff09;提供一種跨設備鏈路聚合的技術。M-LAG通過將兩臺接入交換機以同一個狀態和用戶側設備或服務器進行跨設備的鏈路聚合&#xff0c;把鏈路的可靠性從單板級提升到設備級。同時&…

AI健康小屋+微高壓氧艙:科技如何重構我們的健康防線?

目前&#xff0c;隨著科技和社會的不斷發展&#xff0c;人們的生活水平和方式有了翻天覆地的變化。 從吃飽穿暖到吃好喝好再到健康生活&#xff0c;觀念也在逐漸發生改變。 尤其是在21世紀&#xff0c;大家對健康越來越重視&#xff0c;這就不得不提AI健康小屋和氧艙。 一、A…

Python訓練營---Day44

DAY 44 預訓練模型 知識點回顧&#xff1a; 預訓練的概念常見的分類預訓練模型圖像預訓練模型的發展史預訓練的策略預訓練代碼實戰&#xff1a;resnet18 作業&#xff1a; 嘗試在cifar10對比如下其他的預訓練模型&#xff0c;觀察差異&#xff0c;盡可能和他人選擇的不同嘗試通…

1.文件操作相關的庫

一、filesystem(C17) 和 fstream 1.std::filesystem::path - cppreference.cn - C參考手冊 std::filesystem::path 表示路徑 構造函數&#xff1a; path( string_type&& source, format fmt auto_format ); 可以用string進行構造&#xff0c;也可以用string進行隱式類…

【 java 集合知識 第二篇 】

目錄 1.Map集合 1.1.快速遍歷Map 1.2.HashMap實現原理 1.3.HashMap的擴容機制 1.4.HashMap在多線程下的問題 1.5.解決哈希沖突的方法 1.6.HashMap的put過程 1.7.HashMap的key使用什么類型 1.8.HashMapkey可以為null的原因 1.9.HashMap為什么不采用平衡二叉樹 1.10.Hash…

【Dify 知識庫 API】“根據文本更新文檔” 真的是差異更新嗎?一文講透真實機制!

在使用 Dify 知識庫 API 過程中,很多開發者在調用 /datasets/{dataset_id}/document/update-by-text 接口時,常常會產生一個疑問: ?? 這個接口到底是 “智能差異更新” 還是 “純覆蓋更新”? 網上的資料并不多,很多人根據接口名誤以為是增量更新。今天我結合官方源碼 …

大模型如何革新用戶價值、內容匹配與ROI預估

寫在前面 在數字營銷的戰場上,理解用戶、精準觸達、高效轉化是永恒的追求。傳統方法依賴結構化數據和機器學習模型,在用戶價值評估、人群素材匹配以及策略ROI預估等核心問題上取得了顯著成就。然而,隨著數據維度日益復雜,用戶行為愈發多變,傳統方法也面臨著特征工程繁瑣、…

基于端到端深度學習模型的語音控制人機交互系統

基于端到端深度學習模型的語音控制人機交互系統 摘要 本文設計并實現了一個基于端到端深度學習模型的人機交互系統,通過語音指令控制其他設備的程序運行,并將程序運行結果通過語音合成方式反饋給用戶。系統采用Python語言開發,使用PyTorch框架實現端到端的語音識別(ASR)…

【2025年】解決Burpsuite抓不到https包的問題

環境&#xff1a;windows11 burpsuite:2025.5 在抓取https網站時&#xff0c;burpsuite抓取不到https數據包&#xff0c;只顯示&#xff1a; 解決該問題只需如下三個步驟&#xff1a; 1、瀏覽器中訪問 http://burp 2、下載 CA certificate 證書 3、在設置--隱私與安全--…

Jenkins 工作流程

1. 觸發構建 Jenkins 的工作流程從觸發構建開始。構建可以由以下幾種方式觸發&#xff1a; 代碼提交觸發&#xff1a;通過與版本控制系統&#xff08;如 Git、SVN&#xff09;集成&#xff0c;當代碼倉庫有新的提交時&#xff0c;Jenkins 會自動觸發構建。 定時觸發&#xff…

Jmeter如何進行多服務器遠程測試?

&#x1f345; 點擊文末小卡片 &#xff0c;免費獲取軟件測試全套資料&#xff0c;資料在手&#xff0c;漲薪更快 JMeter是Apache軟件基金會的開源項目&#xff0c;主要來做功能和性能測試&#xff0c;用Java編寫。 我們一般都會用JMeter在本地進行測試&#xff0c;但是受到…

Kafka入門-生產者

生產者 生產者發送流程&#xff1a; 延遲時間為0ms時&#xff0c;也就意味著每當有數據就會直接發送 異步發送API 異步發送和同步發送的不同在于&#xff1a;異步發送不需要等待結果&#xff0c;同步發送必須等待結果才能進行下一步發送。 普通異步發送 首先導入所需的k…

分類預測 | Matlab實現CNN-LSTM-Attention高光譜數據分類

分類預測 | Matlab實現CNN-LSTM-Attention高光譜數據分類 目錄 分類預測 | Matlab實現CNN-LSTM-Attention高光譜數據分類分類效果功能概述程序設計參考資料 分類效果 功能概述 代碼功能 該MATLAB代碼實現了一個結合CNN、LSTM和注意力機制的高光譜數據分類模型&#xff0c;核心…

gemini和chatgpt數據對比:誰在卷性能、價格和場景?

先把結論“劇透”給趕時間的朋友&#xff1a;頂配 Gemini Ultra/2.5 Pro 在紙面成績上普遍領先&#xff0c;而 ChatGPT 家族&#xff08;GPT-4o / o3 / 4.1&#xff09;則在延遲、生態和穩定性上占優。下面把核心數據拆開講&#xff0c;方便你對號入座。附帶參考來源&#xff0…

代碼訓練LeetCode(23)隨機訪問元素

代碼訓練(23)LeetCode之隨機訪問元素 Author: Once Day Date: 2025年6月5日 漫漫長路&#xff0c;才剛剛開始… 全系列文章可參考專欄: 十年代碼訓練_Once-Day的博客-CSDN博客 參考文章: 380. O(1) 時間插入、刪除和獲取隨機元素 - 力扣&#xff08;LeetCode&#xff09;力…