主要是想試一下視覺模型的效果
用到的是glm4.5v和qwen3-30b
大體流程:
輸入:發票圖片或者發票PDF
條件分支:二者存在其一,就去對應的大模型
圖片分支:走glm4.5視覺模型,提取信息,傳給結果
PDF分支:先通過文檔提取器,然后傳給語言大模型,提取信息,傳給結果
結果:展示
結果:
{
"發票號碼": "24412000000050936591",
"開票日期": "2024年04月07日",
"購買方信息": {
"名稱": "虞城縣際逗商貿行",
"統一社會信用代碼": "92411425MA44JBBE68"
},
"銷售方信息": {
"名稱": "貝棒棒文化體育傳播中心(有限合伙)",
"統一社會信用代碼": "91310113MAC6W62WXY"
},
"項目": [{
"名稱": "日用雜品際逗出口品質濃縮型無磷食品級洗滌洗潔精",
"規格型號": "300ml袋裝",
"單位": "袋",
"數量": 10,
"單價": 5.0475247524753,
"金額": 50.48,
"稅率/征收率": "1%",
"稅額": 0.50
}],
"合計": {
"金額":