ollama導入huggingface下載的大模型并量化

1. 導入GGUF 類型的模型

1.1 先在huggingface 下載需要ollama部署的大模型

在這里插入圖片描述

1.2 編寫modelfile

在ollama 里面輸入

ollama show --modelfile <你有的模型名稱>
eg:
ollama show --modelfile qwen2.5:latest

修改其中的from 路徑為自己的模型下載路徑

FROM /Users/lzx/AI/llm/lmstudio-community/Llama-3-Groq-8B-Tool-Use-GGUF
TEMPLATE """{{- if .Messages }}
{{- if or .System .Tools }}<|im_start|>system
{{- if .System }}
{{ .System }}
{{- end }}
{{- if .Tools }}# ToolsYou may call one or more functions to assist with the user query.You are provided with function signatures within <tools></tools> XML tags:
<tools>
{{- range .Tools }}
{"type": "function", "function": {{ .Function }}}
{{- end }}
</tools>For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:
<tool_call>
{"name": <function-name>, "arguments": <args-json-object>}
</tool_call>
{{- end }}<|im_end|>
{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 -}}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{ else if eq .Role "assistant" }}<|im_start|>assistant
{{ if .Content }}{{ .Content }}
{{- else if .ToolCalls }}<tool_call>
{{ range .ToolCalls }}{"name": "{{ .Function.Name }}", "arguments": {{ .Function.Arguments }}}
{{ end }}</tool_call>
{{- end }}{{ if not $last }}<|im_end|>
{{ end }}
{{- else if eq .Role "tool" }}<|im_start|>user
<tool_response>
{{ .Content }}
</tool_response><|im_end|>
{{ end }}
{{- if and (ne .Role "assistant") $last }}<|im_start|>assistant
{{ end }}
{{- end }}
{{- else }}
{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ end }}{{ .Response }}{{ if .Response }}<|im_end|>{{ end }}"""
SYSTEM You are watt-tool-8B, a helpful assistant with tool calling capabilities.
ollama create Llama-3-Groq-8B-Tool -f config.modelfile

執行創建就完成了

2.導入 safetensors 模型導入Ollama

2.1 先在huggingface 下載需要ollama部署的大模型

在這里插入圖片描述

這里以llama-3為例子,下載所有的文件,或者使用git 拉代碼庫,需要git lfs
2.2 安裝llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
pip install -r requirements.txt
2.3 格式轉換

在llama.cpp的安裝目錄下,執行

python convert_hf_to_gguf.py "<你下載的模型路徑>" --outtype f16 --verbose --outfile "<你要輸出的文件位置>"
2.4 然后他就轉換為GGUF格式了,就按GGUF格式的來就好啦

3.ollama量化

我發現ollama pull下來的模型大小比直接從huggingface下載下來的SAFE類型小很多,于是去ollama看了下大模型量化
https://github.com/ollama/ollama/blob/b51e0f397ced70bbfa7f22e9b3c94953967cb8e5/ml/backend/ggml/ggml/src/ggml-quants.h#L17
這個里面是一些常見的量化支持,這里我們選擇的是q4_K_M
執行創建命令的時候帶上
ollama create --quantize q4_K_M <你要在ollama中顯示的模型名稱> -f Modelfile

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/75381.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/75381.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/75381.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++基礎系列【35】巧用assert

博主介紹&#xff1a;程序喵大人 35- 資深C/C/Rust/Android/iOS客戶端開發10年大廠工作經驗嵌入式/人工智能/自動駕駛/音視頻/游戲開發入門級選手《C20高級編程》《C23高級編程》等多本書籍著譯者更多原創精品文章&#xff0c;首發gzh&#xff0c;見文末&#x1f447;&#x1f…

【EI檢索】2025年城市設計與規劃國際會議 (CoUDP 2025)

重要信息 會議網址&#xff1a;www.coudp.org 會議時間&#xff1a;2025年9月19-21日 召開地點&#xff1a;中國北京 截稿時間&#xff1a;2025年8月19日 錄用通知&#xff1a;投稿后2周內 收錄檢索&#xff1a;Ei Compendex, SCOPUS 會議簡介 2025年城市設計與規劃…

《實戰AI智能體》MCP對Agent有哪些好處

首先MCP為Agent提供了標準化的方式來接入各種工具和數據源,無論是本地運行的工具,例如通過stdio服務器,還是遠程托管的服務HTTP over SSE服務, Agent都可以通過統一的接口與它們進行交互,極大擴展了第三方工具庫。 例如,在金融領域,Agent 可以接入股票分析的MCP工具。當…

知識圖譜在官網中的本質與部署邏輯

知識圖譜在官網中的本質與部署邏輯 ?1. 知識圖譜不是獨立頁面&#xff0c;而是智能化基礎設施 知識圖譜的最終形態并非一個可見的“圖譜頁面”&#xff0c;而是滲透在官網各交互模塊的AI能力引擎&#xff0c;其核心作用在于&#xff1a; ?后臺&#xff1a;構建實體關系網絡…

藍橋杯沖刺

例題1&#xff1a;握手問題 方法1&#xff1a;數學推理(簡單粗暴&#xff09; 方法2&#xff1a;用代碼實現方法1 #include<iostream> using namespace std; int main() {int result 0;for (int i 1; i < 49; i){for (int j i 1; j < 50; j){//第i個人與第j個…

如何在服務器里備份文件或系統

當我們在企業里&#xff0c;備份文件或者系統是需要經常做的&#xff0c;當我們服務器系統崩潰了或者損壞了&#xff0c;或者我們的存放的工作需求的文件夾損壞丟失&#xff0c;這時候如何我們提前備份了就可以快速回復。 那接下來我們直接上實操&#xff0c;接下來操作是在虛…

Qt實現點擊按鈕彈出側邊框(可用于登錄界面)

Qt實現點擊按鈕彈出側邊框 1、創建界面2、封面按鈕實現2.1 連接信號與槽2.2固定封面按鈕、側邊框及各個標簽位置和頂層顯示封面按鈕2.3創建側邊框狀態并在初始化列表中初始化2.4 側邊框動畫效果實現 3、視頻演示效果4、總結 1、創建界面 封面按鈕樣式表 QPushButton { border…

SQL WHERE 與 HAVING

WHERE 和 HAVING 都是 SQL 中用于篩選數據的子句&#xff0c;但它們有重要的區別 WHERE 子句 在 分組前 過濾數據 作用于 原始數據行 不能使用聚合函數 執行效率通常比 HAVING 高 SELECT column1, column2 FROM table WHERE condition; HAVING 子句 在 分組后 過濾數據 …

表格數據導出為Excel

環境及插件配置&#xff1a;&#xff08;理論上vue2應該也可以使用&#xff0c;沒有試驗過&#xff09; "vue": "^3.2.36", "webpack": "^5.94.0", "webpack-cli": "^5.1.4", "file-saver": "^2.…

Photoshop 2025 Mac中文 Ps圖像編輯軟件

Photoshop 2025 Mac中文 Ps圖像編輯軟件 文章目錄 Photoshop 2025 Mac中文 Ps圖像編輯軟件一、介紹二、效果三、下載 一、介紹 Adobe Photoshop 2025 Mac版集成了多種強大的圖像編輯、處理和創作功能。①強化了Adobe Sensei AI的應用&#xff0c;通過智能摳圖、自動修復、圖像…

rust Send Sync 以及對象安全和對象不安全

開頭&#xff1a;菜鳥小明的疑惑 小明&#xff1a; “李哥&#xff0c;我最近學 Rust&#xff0c;感覺它超級嚴謹&#xff0c;啥 Send、Sync、對象安全、靜態分發、動態分發的&#xff0c;我都搞暈了&#xff01;為啥 Rust 要設計得這么復雜啊&#xff1f;” 小李&#xff0…

JAVA:利用 JSONPath 操作JSON數據的技術指南

1、簡述 JSONPath 是一種強大的工具&#xff0c;用于查詢和操作 JSON 數據。類似于 SQL 的語法&#xff0c;它為處理復雜的 JSON 數據結構提供了簡單且高效的解決方案。? 代碼樣例&#xff1a;https://gitee.com/lhdxhl/springboot-example.git 本文將介紹 JSONPath 的基本…

服務器磁盤卷組緩存cache設置介紹

工具1&#xff1a; storcli a. 確認軟件包是否安裝 [rootlocalhost ~]#rpm -qa | grep storcli storcli-1.21.06-1.noarch 備注&#xff1a;若檢索結果為空&#xff0c;需要安裝對應的軟件安裝包。安裝命令如下&#xff1a; #rpm -ivh storcli-xx-xx-1.noarch.rpm b. 查看邏輯…

java項目分享-分布式電商項目附軟件鏈接

今天來分享一下github上最熱門的開源電商項目安裝部署&#xff0c;star 12.2k&#xff0c;自行安裝部署歷時兩天&#xff0c;看了這篇文章快的話半天搞定&#xff01;該踩的坑都踩完了&#xff0c;軟件也打包好了就差喂嘴里。 項目簡介 mall-swarm是一套微服務商城系統&#xf…

QtWebApp使用

QtWebApp 是一個輕量級的 HTTP 服務器庫,基于 Qt 網絡模塊(QTcpServer 和 QTcpSocket)實現,適用于嵌入式設備、本地服務或需要快速搭建 Web 接口的 Qt 應用程序。 1. 核心功能 HTTP/1.1 服務器 支持 GET、POST、PUT、DELETE 等標準 HTTP 方法。 解析請求頭、查詢參數(Qu…

用Rust和WebAssembly打造輕量級前端加密工具

開頭聊兩句 最近在折騰前端項目時&#xff0c;發現一個問題&#xff1a;很多時候需要在瀏覽器里做點加密作&#xff0c;比如保護用戶輸入的數據&#xff0c;但JavaScript跑起來總感覺慢吞吞的。于是我開始琢磨&#xff0c;能不能用Rust寫個高性能的加密模塊&#xff0c;再通過W…

Linux NUC小主機化身視頻會議服務器: 技術優勢與部署實戰

在遠程辦公常態化背景下&#xff0c;視頻會議系統對硬件的輕量化、低功耗與穩定性提出了更高要求。基于Intel NUC&#xff08;Next Unit of Computing&#xff09;打造的Linux服務器方案&#xff0c;憑借其高性能、低能耗和可擴展性優勢&#xff0c;正成為中小企業搭建視頻會議…

idea查看class字節碼

概述 如何查看class字節碼&#xff1f;話不多說&#xff0c;直接看示例&#xff01; 方法一 選中class類&#xff0c;然后選擇 View -> Show Bytecode 方法二 安裝jclasslib插件 方法三 Settings -> Tools -> External Tools 添加一個tool //指定javap.exe路…

python使用cookie、session、selenium實現網站登錄(爬取信息)

一、使用cookie 這段代碼演示了如何使用Python的urllib和http.cookiejar模塊來實現網站的模擬登錄&#xff0c;并在登錄后訪問需要認證的頁面。 # 導入必要的庫 import requests from urllib import request, parse# 1. 導入http.cookiejar模塊中的CookieJar類&#xff0c;用…

機器人基礎知識-1

1.六軸機器人中的六軸是什么&#xff1f; 第一軸&#xff08;J1&#xff09;&#xff1a;底座旋轉 控制機器人整體繞垂直軸旋轉&#xff08;左右擺動&#xff09;&#xff0c;決定工作范圍的水平方向。 第二軸&#xff08;J2&#xff09;&#xff1a;下臂前后擺動 驅動機器人的…