大模型推理:LM Studio在Mac上部署Deepseek-R1模型

LM Studio

LM Studio是一款支持離線大模型部署的推理服務框架,提供了易用的大模型部署web框架,支持Linux、Mac、Windows等平臺,并提供了OpenAI兼容的SDK接口,主要使用LLama.cpp和MLX推理后端,在Mac上部署時選擇MLX推理后端會顯著提升大模型的生成速度。

環境信息

  • 機器信息:Mac studio M2 192G, MacOS
  • 部署模型:部署DeepSeek-R1-Distill-LLama-70B 8bit / DeepSeek-R1-Distill-Qwen-32B 8bit 模型
  • 部署框架:LM Studio 0.3.13

安裝

  • LM Studio官網下載安裝文件,正常安裝即可。
    在這里插入圖片描述

模型下載

通過命令行或者web界面進行大模型下載時,默認走huggingface.co,國內需要特殊設置才能訪問,因此推薦換掉該源使用modelscope或者hf-mirror進行下載。

  • 下載源更換
    • 命令行進入目錄:/Applications/LM Studio.app/Contents/Resources/app/.webpack,執行open . ,會以文件形式彈出該目錄
    • 文本編輯器分別打開文件:main/index.js和rederer/main_window.js,選擇用 modelscope.cn 或者 hf-mirror.com 替換掉 huggingface.co,全部替換,保存關閉
    • 重啟LM Studio即可。
  • 大模型下載
    • 方式一:web頁面下載
      在web頁面選擇需要下載的大模型,等待完成即可,完成后在web界面l或者命令行load(lms load [模型名稱])。
    • 方式二:命令行形式下載
      在命令窗口使用命令 lms get [model name], 模型名稱需要上述下載源里面存在,完成后在web界面l或者命令行load(lms load [模型名稱])。
    • 方式三:Git lfs 下載
      上述兩種方式,我這兒下載時經常遇到下載暫停的形象,為解決這個問題,推薦 Git 大文件下載方式(推薦Modelscope)。
      • 安裝Git lfs、初始化git lfs,可自行deepseek問下。
      • 模型下載后(Mac上通常選擇mlx-community倉庫中的mlx模型)將其放入目錄:~/.lmstudio/models,結構是:倉庫名稱(可自定義)->包含文件權重的文件夾(文件夾名稱可自定義)
      • 最后在web界面l或者命令行load(lms load [模型名稱])。
      • 注意:也可通過lms imort命令去導入,但是文件夾下只能含有一個文件,而safetensors文件基本是多個,所以不是很推薦

模型服務

  • 模型load完成后,可在web頁面聊天,lm studio自帶web聊天界面
  • 模型load完成后,可使用OpenAI SDK接口調用,若提供給局域網其他使用,需開啟local server模型并開啟局域網訪問,可在web界面操作

參考文獻

  • LM Studio Docs
  • 在 MacOS 上為 LM Studio 更換鏡像源

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/898169.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/898169.shtml
英文地址,請注明出處:http://en.pswp.cn/news/898169.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI技術學習筆記系列004:GPU常識

顯卡架構是GPU設計的核心,不同廠商有其獨特的架構演進。以下是主要廠商的顯卡架構概述: 一、NVIDIA Tesla(2006-2010) 代表產品:GeForce 8000系列(G80)。特點:首款統一著色架構&…

實驗- 分片上傳 VS 直接上傳

分片上傳和直接上傳是兩種常見的文件上傳方式。分片上傳將文件分成多個小塊,每次上傳一個小塊,可以并行處理多個分片,適用于大文件上傳,減少了單個請求的大小,能有效避免因網絡波動或上傳中斷導致的失敗,并…

Android視頻渲染SurfaceView強制全屏與原始比例切換

1.創建UI添加強制全屏與播放按鈕 2.SurfaceView控件設置全屏顯示 3.全屏點擊事件處理實現 4.播放點擊事件處理 5.使用接口更新強制全屏與原始比例文字 強制全屏/原始比例 點擊實現

數據結構——串、數組和廣義表

串、數組和廣義表 1. 串 1.1 串的定義 串(string)是由零個或多個字符組成的有限序列。一般記為 S a 1 a 2 . . . a n ( n ≥ 0 ) Sa_1a_2...a_n(n\geq0) Sa1?a2?...an?(n≥0) 其中,S是串名,單引號括起來的字符序列是串的值, a i a_i a…

無再暴露源站!群聯AI云防護IP隱匿方案+防繞過實戰

一、IP隱藏的核心原理 群聯AI云防護通過三層架構實現源站IP深度隱藏: 流量入口層:用戶訪問域名解析至高防CNAME節點(如ai-protect.example.com)智能調度層:基于AI模型動態分配清洗節點,實時更新節點IP池回…

1.5.3 掌握Scala內建控制結構 - for循環

Scala的for循環功能強大&#xff0c;支持單重和嵌套循環。單重for循環語法為for (變量 <- 集合或數組 (條件)) {語句組}&#xff0c;可選篩選條件&#xff0c;循環變量依次取集合值。支持多種任務&#xff0c;如輸出指定范圍整數&#xff08;使用Range、to、until&#xff0…

【MySQL基礎-9】深入理解MySQL中的聚合函數

在數據庫操作中&#xff0c;聚合函數是一類非常重要的函數&#xff0c;它們用于對一組值執行計算并返回單個值。MySQL提供了多種聚合函數&#xff0c;如COUNT、SUM、AVG、MIN和MAX等。這些函數在數據分析和報表生成中扮演著關鍵角色。本文將深入探討這些聚合函數的使用方法、注…

windows版本的時序數據庫TDengine安裝以及可視化工具

了解時序數據庫TDengine&#xff0c;可以點擊官方文檔進行詳細查閱 安裝步驟 首先找到自己需要下載的版本&#xff0c;這邊我暫時只寫windows版本的安裝 首先我們需要點開官網&#xff0c;找到發布歷史&#xff0c;目前TDengine的windows版本只更新到3.0.7.1&#xff0c;我們…

Web測試

7、Web安全測試概述 黑客技術的發展歷程 黑客基本涵義是指一個擁有熟練電腦技術的人&#xff0c;但大部分的媒體習慣將“黑客”指作電腦侵入者。 黑客技術的發展 在早期&#xff0c;黑客攻擊的目標以系統軟件居多。早期互聯網Web并非主流應用&#xff0c;而且防火墻技術還沒有…

華為OD機試 - 最長的完全交替連續方波信號(Java 2023 B卷 200分)

題目描述 給定一串方波信號,要求找出其中最長的完全連續交替方波信號并輸出。如果有多個相同長度的交替方波信號,輸出任意一個即可。方波信號的高位用1標識,低位用0標識。 說明: 一個完整的信號一定以0開始并以0結尾,即010是一個完整的信號,但101,1010,0101不是。輸入的…

游戲引擎學習第163天

我們可以在資源處理器中使用庫 因為我們的資源處理器并不是游戲的一部分&#xff0c;所以它可以使用庫。我說過我不介意讓它使用庫&#xff0c;而我提到這個的原因是&#xff0c;今天我們確實有一個選擇——可以使用庫。 生成字體位圖的兩種方式&#xff1a;求助于 Windows 或…

7、什么是死鎖,如何避免死鎖?【高頻】

&#xff08;1&#xff09;什么是死鎖&#xff1a; 死鎖 是指在兩個或多個進程的執行時&#xff0c;每個進程都持有資源 并 等待其他進程 釋放 它所需的資源&#xff0c;如果此時所有的進程一直占有資源而不釋放&#xff0c;就會陷入互相等待的一種僵局狀態。 死鎖只有同時滿足…

Compose 實踐與探索十四 —— 自定義布局

自定義布局在 Compose 中相對于原生的需求已經小了很多&#xff0c;先講二者在本質上的邏輯&#xff0c;再說它們的使用場景&#xff0c;兩相對比就知道為什么 Compose 中的自定義布局的需求較小了。 原生是在 xml 布局文件不太方便或者無法滿足需求時才會在代碼中通過自定義 …

【C++】:C++11詳解 —— 入門基礎

目錄 C11簡介 統一的列表初始化 1.初始化范圍擴展 2.禁止窄化轉換&#xff08;Narrowing Conversion&#xff09; 3.解決“最令人煩惱的解析”&#xff08;Most Vexing Parse&#xff09; 4.動態數組初始化 5. 直接初始化返回值 總結 聲明 1.auto 類型推導 2. declty…

oracle刪除表中重復數據

需求&#xff1a; 刪除wfd_procs_nodes_rwk表中&#xff0c;huser_id、dnode_id、rwk_name字段值相同的記錄&#xff0c;如果有多條&#xff0c;只保留一條。 SQL&#xff1a; DELETE FROM wfd_procs_nodes_rwk t WHERE t.rowid > (SELECT MIN(t1.rowid)FROM wfd_procs_n…

ESP32學習 -從STM32工程架構進階到ESP32架構

ESP32與STM32項目文件結構對比解析 以下是對你提供的ESP32項目文件結構的詳細解釋&#xff0c;并與STM32&#xff08;以STM32CubeIDE為例&#xff09;的常見結構進行對比&#xff0c;幫助你理解兩者的差異&#xff1a; 1. ESP32項目文件解析 文件/目錄作用STM32對應或差異set…

整形在內存中的存儲(例題逐個解析)

目錄 一.相關知識點 1.截斷&#xff1a; 2.整形提升&#xff1a; 3.如何 截斷&#xff0c;整型提升&#xff1f; &#xff08;1&#xff09;負數 &#xff08;2&#xff09;正數 &#xff08;3&#xff09;無符號整型&#xff0c;高位補0 注意&#xff1a;提升后得到的…

HTML中滾動加載的實現

設置div的overflow屬性&#xff0c;可以使得該div具有滾動效果&#xff0c;下面以div中包含的是table來舉例。 當table的元素較多&#xff0c;以至于超出div的顯示范圍的話&#xff0c;觀察下該div元素的以下3個屬性&#xff1a; clientHeight是div的顯示高度&#xff0c;scrol…

Netty基礎—7.Netty實現消息推送服務二

大綱 1.Netty實現HTTP服務器 2.Netty實現WebSocket 3.Netty實現的消息推送系統 (1)基于WebSocket的消息推送系統說明 (2)消息推送系統的PushServer (3)消息推送系統的連接管理封裝 (4)消息推送系統的ping-pong探測 (5)消息推送系統的全連接推送 (6)消息推送系統的HTTP…

人工智能助力家庭機器人:從清潔到陪伴的智能轉型

引言&#xff1a;家庭機器人進入智能時代 過去&#xff0c;家庭機器人只是簡單的“工具”&#xff0c;主要用于掃地、拖地、擦窗等單一任務。然而&#xff0c;隨著人工智能&#xff08;AI&#xff09;技術的迅猛發展&#xff0c;家庭機器人正經歷從“機械助手”向“智能管家”甚…