Llama 2免費托管及API提供

Llama 2 是 Meta 最新的文本生成模型,目前其性能優于所有開源替代方案。

在這里插入圖片描述

推薦:用 NSDT編輯器 快速搭建可編程3D場景

1、強大的Llama 2

它擊敗了 Falcon-40B(之前最好的開源基礎模型),與 GPT-3.5 相當,僅低于 GPT-4 和 PALM 2(均為閉源模型,分別由 OpenAI 和 Google 擁有)。
在這里插入圖片描述
HuggingFace 上的開源基金會模型排行榜

在如上所示的同一排行榜上,如果你更改過濾器以包含微調模型,會發現基本上整個列表都是由 Llama 2 衍生品組成的。

雖然 Llama 2 還沒有完全開放,但對于絕大多數用戶來說是非常寬松的。

如果在 Llama 2 版本發布之日,被許可方或被許可方的關聯公司提供的產品或服務的每月活躍用戶數在上一個日歷月中超過 7 億,你必須向Meta申請許可證。

2、托管 Llama 2 API

Llama 2 模型有 3 種不同大小:7B、13B 和 70B 參數。

70B參數版本需要多個 GPU,因此無法免費托管。

在 13B 和 7B 版本中,13B 版本更強大,但需要一些壓縮(量化或降低浮點精度)才能適合單個中檔 GPU。 幸運的是,Llama cpp 庫使這變得相當簡單!

托管 Llama 2 API 的基本概要如下:

  • 使用 Google Colab 免費訪問 Nvidia T4 GPU!
  • 使用 Llama cpp 將 Llama 2 模型壓縮并加載到 GPU 上。
  • 創建 FastAPI 服務器以向模型提供 REST API。
  • 使用 Ngrok 通過公共 URL 公開 FastAPI 端點。

完整的 Colab 代碼可以從這里下載。

3、Google Colab 操作

首先復制示例的Notebook:

在這里插入圖片描述

在左上角,選擇“文件”->“在云端硬盤中保存副本”。 這將打開你擁有的新 Colab。

仔細檢查Runtime是否設置為使用 T4 Nvidia GPU:

在這里插入圖片描述

右上角有用于更改運行時硬件的選項。

要查看實例上的文件(例如 server.log),請檢查左側邊欄:
在這里插入圖片描述

4、使用 Ngrok 創建公共 URL

我們需要的最后一個工具是 Ngrok,它提供了一種通過公共 URL 訪問模型服務端點的方法。

用戶需要創建一個僅允許 1 個本地隧道的免費帳戶 — 你不需要下載或設置任何東西,只需要一個用戶身份驗證密鑰的帳戶。

可以使用電子郵件或通過 GitHub 或 Google 帳戶進行注冊。 請隨意跳過兩步身份驗證設置。

在這里插入圖片描述

在 Ngrok 設置頁面上獲取 Auth token,如圖中紅框所示

將用戶身份驗證令牌放入 Colab 代碼中,如下所示:

!./ngrok authtoken <YOUR-NGROK-TOKEN-HERE>

這是示例的Notebook所需的唯一更改,簡單易行!

其余流程相當簡單,請參閱Notebook的內容。

5、訪問 Llama 2 API

現在,只需一個簡單的請求,就可以輕松訪問你的 Llama 2 模型!

curl --location --request POST 'https://499a-104-196-231-246.ngrok-free.app/generate' \
--header 'Content-Type: application/json' \
--data-raw '{"inputs": "What is mypy used for?","parameters": {"temperature": 0.0,"max_tokens": 25}
}'

如果你使用 Postman,請求/響應可能如下所示:

在這里插入圖片描述

6、下一步

主機托管的 LLM 最突出且廣泛適用的用例之一是利用你的私有數據豐富模型的內部知識,以便它可以像知識淵博的隊友一樣在完整的上下文中回答用戶查詢。

我將在后續文章中介紹如何建立一個免費的開源項目來執行此操作。
在這里插入圖片描述

作為一個案例,Danswer 是目前唯一免費、完全開源的基于 Llama 2 LLM 的問答項目,功能齊全,可供生產使用。

7、結束語

雖然能夠免費托管自己的 LLM 非常有價值,但使用 Google Colab 有一些注意事項:

  • 本指南(和 Google Colab)更多地用于開發用途,為了擁有永久端點,你可能需要投資專用硬件,因為 Google Colab 將在一段時間不活動后回收實例。
  • 免費套餐中不提供 A100 等高端 GPU。
  • 在免費套餐中,你只能在單個會話中申請最多 12 小時的實例。

原文鏈接:Llama 2 API免費托管方案 — BimAnt

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/41740.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/41740.shtml
英文地址,請注明出處:http://en.pswp.cn/news/41740.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【uni-app】 .sync修飾符與$emit(update:xxx)實現數據雙向綁定

最近在看uni-app文檔&#xff0c;看到.sync修飾符的時候&#xff0c;覺得很有必要記錄一下 其實uni-app是一個基于Vue.js和微信小程序開發框架的跨平臺開發工具 所以經常會聽到這樣的說法&#xff0c;只要你會vue&#xff0c;uni-app就不難上手 在看文檔的過程中&#xff0c;發…

.netcore grpc客戶端工廠及依賴注入使用

一、客戶端工廠概述 gRPC 與 HttpClientFactory 的集成提供了一種創建 gRPC 客戶端的集中方式。可以通過依賴包Grpc.Net.ClientFactory中的AddGrpcClient進行gRPC客戶端依賴注入AddGrpcClient函數提供了許多配置項用于處理一些其他事項&#xff1b;例如AOP、重試策略等 二、案…

miniExcel 生成excel

一、nuget dotnet add package MiniExcel --version 1.31.2 二、新建表及數據 ExampleProducts 三、這里我用了Dapper.Query方法 讀取excel public virtual async Task<IActionResult> Anonymous(){try{//using (var connection _dbContext.GetDbConnection())//{//…

linux中的ifconfig和ip addr

在linux操作系統中ifconfig和ip addr都是顯示網卡配置信息的命令&#xff0c;好多人有疑惑它們有什么區別呢 區別1&#xff1a;對于linux發行的版本不一樣 ip addr是對新發行版本的linux使用會比較多&#xff1b;而ifconfig是老版本遇到使用的會比較多。 區別2&#xff1a;顯…

神經網絡基礎-神經網絡補充概念-32-神經網絡與大腦

概念 神經網絡&#xff08;Neural Networks&#xff09;是受到生物神經系統啟發而設計的機器學習模型&#xff0c;用于處理和學習復雜的數據模式。盡管神經網絡的設計和工作原理與大腦有一些相似之處&#xff0c;但它們并不完全相同&#xff0c;以下是神經網絡和大腦之間的一些…

基于 KubeSphere 的應用容器化在智能網聯汽車領域的實踐

公司簡介 某國家級智能網聯汽車研究中心成立于 2018 年&#xff0c;是擔當產業發展咨詢與建議、共性技術研發中心、創新成果轉化的國家級創新平臺&#xff0c;旨在提高我國在智能網聯汽車及相關產業在全球價值鏈中的地位。 目前著力建設基于大數據與云計算的智能汽車云端運營…

RestTemplate

RestTemplate介紹 RestTemplate是Spring提供的用于訪問RESTful服務的客戶端&#xff0c;RestTemplate提供了多種便捷訪問遠程Http服務的方法,能夠大大提高客戶端的編寫效率。RestTemplate默認依賴JDK提供http連接的能力&#xff08;HttpURLConnection&#xff09;&#xff0c;…

js拼接字符串

在js中&#xff0c;你可以使用字符串拼接的方式創建新的字符串。 下面是一些常用的方法&#xff1a; 1、使用運算符&#xff1a; var str1 "Hello"; var str2 "World"; var result str1 " " str2; console.log(result); // 輸出&#xf…

【數據結構】鏈表常見題目

文章目錄 鏈表合并兩個有序鏈表反轉鏈表復制帶隨機指針的鏈表環形鏈表環形鏈表II相交鏈表移除鏈表元素鏈表中倒數第k個節點鏈表分割鏈表的回文結構鏈表的中間節點旋轉鏈表鏈表排序鏈表求和 (逆序求)鏈表求和II (正序求)重排鏈表奇偶鏈表反轉鏈表II <==> 鏈表內指定區間反…

(二)掌握最基本的Linux服務器用法——Linux下簡單的C/C++ 程序、項目編譯

1、靜態庫與動態庫 靜態庫(Static Library)&#xff1a;靜態庫是編譯后的庫文件&#xff0c;其中的代碼在編譯時被鏈接到程序中&#xff0c;因此它會與程序一起形成一個獨立的可執行文件。每個使用靜態庫的程序都會有自己的庫的副本&#xff0c;這可能會導致內存浪費。常用后綴…

opencv簡單使用

cv2庫安裝&#xff0c; conda install opencv-python注意cv2使用時&#xff0c;路徑不能有中文。&#xff08;不然會一直’None’ _ update # 處理中文路徑問題 def cv_imread(file_path): #使用之前需要導入numpy、cv2庫&#xff0c;file_path為包含中文的路徑return cv2.imd…

idea入門與maven配置的一些介紹

idea入門與maven配置的一些介紹 1.確保Java和Maven已安裝2.創建一個新的Maven項目3.導航到要創建項目的目錄配置Maven4.配置項目的pom.xml文件5.配置其他Tomcat和設置jdk6.構建和運行項目 關于idea入門基礎配置 步驟1&#xff1a;安裝IntelliJ IDEA 首先&#xff0c;從IntelliJ…

腳本語言與編譯語言的區別

文章目錄 一、語法差異二、執行方式差異三、應用領域差異四、總結 一、語法差異 腳本語言&#xff1a;腳本語言通常使用解釋器逐行執行&#xff0c;不需要事先編譯。它的語法相對簡單&#xff0c;易于學習和使用。常見的腳本語言有Python、JavaScript和Ruby等。 編譯語言&…

上海市青少年算法2023年2月月賽(丙組)

上海市青少年算法2023年2月月賽(丙組)T1 格式改寫 題目描述 給定一個僅由拉丁字符組成字符序列,需要改寫一些字符的大小寫,使得序列全部變成大寫或全部變成小寫,請統計最少修改多少個字符才能完成這項任務。 輸入格式 一個字符序列:保證僅由拉丁字符構成 輸出格式 單個整…

golang環境搭建

1. 下載、安裝 wget -O go.tar.gz https://golang.google.cn/dl/go1.21.0.linux-amd64.tar.gz sudo rm -rf /usr/local/go && sudo tar -zxvf go.tar.gz -C /usr/local2.創建工作目錄 cd mkdir -p go/{bin,pkg,src}3.添加環境變量 sudo vim /etc/profile寫入以下…

計算機競賽 python+大數據校園卡數據分析

0 前言 &#x1f525; 優質競賽項目系列&#xff0c;今天要分享的是 &#x1f6a9; 基于yolov5的深度學習車牌識別系統實現 &#x1f947;學長這里給一個題目綜合評分(每項滿分5分) 難度系數&#xff1a;4分工作量&#xff1a;4分創新點&#xff1a;3分 該項目較為新穎&am…

記錄一個編譯TubeTK時的報錯:at_check問題

在使用如下命令安裝TubeTK的cuda_nms時&#xff0c;報了一個錯誤&#xff0c;記錄一下這個錯誤和解決辦法 (base) redmeryredmery:~/Desktop/MOT/TubeTK/post_processing/nms$ python setup.py build_ext --inplace因為這個命令是在/home/redmery/Desktop/MOT/TubeTK/install/…

Talk | ACL‘23 杰出論文獎上海交通大學吳蔚琪:預訓練語言模型對本體知識的記憶與理解

本期為TechBeat人工智能社區第523期線上Talk&#xff01; 北京時間8月17日(周四)20:00&#xff0c;上海交通大學碩士研究生—吳蔚琪的Talk已準時在TechBeat人工智能社區開播&#xff01; 她與大家分享的主題是: “預訓練語言模型對本體知識的記憶與理解”&#xff0c;分享了預訓…

Python入門【TCP建立連接的三次握手、 TCP斷開連接的四次揮手、套接字編程實戰、 TCP編程的實現、TCP雙向持續通信】(二十七)

&#x1f44f;作者簡介&#xff1a;大家好&#xff0c;我是愛敲代碼的小王&#xff0c;CSDN博客博主,Python小白 &#x1f4d5;系列專欄&#xff1a;python入門到實戰、Python爬蟲開發、Python辦公自動化、Python數據分析、Python前后端開發 &#x1f4e7;如果文章知識點有錯誤…