下面是目前主流 大語言模型 API 的付費情況總覽:
🧠 一、主要大語言模型 API:是否付費對比
提供方 | 模型 | 是否免費 | 限制 / 說明 |
---|---|---|---|
OpenAI | GPT-3.5 / GPT-4 / GPT-4o | ? 付費為主 | 有免費額度(如 ChatGPT 免費版),API 調用大多需付費 |
Anthropic | Claude 2 / Claude 3 | ? 付費為主 | API 使用需訂閱(如通過 Amazon Bedrock / Claude 官網) |
Gemini Pro / 1.5 | ?(有限)/ ? | 有免費層(限速),API 商業化使用需付費 | |
Meta | LLaMA 2 / LLaMA 3 | ? 開源免費 | 模型本身免費,但托管/推理費用另計(如用 AWS/GCP) |
Mistral | Mistral / Mixtral | ? 開源免費 | 模型開放,API 接入商(如 HuggingFace)可能收費 |
Cohere | Command R | ? 付費為主 | 提供免費額度,API 商業化收費 |
Open-Source 自托管 | LLaMA / Mistral / RWKV 等 | ? 免費 | 模型和API都可自己部署,零成本但需計算資源 |
Hugging Face | Transformers / Inference API | ? / ? | 免費模型下載,推理API免費有調用限制,商用或大流量需訂閱 |
💰 二、典型付費 API 示例
1. OpenAI
curl https://api.openai.com/v1/chat/completions \-H "Authorization: Bearer YOUR_API_KEY" \-d '{"model": "gpt-4","messages": [{"role": "user", "content": "你好"}]
}'
-
GPT-4o 單次調用價格(截至 2025):$0.005-$0.01 / 1K tokens
-
免費額度:ChatGPT(免費版使用 GPT-3.5)
2. Google Gemini API
-
免費開發計劃有速率和配額限制
-
商業級調用定價:
-
Gemini 1.5 Flash:$0.000125/token(輸入)
-
Gemini 1.5 Pro:$0.0005/token(輸入)
-
3. Anthropic Claude
-
API 接入通過官網或 Amazon Bedrock,價格與 OpenAI 類似
-
Claude 3 Opus 比 GPT-4 更強但更貴,約 $0.03/token(輸出)
🆓 三、免費可用的開源 LLM 模型(推薦)
模型 | 特點 | 推薦部署方式 |
---|---|---|
LLaMA 2 / 3 | Meta 出品,效果強 | 使用 text-generation-webui 或 HuggingFace |
Mistral / Mixtral | 高性價比,小模型快 | Docker 部署或 HuggingFace Spaces |
Yi / InternLM / Qwen | 中文效果優秀 | 自建推理服務(如 vLLM , FastChat ) |
🧩 總結:什么是“付費”的?
-
? 模型是開源的 ≠ API 是免費的
-
? 如果你自己部署模型,本地使用 0 成本
-
? 如果調用別人的 API 云服務(OpenAI、Claude、Gemini),則通常需要 按 token 或調用次數付費
如何用免費的大語言模型開發項目,一些 部署方法 或 API 替代方案(例如 vLLM
+ Hugging Face 模型),搭建開源模型 API ?
好的,我們來一步步搭建一個 免費且功能強大的大語言模型 API 接口,你可以用來替代 OpenAI 或其他付費服務。本方案基于開源模型(如 LLaMA、Mistral、Qwen)+ 高性能推理引擎 vLLM,在 Linux 上部署。
? 一、系統前提
-
操作系統:Linux (推薦 Ubuntu 20.04/22.04)
-
Python 版本:>=3.8
-
顯卡支持:NVIDIA GPU + CUDA 11+(可選,CPU 也能運行但較慢)
-
推薦顯卡:至少 8GB 顯存(如 RTX 3060 以上)
🚀 二、安裝 vLLM 并部署模型 API
1?? 安裝 Python 環境
sudo apt update
sudo apt install python3-pip python3-venv git -y
python3 -m venv llm-env
source llm-env/bin/activate
2?? 安裝 vLLM
pip install --upgrade pip
pip install vllm
3?? 下載開源大語言模型(如 Qwen 1.5, Mistral, LLaMA3)
以阿里巴巴的中文模型 Qwen1.5-7B-Chat 為例:
# 需要先登錄 huggingface
huggingface-cli login# 運行 API 接口(模型會自動下載)
python3 -m vllm.entrypoints.openai.api_server \--model Qwen/Qwen1.5-7B-Chat \--port 8000
🔁 可替換為任何 HuggingFace 上支持的模型,如:
mistralai/Mistral-7B-Instruct-v0.2
meta-llama/Meta-Llama-3-8B-Instruct
baichuan-inc/Baichuan2-7B-Chat
🔌 三、模擬 OpenAI API 調用方式(兼容 openai.ChatCompletion.create()
)
你現在可以像這樣調用自己的 LLM API:
import openaiopenai.api_key = "EMPTY" # 不需要真實密鑰
openai.api_base = "http://localhost:8000/v1"response = openai.ChatCompletion.create(model="Qwen/Qwen1.5-7B-Chat",messages=[{"role": "user", "content": "你好,請寫一首唐詩。"}]
)
print(response['choices'][0]['message']['content'])
📦 四、支持模型列表推薦
模型名稱 | 平臺 | 特點 |
---|---|---|
Qwen1.5-7B-Chat | HuggingFace | 中文強、速度快 |
mistralai/Mistral-7B-Instruct-v0.2 | HuggingFace | 英文強、輕量級 |
meta-llama/Meta-Llama-3-8B-Instruct | Meta | 英文通用最優 |
THUDM/chatglm3-6b | 中文推薦 | 低顯卡也能跑 |
🧠 五、可選增強:前端 / Web UI(可選)
-
Open WebUI:輕量美觀的網頁界面,兼容 OpenAI 接口
-
Text Generation Web UI:更高級、支持模型切換
-
FastChat:也支持 OpenAI API 和 Web Chat 界面
📘 六、下一步建議
-
用 Nginx 反向代理模型 API,發布到公網
-
加入 Web UI 或 Web 服務(比如 Flask、FastAPI)
-
如果你沒有 GPU,也可以部署量化模型(如 GGUF)+
llama.cpp