文章中代碼倉庫
gemini
谷歌推出的 AI 只能模型
- Gemini官網
- Gemini Chat
- Gemini開發者文檔
- Gemini SDK
所有模型
模型變體 | 輸入 | 輸出 | 優化目標 |
---|---|---|---|
Gemini 2.5 Pro gemini-2.5-pro | 音頻、圖片、視頻、文本和 PDF | 文本 | 增強的思考和推理能力、多模態理解能力、高級編碼能力等 |
Gemini 2.5 Flash gemini-2.5-flash | 音頻、圖片、視頻和文本 | 文本 | 適應性思維,成本效益 |
Gemini 2.5 Flash-Lite 預覽版 gemini-2.5-flash-lite-preview-06-17 | 文本、圖片、視頻、音頻 | 文本 | 最具成本效益且支持高吞吐量的模型 |
Gemini 2.5 Flash 原生音頻 gemini-2.5-flash-preview-native-audio-dialog & gemini-2.5-flash-exp-native-audio-thinking-dialog | 音頻、視頻和文本 | 文本和音頻,交錯顯示 | 高質量、自然的對話式音頻輸出,無論是否經過思考 |
Gemini 2.5 Flash 預覽版 TTS gemini-2.5-flash-preview-tts | 文本 | 音頻 | 低延遲、可控的單語音和多語音文字轉語音音頻生成 |
Gemini 2.5 Pro 預覽版 TTS gemini-2.5-pro-preview-tts | 文本 | 音頻 | 低延遲、可控的單語音和多語音文字轉語音音頻生成 |
Gemini 2.0 Flash gemini-2.0-flash | 音頻、圖片、視頻和文本 | 文本 | 新一代功能、速度和實時流式傳輸。 |
Gemini 2.0 Flash 預覽版圖片生成 gemini-2.0-flash-preview-image-generation | 音頻、圖片、視頻和文本 | 文字、圖片 | 對話式圖片生成和編輯 |
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite | 音頻、圖片、視頻和文本 | 文本 | 成本效益和低延遲 |
Gemini 1.5 Flash gemini-1.5-flash | 音頻、圖片、視頻和文本 | 文本 | 在各種任務中提供快速而多樣的性能 已棄用 |
Gemini 1.5 Flash-8B gemini-1.5-flash-8b | 音頻、圖片、視頻和文本 | 文本 | 量大且智能程度較低的任務 已棄用 |
Gemini 1.5 Pro gemini-1.5-pro | 音頻、圖片、視頻和文本 | 文本 | 需要更高智能的復雜推理任務 已棄用 |
Gemini Embedding gemini-embedding-001 | 文本 | 文本嵌入 | 衡量文本字符串的相關性 |
Imagen 4 imagen-4.0-generate-preview-06-06 imagen-4.0-ultra-generate-preview-06-06 | 文本 | 圖片 | 我們最新的圖片生成模型 |
Imagen 3 imagen-3.0-generate-002 | 文本 | 圖片 | 高質量圖片生成模型 |
Veo 3 預覽版 veo-3.0-generate-preview | 文本 | 帶音頻的視頻 | 生成包含音效、環境噪音和對話的高品質視頻 |
Veo 2 veo-2.0-generate-001 | 文字、圖片 | 視頻 | 高質量視頻生成 |
Gemini 2.5 Flash Live gemini-live-2.5-flash-preview | 音頻、視頻和文本 | 文字、音頻 | 低延遲的雙向語音和視頻互動 |
Gemini 2.0 Flash Live gemini-2.0-flash-live-001 | 音頻、視頻和文本 | 文字、音頻 | 低延遲的雙向語音和視頻互動 |
引入SDK
go get google.golang.org/genai
設置GEMINI API KEY 環境變量
export GEMINI_API_KEY="your-api-key"
示例
文本生成
- 單個文本輸入
- 思考功能
- 系統指令來引導 Gemini 模型的行為
- 借助 GenerateContentConfig 對象, 替換默認生成參數
- 多模態輸入,將文本與媒體文件組合使用
- 流式響應
- 多輪對話
- 流式響應多輪對話
圖片生成
- 文本生成圖片
- 圖片編輯
- 使用 Imagen 模型生成圖片 (需要付費)
生成視頻
- 使用 Veo 3 生成視頻 (要使用此模式,請確保您的帳戶具有活動的GCP計費)
- 根據圖片生成視頻 (需要付費)
結構化輸出
- 結構化輸出
文檔理解
- 傳遞內嵌 PDF 數據
- 使用 File API 上傳 PDF
圖片理解
- 傳遞內嵌圖片數據
- 使用 File API 上傳圖片
視頻理解
- YouTuBe
代碼執行
- 生成代碼, 并執行代碼
- 在對話中使用代碼執行
func main() {// 文本生成text.TexGen()text.TexGenThinking()text.TexGenCli()text.TexGenDefaultConfig()text.TexGenMultiModal()text.TexGenStream()text.TexMultipleRoundsOfDialogue()text.TexGenStreamMultipleRoundsOfDialogue()// 圖片生成photo.PhoGen()photo.PhoEdit()photo.ImaGen40GeneratePreview0606()// 生成視頻voe3.VeoGen()voe3.ImageGenVideo()// 結構化輸出format.FormatToJson()// 代碼執行coding.EnableCodingExec()coding.DialogCodingExec()// 文檔理解docs.InnerDoc()docs.UploadFileApi()// 圖片理解photo.PhoInnerRead()photo.PhoFileApi()// 視頻理解video.YouTuBe()
}