適用讀者與目標
- 適用讀者:已經熟悉基礎的 OpenAI API 調用方式,對文本生成或數據處理有一定經驗的計算機從業人員。
- 目標:在本節中,你將學會如何使用 OpenAI 提供的多模態接口(圖像生成、語音轉錄等)開發更豐富的應用場景。
為什么要采用多模態技術?
在現實工作中,我們并不是只處理文字;圖像、音頻、視頻也在企業運營、產品開發、教育培訓等多個場景中大量出現。
- 圖像場景:用自動生成的視覺素材,快速設計海報、配圖或原型圖。
- 音頻場景:將會議錄音轉成文本歸檔,節省人工整理時間。
- 文本結合多模態:先轉錄語音,然后結合 GPT 生成摘要,幫助團隊快速獲取關鍵信息。
多模態技術能夠降低人工勞動、提升工作效率、并擴展模型的使用邊界,幫助企業和個人更好地管理各種形式的內容。
內容概述
-
OpenAI 對多模態任務的支持
- 圖像生成:通過
RESTful API
接口,讓模型根據文本描述自動生成相應的圖片。 - 音頻轉錄:通過
audio.transcriptions.create
將語音轉換為文字,并可進一步結合 GPT 進行語義分析或摘要生成。
- 圖像生成:通過
-
常見應用場景
- 文本+圖像報告:從產品描述生成圖像,用于匯報或展示。
- 語音摘要:將客戶訪談、會議錄音轉成文字并生成要點。
- 多模態內容整合:將圖像、文字、音頻信息統一管理和分析,形成全面的工作流程。
實操:圖像生成與語音轉錄
1. 使用 RESTful API
方式調用圖像生成接口
示例場景:你需要為一款新產品的宣傳海報快速生成示意圖。
import requestsapi_key = "Your_API_Key"
url = "https://api.openai.com/v1/images/generations"
headers = {"Content-Type": "application/json","Authorization": f"Bearer {api_key}"
}
payload = {"prompt": "未來風格的智能手表設計,搭配時尚的銀色表帶,呈現簡約風格","n": 1,"size": "1024x1024"
}response = requests.post(url, headers=headers, json=payload)
if response.status_code == 200:data = response.json()image_url = data["data"][0]["url"]print("Generated Image URL:", image_url)
else:print("Error:", response.status_code, response.text)
操作說明:
prompt
:用簡潔的英文或中文描述需要生成的圖像內容。n
:指定生成圖像的數量。size
:控制圖像分辨率,以平衡質量與生成速度。- 通過
requests.post
調用OpenAI
的圖像生成接口。 - 接口返回的
JSON
中包含data
字段,你可以從中取出生成的圖像URL
。
實際工作案例:
- 市場團隊為新產品做宣傳時,可快速生成概念圖;
- 設計師可把初步生成圖當作靈感來源,之后再進行精修。
2. 使用 requests
庫直接調用 Whisper API
轉錄語音,并結合 GPT 生成摘要
示例場景:錄制了一段產品說明會的音頻,需要文字轉錄并提煉成關鍵要點。
1)錄制或獲取音頻文件
- 錄制一段
.wav
格式音頻文件,或使用真實會議錄音。
2)轉錄代碼示例
import requestsapi_key = "Your_API_Key"
audio_file_path = "demo.wav"url = "https://api.openai.com/v1/audio/transcriptions"
headers = {"Authorization": f"Bearer {api_key}"
}
files = {"file": (audio_file_path, open(audio_file_path, "rb")),"model": (None, "whisper-1"),# 可選參數,如果需要生成翻譯,使用 "translate"# "prompt": (None, "Your prompt here"),# "response_format": (None, "json"), # 默認即為 json# "temperature": (None, "0.5"),# ...
}
response = requests.post(url, headers=headers, files=files)if response.status_code == 200:transcription = response.json()print("Transcribed Text:", transcription["text"])
else:print("Error:", response.status_code, response.text)
3)結合 GPT 生成摘要
summary_prompt = f"請基于以下會議文字內容生成簡要報告:\n{transcription['text']}\n"summary_response = openai.chat.completions.create(model="gpt-3.5-turbo",messages=[{"role": "user", "content": summary_prompt}],max_tokens=150
)print("Meeting Summary:", summary_response.choices[0].message.content)
操作說明:
whisper-1
:OpenAI 提供的語音識別模型,可將音頻轉錄成文本。- 將轉錄后的文本與 GPT 結合時,可讓 GPT 對會議內容進行整理、提煉重點。
實際工作案例:
- 團隊會議整理:降低人工聽錄音的時間成本,自動生成要點。
- 客戶訪談分析:轉錄訪談音頻并生成提煉,幫助銷售團隊快速洞察客戶需求。
小結與練習
-
小結
- 多模態技術為處理圖像和音頻等非文本信息提供了便捷途徑。
- 生成圖像可用于宣傳海報、產品概念圖等視覺場景;語音轉錄并結合 GPT 生成摘要,可顯著節省人工整理時間、提供高效的信息匯總。
- 這些方法對于日常工作中涉及多種媒體格式的場景十分有幫助,能有效簡化和加速內容生成與處理流程。
-
練習
- 錄制一段 30 秒的語音文件,介紹你當前項目的進度。
- 使用
requests
庫直接調用 Whisper API 將音頻轉錄為文字。 - 調用 GPT 模型(如
gpt-3.5-turbo
)生成簡要報告,含項目進展要點和后續計劃建議。 - 使用
RESTful API
方式直接調用圖像生成接口,生成一張與項目主題相關的概念圖,進一步完善你的匯報材料。
通過這些練習,你將掌握 OpenAI 多模態 API 的核心應用方式,并為工作中的多樣化內容處理帶來新的思路和高效工具。