OpenAI 實戰進階教程 - 第十二節 : 多模態任務開發(文本、圖像、音頻)

適用讀者與目標
  • 適用讀者:已經熟悉基礎的 OpenAI API 調用方式,對文本生成或數據處理有一定經驗的計算機從業人員。
  • 目標:在本節中,你將學會如何使用 OpenAI 提供的多模態接口(圖像生成、語音轉錄等)開發更豐富的應用場景。

為什么要采用多模態技術?

在現實工作中,我們并不是只處理文字;圖像、音頻、視頻也在企業運營、產品開發、教育培訓等多個場景中大量出現。

  • 圖像場景:用自動生成的視覺素材,快速設計海報、配圖或原型圖。
  • 音頻場景:將會議錄音轉成文本歸檔,節省人工整理時間。
  • 文本結合多模態:先轉錄語音,然后結合 GPT 生成摘要,幫助團隊快速獲取關鍵信息。

多模態技術能夠降低人工勞動提升工作效率、并擴展模型的使用邊界,幫助企業和個人更好地管理各種形式的內容。


內容概述

  1. OpenAI 對多模態任務的支持

    • 圖像生成:通過 RESTful API 接口,讓模型根據文本描述自動生成相應的圖片。
    • 音頻轉錄:通過 audio.transcriptions.create 將語音轉換為文字,并可進一步結合 GPT 進行語義分析或摘要生成。
  2. 常見應用場景

    • 文本+圖像報告:從產品描述生成圖像,用于匯報或展示。
    • 語音摘要:將客戶訪談、會議錄音轉成文字并生成要點。
    • 多模態內容整合:將圖像、文字、音頻信息統一管理和分析,形成全面的工作流程。

實操:圖像生成與語音轉錄

1. 使用 RESTful API 方式調用圖像生成接口

示例場景:你需要為一款新產品的宣傳海報快速生成示意圖。

import requestsapi_key = "Your_API_Key"
url = "https://api.openai.com/v1/images/generations"
headers = {"Content-Type": "application/json","Authorization": f"Bearer {api_key}"
}
payload = {"prompt": "未來風格的智能手表設計,搭配時尚的銀色表帶,呈現簡約風格","n": 1,"size": "1024x1024"
}response = requests.post(url, headers=headers, json=payload)
if response.status_code == 200:data = response.json()image_url = data["data"][0]["url"]print("Generated Image URL:", image_url)
else:print("Error:", response.status_code, response.text)

操作說明

  • prompt:用簡潔的英文或中文描述需要生成的圖像內容。
  • n:指定生成圖像的數量。
  • size:控制圖像分辨率,以平衡質量與生成速度。
  • 通過 requests.post 調用 OpenAI 的圖像生成接口。
  • 接口返回的 JSON 中包含 data 字段,你可以從中取出生成的圖像 URL

實際工作案例

  • 市場團隊為新產品做宣傳時,可快速生成概念圖;
  • 設計師可把初步生成圖當作靈感來源,之后再進行精修。

2. 使用 requests 庫直接調用 Whisper API 轉錄語音,并結合 GPT 生成摘要

示例場景:錄制了一段產品說明會的音頻,需要文字轉錄并提煉成關鍵要點。

1)錄制或獲取音頻文件

  • 錄制一段 .wav 格式音頻文件,或使用真實會議錄音。

2)轉錄代碼示例


import requestsapi_key = "Your_API_Key"
audio_file_path = "demo.wav"url = "https://api.openai.com/v1/audio/transcriptions"
headers = {"Authorization": f"Bearer {api_key}"
}
files = {"file": (audio_file_path, open(audio_file_path, "rb")),"model": (None, "whisper-1"),# 可選參數,如果需要生成翻譯,使用 "translate"# "prompt": (None, "Your prompt here"),# "response_format": (None, "json"),  # 默認即為 json# "temperature": (None, "0.5"),# ...
}
response = requests.post(url, headers=headers, files=files)if response.status_code == 200:transcription = response.json()print("Transcribed Text:", transcription["text"])
else:print("Error:", response.status_code, response.text)

3)結合 GPT 生成摘要

summary_prompt = f"請基于以下會議文字內容生成簡要報告:\n{transcription['text']}\n"summary_response = openai.chat.completions.create(model="gpt-3.5-turbo",messages=[{"role": "user", "content": summary_prompt}],max_tokens=150
)print("Meeting Summary:", summary_response.choices[0].message.content)

操作說明

  • whisper-1:OpenAI 提供的語音識別模型,可將音頻轉錄成文本。
  • 將轉錄后的文本與 GPT 結合時,可讓 GPT 對會議內容進行整理、提煉重點。

實際工作案例

  • 團隊會議整理:降低人工聽錄音的時間成本,自動生成要點。
  • 客戶訪談分析:轉錄訪談音頻并生成提煉,幫助銷售團隊快速洞察客戶需求。

小結與練習

  1. 小結

    • 多模態技術為處理圖像和音頻等非文本信息提供了便捷途徑。
    • 生成圖像可用于宣傳海報、產品概念圖等視覺場景;語音轉錄并結合 GPT 生成摘要,可顯著節省人工整理時間、提供高效的信息匯總。
    • 這些方法對于日常工作中涉及多種媒體格式的場景十分有幫助,能有效簡化和加速內容生成與處理流程。
  2. 練習

    1. 錄制一段 30 秒的語音文件,介紹你當前項目的進度。
    2. 使用 requests 庫直接調用 Whisper API 將音頻轉錄為文字。
    3. 調用 GPT 模型(如 gpt-3.5-turbo)生成簡要報告,含項目進展要點和后續計劃建議。
    4. 使用 RESTful API 方式直接調用圖像生成接口,生成一張與項目主題相關的概念圖,進一步完善你的匯報材料。

通過這些練習,你將掌握 OpenAI 多模態 API 的核心應用方式,并為工作中的多樣化內容處理帶來新的思路和高效工具。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895082.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895082.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895082.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java面試題2025-JVM

JVM 1.為什么需要JVM,不要JVM可以嗎? 1.JVM可以幫助我們屏蔽底層的操作系統 一次編譯,到處運行 2.JVM可以運行Class文件 2.JDK,JRE以及JVM的關系 3.我們的編譯器到底干了什么事? 僅僅是將我們的 .java 文件轉換成了…

Deepseek的MLA技術原理介紹

DeepSeek的MLA(Multi-head Latent Attention)技術是一種創新的注意力機制,旨在優化Transformer模型的計算效率和內存使用,同時保持模型性能。以下是MLA技術的詳細原理和特點: 1. 核心思想 MLA技術通過低秩聯合壓縮技術,將多個注意力頭的鍵(Key)和值(Value)映射到一…

QML初識

目錄 一、關于QML 二、布局定位和錨點 1.布局定位 2.錨點詳解 三、數據綁定 1.基本概念 2.綁定方法 3.數據模型綁定 四、附加屬性及信號 1.附加屬性 2.信號 一、關于QML QML是Qt框架中的一種聲明式編程語言,用于描述用戶界面的外觀和行為;Qu…

java項目之美妝產品進銷存管理系統的設計與開發源碼(ssm+mysql)

項目簡介 美妝產品進銷存管理系統的設計與開發實現了以下功能: 美妝產品進銷存管理系統的設計與開發的主要使用者分為管理員登錄后修改個人的密碼。產品分類管理中,對公司內的所有產品分類進行錄入,也可以對產品分類進行修改和刪除。產品管…

Python(pymysql包)操作MySQL【增刪改查】

下載pymysql: pip install pymysql 在MySQL中創建數據庫:unicom create database unicom DEFAULT CHARSET utf8 COLLATE utf8_general_ci;use unicom; 在unicom中創建數據表:admin create table admin(id int not null primary key auto_i…

日志2025.2.9

日志2025.2.9 1.增加了敵人揮砍類型 2.增加了敵人的死亡狀態 在敵人身上添加Ragdoll,死后激活布偶模式 public class EnemyRagdoll : MonoBehaviour { private Rigidbody[] rigidbodies; private Collider[] colliders; private void Awake() { rigidbodi…

HTTP無狀態的概念以及對后端服務的設計會產生的影響

HTTP無狀態(Statelessness) 是指每個HTTP請求都是獨立的,服務器不會記住或依賴于前一個請求的任何信息。每次請求的處理都與其他請求沒有直接關系。也就是說,服務器在處理請求時,不會存儲關于客戶端狀態的信息。 一、HTTP無狀態的具體含義 ①每個請求獨立:每個請求包含了…

操作系統—進程與線程

補充知識 PSW程序狀態字寄存器PC程序計數器:存放下一條指令的地址IR指令寄存器:存放當前正在執行的指令通用寄存器:存放其他一些必要信息 進程 進程:進程是進程實體的運行過程,是系統進行資源分配和調度的一個獨立單位…

python:面向對象案例烤雞翅

自助烤雞翅的需求: 1.烤雞翅的時間和對應的狀態: 0-4min :生的 4-7min:半生不熟 7-12min:熟了 12min以上:烤糊了 2.添加調料: 客戶根據自己的需求添加 定義烤雞翅的類、屬性和方法,顯示對象的信息 …

【基于SprintBoot+Mybatis+Mysql】電腦商城項目之上傳頭像和新增收貨地址

🧸安清h:個人主頁 🎥個人專欄:【Spring篇】【計算機網絡】【Mybatis篇】 🚦作者簡介:一個有趣愛睡覺的intp,期待和更多人分享自己所學知識的真誠大學生。 目錄 🚀1.上傳頭像 -持久…

Windows下ollama詳細安裝指南

文章目錄 1、Windows下ollama詳細安裝指南1.1、ollama介紹1.2、系統要求1.3、下載安裝程序1.4、安裝步驟1.5、驗證安裝1.6、環境變量配置1.7、模型選擇與安裝【deepseek 示例】1.7.1、拉取并運行模型1.7.2、進階使用技巧 1、Windows下ollama詳細安裝指南 1.1、ollama介紹 olla…

10vue3實戰-----實現登錄的基本功能

10vue3實戰-----實現登錄的基本功能 1.基本頁面的搭建2.賬號登錄的驗證規則配置3.點擊登錄按鈕4.表單的校驗5.賬號的登錄邏輯和登錄狀態保存6.定義IAccount對象類型 1.基本頁面的搭建 大概需要搭建成這樣子的頁面: 具體的搭建界面就不多講。各個項目都有自己的登錄界面&#…

RestTemplate Https 證書訪問錯誤

錯誤信息 resttemplate I/O error on GET request for “https://21.24.6.6:9443/authn-api/v5/oauth/token”: java.security.cert.CertificateException: No subject alternative names present; nested exception is javax.net.ssl.SSLHandshakeException: java.security.c…

講人話的理解ai學習原理

通過把各種東西打上分數標簽存起來。ai不花算力是不可能的,需要巨大的算力,需要要大量gpu芯片,如果大大降低成本,就需要蒸餾別人成果,把這些參數偷偷弄過來。 比如”貓睡在石頭上感覺很涼快,很舒服&#x…

【雜談】-文明的量子躍遷:AI時代人類物種的自我重構

文章目錄 文明的量子躍遷:AI時代人類物種的自我重構一、文明基因的雙螺旋進化二、意識矩陣的拓撲重構三、倫理穹頂下的共生協議 文明的量子躍遷:AI時代人類物種的自我重構 在撒哈拉沙漠的巖壁上,史前人類用赭石顏料繪制出羚羊與獵人的身影&a…

vue3 點擊圖標從相冊選擇二維碼圖片,并使用jsqr解析二維碼(含crypto-js加密解密過程)

vue3 點擊圖標從相冊選擇二維碼圖片,并使用jsqr解析二維碼(含crypto-js加密解密過程) 1.安裝 jsqr 和 crypto-js npm install -d jsqr npm install crypto-js2.在util目錄下新建encryptionHelper.js文件,寫加密解密方法。 // e…

支持多種網絡數據庫格式的自動化轉換工具——VisualXML

一、VisualXML軟件介紹 對于DBC、ARXML……文件的編輯、修改等繁瑣操作,WINDHILL風丘科技開發的總線設計工具——VisualXML,可輕松解決這一問題,提升工作效率。 VisualXML是一個強大且基于Excel表格生成多種網絡數據庫文件的轉換工具&#…

【JVM詳解四】執行引擎

一、概述 Java程序運行時,JVM會加載.class字節碼文件,但是字節碼并不能直接運行在操作系統之上,而JVM中的執行引擎就是負責將字節碼轉化為對應平臺的機器碼讓CPU運行的組件。 執行引擎是JVM核心的組成部分之一。可以把JVM架構分成三部分&am…

C++ 順序表

順序表的操作有以下: 1 順序表的元素插入 給定一個索引和元素,這個位置往后的元素位置都要往后移動一次,元素插入的步驟有以下幾步 (1)判斷插入的位置是否合法,如果不合法則拋出異常 (2&…

mysql安裝starting the server報錯

win10家庭版無法啟動服務的,先不要退出,返回上一欄,然后通過電腦搜索欄輸入服務兩個字,在里面找到mysql80,右鍵屬性-登錄,登錄身份切換為本地系統就行了