近期,OpenAI正式發布語音大模型GPT-4o,可以綜合利用語音、文本和視覺信息進行推理,扮演一個個人語音交互助手。
在音頻處理方面,它不僅能識別和轉錄多種口音和方言,改變語音的速度音調和振動,還能進行聲音模仿和合成,創造出自然流暢的語音內容。
高質量語音數據不僅可以豐富大語言模型處理和生成語音的能力,還能影響模型對語言深層次意義的理解,是推動人工智能邁向更加全面、自然交互的關鍵要素。
景聯文科技是一家專業的大模型數據服務商,推出語音大模型數據庫,致力于為不同訓練階段的算法精準匹配高質量數據資源。
語音大模型數據
普通話 65萬小時真實人音,無背景雜音,24k真實采樣率
數據規模
總時長:大于65萬小時
播音人數:大于10000人
內容規模:大于6000本(部)
數據內容
語音語言: 中文普通話
語音來源: 真人主播;涵蓋男女老少
內容形式: 包括單人、雙人及多人錄制的有聲書和廣播(影視)劇;其中有聲書類型包括各類玄幻、都市、言情等網絡小說和暢銷出版物;廣播(影視)劇包括小說、經典影視劇等改編錄制。
質量參數
語音質量評估(PESQ)> 2
信噪比(SI-SDR)> 10
真實采樣率> 20K(其中大于24K 的占比超過95% ),單通道
交付內容和格式?
交付物內容:
語音文件+數據清單.xlsx
交付物總大小: 約150TB
數據準確率99%,所有數據均經過嚴格流程質檢。
該數據集提供了豐富、清晰、準確的語音語料,主播不僅涵蓋了男女老少真人的口音和不同語速,還包括了不同的情感、語調和表達方式。經過我司嚴格的篩選和編輯,確保語音的品質和格式符合大模型訓練的需求。
景聯文科技擁有豐富的語音數據采集項目經驗,自建了專業的語音采集錄音室,有高度還原真實場景能力,在全國30多個省市有近一萬人的被采集人員儲備,全球范圍內也有采集渠道,支持多語種、多方言語音采集。支持語音識別ASR采集、語音合成TTS采集、喚醒詞采集、多人對話采集、車載語音采集、普通話采集、方言采集、英語采集、小語種采集、近遠場采集、語音VAD采集等。
支持AI算法預處理,支持本地化部署和SAAS服務。通過智能化的標注平臺產品賦能AI訓練數據行業,能夠有效提高人機協作效率擴大產能,及時調整方案做好逾期風險管控,準確把控數據質量問題,為語音相關企業提供處理大語音數據的能力,節省企業的時間和開發成本,實現人力驅動向技術驅動的重要升級,為行業賦能。
獲取樣例請登錄景聯文科技官網咨詢客服。https://www.jinglianwen.com/ai/
或直接發送需求至郵箱:lx@jinglianwen.com
景聯文科技|數據采集|數據標注|大語言模型數據集
助力人工智能技術,賦能傳統產業智能化轉型升級
文章圖文著作權歸景聯文科技所有,商業轉載請聯系景聯文科技獲得授權,非商業轉載請注明出處。