通過Whisper模型將YouTube播放列表中的視頻轉換成高質量文字稿的項目

項目簡介

一個通過Whisper模型將YouTube播放列表中的視頻轉換成高質量文字稿的項目。

這個基于 Python 的工具旨在將 YouTube 視頻和播放列表轉錄為文本。它集成了多種技術,例如用于轉錄的 Fast-Whisper、用于自然語言處理的 SpaCy 以及用于 GPU 加速的 CUDA,旨在高效處理視頻內容。該腳本能夠處理單個視頻和整個播放列表,輸出準確的文字記錄和元數據。項目核心內容:

1、YouTube下載:使用pytube下載YouTube視頻或播放列表的音頻。
2、音頻轉錄:利用faster_whisper.WhisperModel將音頻轉換成文字。
3、NLP處理:可選地整合SpaCy,用于改進句子分割,提高文字稿的可讀性和結構。
4、CUDA加速:實現CUDA支持,用于兼容硬件的處理速度提升。

這個工具適用于內容分析、輔助創建視頻字幕和封閉字幕、教育目的以及視頻內容的存檔和檢索。

功能概述

核心組件

  • YouTube 下載:使用 pytube 從 YouTube 視頻或播放列表下載音頻。

  • 音頻轉錄:利用 faster_whisper.WhisperModel 將音頻轉換為文本。該模型是 OpenAI 的 Whisper 的變體,旨在提高速度和準確性。

  • NLP 處理:可以選擇集成 SpaCy 以進行復雜的句子分割,從而增強轉錄本的可讀性和結構。

  • CUDA 加速:實現對 GPU 利用率的 CUDA 支持,提高兼容硬件的處理速度。

詳細工作流程

  1. 初始化:

    • 該腳本首先根據 convert_single_video 標志確定是處理單個視頻還是播放列表。

    • 它設置必要的目錄來存儲下載的音頻、文字記錄和元數據。

  2. 環境配置:

    • 將 CUDA Toolkit 路徑添加到系統環境以供 GPU 使用。

    • 根據 CPU 核心數配置用于轉錄的工作線程數量。

  3. 視頻處理:

    • 對于播放列表中的每個視頻或單個視頻,腳本都會下載音頻。

    • 它確保每個音頻文件的唯一命名以避免覆蓋。

  4. 轉錄:

    • 音頻文件被傳遞到 WhisperModel 進行轉錄。

    • 如果可用,該腳本會處理 GPU 加速,否則默認為 CPU。

    • 使用 SpaCy 或基于自定義正則表達式的拆分器將轉錄結果拆分為句子。

  5. 元數據生成:

    • 除了腳本之外,腳本還會生成元數據,包括每個片段的時間戳和置信度分數。

  6. 輸出:

    • 記錄以純文本、CSV 和 JSON 格式保存,提供原始記錄和結構化元數據。

  7. 顯示/讀取:

    • 為了使文字記錄更易于閱讀,提供了一個 html 文件 transcript_reader.html ,它可以進一步清理并提供“閱讀器模式”,您可以在其中選擇字體、文本大小、文本寬度和切換深色模式。只需在瀏覽器中打開此 html 文件,然后粘貼 generated_transcript_combined_texts 文件夾中生成的文件之一的轉錄文本即可。

圖片

實際操作的屏幕截圖

圖片

圖片

將成績單文本粘貼到成績單閱讀器 HTML 文件中使用深色模式和 Cambria 字體的閱讀器

項目鏈接

https://github.com/Dicklesworthstone/bulk_transcribe_youtube_videos_from_playlist

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/163264.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/163264.shtml
英文地址,請注明出處:http://en.pswp.cn/news/163264.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

pytest測試框架介紹(1)

又來每天進步一點點啦~~~ 一、Pytest介紹: pytest 是一個非常成熟的全功能的Python測試框架; pytest 簡單、靈活、易上手; 支持參數化 能夠支持簡單的單元測試和復雜的功能測試,可以做接口自動化測試(pytestrequests&…

根據商品鏈接獲取拼多多商品詳情數據接口|拼多多商品詳情價格數據接口|拼多多API接口

拼多多,作為中國最大的社交電商之一,為賣家提供了豐富的商品詳情接口。這些接口可以幫助賣家快速獲取商品信息,提高銷售效率。本文將詳細介紹如何使用拼多多商品詳情接口,以及它的優勢和注意事項。 一、拼多多商品詳情接口概述 …

Picasso網絡原生PICA Token通過XCM集成進入Moonriver生態

波卡上的首選多鏈開發平臺Moonbeam宣布Moonriver和Picasso(分別為Moonbeam和Composable Finance的Kusama對應平行鏈)已達成XCM集成。該集成將Picasso的PICA Token引入Moonriver生態系統使用,并允許用戶在Picasso網絡上使用MOVR。兩條平行鏈都…

大宗商品貿易集團數據治理實踐,夯實數字基座 | 數字化標桿

某大型央企是首批全國供應鏈創新與應用示范企業,在“十四五”規劃期內以聚焦供應鏈管理核心主業作為主要戰略發展方向。供應鏈運營管理以大宗商品貿易為主,其交易往往具有交易量巨大、交易環節復雜、風險交易難識別、風險客商難管控等痛點。 隨著集團數…

豬肉罐頭加工污水處理設備生產廠家價格

豬肉罐頭加工污水處理設備生產廠家價格 設備原理 廢水由收集管網收集,自流進入格柵渠,通過格柵除污機去除大塊碎肉、漂浮物,入初沉池把有利于沉淀的非溶解物質加以沉淀,然后自流進入調節池,由調節池調節水量和均化水質…

五分鐘搭建開源ERP:Odoo,并實現公網遠程訪問

文章目錄 前言1. 下載安裝Odoo:2. 實現公網訪問Odoo本地系統:3. 固定域名訪問Odoo本地系統 前言 Odoo是全球流行的開源企業管理套件,是一個一站式全功能ERP及電商平臺。 開源性質:Odoo是一個開源的ERP軟件,這意味著企…

小豬優版的前世今生:從籍籍無名到行業矚目,再到驟變的風暴中心

1. 前世:籍籍無名到行業新星的崛起 小豬優版在初創時期,并不被大眾所知。然而,它憑借對短視頻行業的深度洞察,以及獨特的商業模式,開始在這個領域嶄露頭角。它提供了一個平臺,不僅助力內容創作者更好地展現…

使用whisper實現語音轉文本

項目地址:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision 1、需要py3.8環境 conda activate p38 2、安裝 pip install -U openai-whisper 3、下載項目 pip install githttps://github.com/openai/whisper.git 4、安裝…

6:kotlin 空值安全(Null safety)

在Kotlin中,是可以有空值的。為了防止程序中出現空值問題,Kotlin實施了空值安全。空值安全在編譯時而不是運行時檢測到可能的空值問題。 空值安全是一組功能的組合,允許您: 明確聲明程序中允許空值的地方。檢查空值。對可能包含…

如何避免Steam搬磚項目中賬號被盜

購買steam余額有風險嗎?及N種被紅鎖的情況 相信最近很多人都已經聽說過steam游戲搬磚這個項目,也叫CSGO游戲搬磚項目,還有人叫它:國外steam游戲匯率差項目,無論怎么稱呼,都是同一個項目。 那么什么是stea…

2022-4-10 臺大機器人學 軌跡

臺大機器人學 運動學 軌跡規劃 多段 linear function with parabolic blends 直線轉二次曲線平滑過多個中間via points

Fuzzy c-means

Fuzzy c-means ? 模糊C-均值聚類算法:是一種模糊聚類算法,是K均值算法聚類的推廣形式,隸屬度取值為[0,1]區間內的任意一個數,提出的基本依據是“類內加權誤差平方和最小化”準則。 ? 這兩個方法都是迭代求取最終的聚類劃分&am…

潑天的富貴來啦,快帶著你的PMP證書一起迎接

考過PMP認證的威寶們,這波潑天的富貴大家一定要接住呀! 很多威寶們在學習PMP之前都在擔心,這個證書含金量高嗎?轉崗跳槽用得上嗎?有必要考嗎?今天,喜番大聲地告訴大家:含金量高&…

Class文件轉Java文件

目錄 1、下載一個反編譯工具2、在文件夾下打開命令窗口3、在此目錄下隨意建一個文件夾4、在打開的命令窗口輸入命令5、返回解壓目錄下 1、下載一個反編譯工具 下載鏈接:https://varaneckas.com/jad/ 下載的是第一個 下載后放至任意目錄下解壓即可 2、在文件夾下打…

夜天之書 #88 Elastic License 2.0 與開源協議的發展

譯序 我在此前的多篇文章中討論了商業開源的話題: 《企業開源的軟件協議模型實踐》《企業實踐開源的動機》《商業源碼協議為何得到 HashiCorp 等企業的垂青?》《企業如何實踐開源協同》《中國不缺好的開源開發者》“商業探索與可持續”一節《開源不是商業…

JetLinks設備接入的認識與理解【woodwhales.cn】

為了更好的閱讀體驗,建議移步至筆者的博客閱讀:JetLinks設備接入的認識與理解 1、認識 JetLinks 1.1、官網文檔 官網:https://www.jetlinks.cn/ JetLinks 有兩個產品:JetLinks-lot和JetLinks-view 官方文檔: JetLi…

【自然語言處理】正向最大匹配算法(FMM),反向最大匹配算法(BMM)和雙向最大匹配算法(BM)原理及實現

目錄 一,正向最大匹配算法(FMM) 二,反向最大匹配算法(RMM) 一,正向最大匹配算法(FMM) 正向最大匹配分詞(Forward maximum matching segmentation)通常簡稱為…

沒有PDF密碼,如何解密?

PDF文件有兩種密碼,一個打開密碼、一個限制編輯密碼,因為PDF文件設置了密碼,那么打開、編輯PDF文件就會受到限制。忘記了PDF密碼該如何解密? PDF和office一樣,可以對文件進行加密,但是沒有提供恢復密碼的功…

powshell 不能運行腳本

1、先執行: Set-ExecutionPolicy -Scope CurrentUser 2、再輸入: remotesigned

win10下安裝gcc

win10下安裝gcc 一、gcc是什么? 1.1、安裝gcc 第一次安裝,記錄一下 一、gcc是什么? GNU編譯器套件(GNU Compiler Collection)包括C、C、Objective-C、Fortran、Java、Ada和Go語言的前端,也包括了這些語言的庫(如libstdc、libgcj等等…