在這個科技日新月異的時代,人工智能不斷刷新著我們對世界的認知。一次偶然的機會,我借助北京藍耘科技股份有限公司提供的算力支持,踏上了使用通義萬相 2.1 進行 AI 視頻生成的奇妙之旅。
目錄
1.1初遇藍耘科技:
1.2通義萬相 2.1:AI 視頻生成的革新者:
1.3藍耘與通義萬相 2.1 的深度結合:
算力支撐層面的結合:
技術服務層面的結合:
應用拓展層面的結合:
藍耘如何注冊使用:
新手如何快速藍耘部署通義萬相 2.1:?
使用藍耘的算力資源調用通義萬相的 API 完成視頻生成部署:
1. 準備工作:
2. 代碼效果:
3. 說明:
1.4代碼調用:開啟探索之門:
搭建開發環境:
安裝依賴包:
簡單場景視頻生成:
多元素場景視頻生成:
帶運鏡效果的視頻生成:
1.5個人實踐感受:
1.6藍耘在 AI 視頻生成領域的未來發展:
1.7AI 視頻生成技術的現實意義:
1.1初遇藍耘科技:
藍耘科技,一家在信息技術領域深耕多年的企業,成立于 2004 年,注冊資本 2500 萬。多年來,它不僅在 IT 產品分銷、系統集成等傳統業務上成績斐然,還在全國 26 個省市構建起了廣泛的業務網絡。2017 年成功在新三板掛牌,更是其發展歷程中的重要里程碑。
近年來,隨著人工智能浪潮的興起,藍耘科技積極轉型,在 GPU 算力解決方案與算力云服務領域大展拳腳。他們為有高性能計算需求的客戶提供了便捷、高效的算力支持,這為我后續使用通義萬相 2.1 進行視頻生成奠定了堅實的基礎。
1.2通義萬相 2.1:AI 視頻生成的革新者:
通義萬相 2.1 是阿里云通義大模型家族的杰出代表。2025 年 1 月一經推出,便在 AI 視頻生成領域引起了軒然大波。它推出了極速版和專業版兩個版本,在權威的 VBench Leaderboard 評測榜單上力壓群雄,以 84.7% 的總分登頂。
其優勢十分顯著。首創的中文文字生成功能,讓我們可以輕松在視頻中添加具有電影級效果的中英文文字特效;在復雜運動生成方面,能穩定呈現各種高難度動作,解決了以往模型動作不協調的問題;靈活的運鏡控制能力,只需在文本中描述鏡頭移動,就能生成節奏把控精準的視頻;還能真實模擬物理規律,讓生成的視頻更加貼近現實。
1.3藍耘與通義萬相 2.1 的深度結合:
藍耘科技與通義萬相 2.1 的結合是一場技術與需求的完美邂逅,雙方優勢互補,為 AI 視頻生成領域帶來了新的活力。
算力支撐層面的結合:
通義萬相 2.1 強大的視頻生成能力背后,是對高性能算力的巨大需求。尤其是在處理復雜場景、高分辨率視頻生成時,模型的運算量呈指數級增長。藍耘科技多年來在 GPU 算力解決方案與算力云服務領域的深厚積累,正好為通義萬相 2.1 提供了堅實的算力后盾。
藍耘構建了大規模、高性能的 GPU 集群,這些集群具備強大的并行計算能力,能夠快速處理通義萬相 2.1 模型在視頻生成過程中的復雜計算任務。通過優化硬件架構和資源分配算法,藍耘確保了每一個使用通義萬相 2.1 的用戶都能獲得穩定、高效的算力支持。例如,在我生成 “在繁華都市街頭舉行盛大派對” 這樣復雜場景的視頻時,如果沒有藍耘提供的強大算力,視頻生成的時間可能會成倍增加,甚至可能因為算力不足而無法完成。
技術服務層面的結合:
除了算力支持,藍耘科技還為通義萬相 2.1 的用戶提供了全方位的技術服務。在用戶使用過程中,遇到的任何技術問題都可以及時得到藍耘專業技術團隊的支持。
對于像我這樣在代碼調用過程中遇到困難的用戶,藍耘的技術人員會耐心地幫助我分析問題、解決問題。當我在安裝?flash_attn
?依賴包遇到錯誤時,藍耘的技術支持人員通過遠程協助,幫我排查錯誤原因,并提供了詳細的解決方案。他們還會定期對用戶進行回訪,了解用戶的使用體驗和需求,根據反饋不斷優化服務。
應用拓展層面的結合:
藍耘科技憑借其廣泛的業務網絡和行業資源,積極推動通義萬相 2.1 在各個行業的應用拓展。藍耘深入了解不同行業的需求特點,將通義萬相 2.1 的技術優勢與行業需求相結合,開發出一系列針對性的解決方案。
在電商行業,藍耘與通義萬相 2.1 合作,為商家提供快速、高質量的產品展示視頻生成服務。商家只需提供產品的圖片和簡單描述,就能利用通義萬相 2.1 生成生動、吸引人的視頻,大大提高了商品的展示效果和銷售轉化率。在影視制作行業,藍耘協助制作團隊利用通義萬相 2.1 進行前期創意構思和概念視頻制作,縮短了制作周期,降低了制作成本。
藍耘如何注冊使用:
點擊鏈接:https://cloud.lanyun.net//#/registerPage?promoterCode=0131
只需要兩步快速完成:
新手如何快速藍耘部署通義萬相 2.1:?
?
進入的畫面:
下面我們把這段話輸入進去:
在光線柔和的臥室里,曉妍慵懶地斜倚在蓬松的靠枕上,全身心沉浸于手中那方小小的世界。她的手指在手機屏幕上靈動跳躍,時而輕輕點擊,時而快速滑動,如同一位嫻熟的鋼琴師在彈奏一首輕快的樂章。
?此刻,她正刷著社交媒體,一張張精美的圖片、一段段詼諧的文字讓她目不暇接。看到有趣之處,她嘴角不自覺上揚,眼眸里閃爍著愉悅的光芒,發出清脆的笑聲,打破了房間的寧靜。偶爾,她會停下滑動的手指,歪著頭思考片刻,然后在評論區迅速敲下自己的想法,點擊發送后,又滿懷期待地等待著他人的回復,眼神中滿是專注與投入 。
?公交站臺邊,阿宇在喧囂中站定,從兜里掏出手機。他的拇指在屏幕上機械地劃動,目光緊鎖屏幕,公交車進站的廣播聲、周圍行人的嘈雜聲,都被他自動屏蔽在外。手機屏幕散發的冷光映照著他略顯疲憊的臉,他正瀏覽著體育新聞,一場激烈的籃球賽事戰報緊緊抓住了他的注意力。看到支持球隊獲勝的消息,他微微握拳,低聲輕呼 “漂亮”,眼神瞬間明亮起來,仿佛置身于熱血沸騰的比賽現場,絲毫沒察覺到身邊乘客投來的異樣目光 。
生成的視頻效果:
生成視頻
使用藍耘的算力資源調用通義萬相的 API 完成視頻生成部署:
1. 準備工作:
- 獲取 API 密鑰:在阿里云控制臺獲取通義萬相 API 的訪問密鑰(AccessKey ID 和 AccessKey Secret)。
- 安裝必要的 Python 庫:使用?
pip
?安裝阿里云 SDK 相關庫。
pip install aliyun-python-sdk-core-v3
pip install aliyun-python-sdk-imagerecog
2. 代碼效果:
如何使用通義萬相 API 進行視頻生成:
# 導入必要的庫
from aliyunsdkcore.client import AcsClient
from aliyunsdkcore.acs_exception.exceptions import ClientException
from aliyunsdkcore.acs_exception.exceptions import ServerException
from aliyunsdkimagerecog.request.v20190930.GenerateVideoRequest import GenerateVideoRequest
import json# 配置阿里云客戶端
access_key_id = 'your_access_key_id' # 替換為你的 AccessKey ID
access_key_secret = 'your_access_key_secret' # 替換為你的 AccessKey Secret
region_id = 'cn-shanghai' # 替換為你選擇的區域 IDclient = AcsClient(access_key_id, access_key_secret, region_id)# 構建視頻生成請求
request = GenerateVideoRequest()
request.set_accept_format('json')# 設置請求參數
# 視頻生成的文本描述
prompt = "在一個美麗的花園中,花朵盛開,蝴蝶飛舞。"
# 你可以根據需要添加更多參數,如視頻時長、分辨率等
params = {"prompt": prompt,"duration": 10, # 視頻時長,單位為秒"resolution": "1920x1080" # 視頻分辨率
}
request.set_content(json.dumps(params).encode('utf-8'))try:# 發送請求response = client.do_action_with_exception(request)response_json = json.loads(response)print("視頻生成請求成功:")print(response_json)# 這里可以根據返回結果進一步處理,如獲取視頻的下載鏈接等if 'Data' in response_json and 'VideoUrl' in response_json['Data']:video_url = response_json['Data']['VideoUrl']print(f"生成的視頻下載鏈接:{video_url}")
except ClientException as e:print(f"客戶端異常:{e}")
except ServerException as e:print(f"服務器異常:{e}")
3. 說明:
- 客戶端配置:使用?
AcsClient
?初始化阿里云客戶端,需要提供?AccessKey ID
、AccessKey Secret
?和區域 ID。- 請求構建:創建?
GenerateVideoRequest
?對象,并設置請求的格式為 JSON。- 參數設置:將視頻生成的文本描述、時長、分辨率等參數封裝在一個字典中,并轉換為 JSON 字符串設置到請求內容中。
- 發送請求:使用?
client.do_action_with_exception
?方法發送請求,并處理可能的客戶端異常和服務器異常。- 結果處理:根據返回的 JSON 結果,獲取視頻的下載鏈接等信息。
1.4代碼調用:開啟探索之門:
搭建開發環境:
我首先要做的就是搭建一個合適的開發環境。我選擇使用 conda 來創建一個 Python 虛擬環境,這樣可以確保項目依賴的獨立性。
conda create -n wan python=3.10
conda activate wan
看著命令行中虛擬環境創建成功的提示信息,我仿佛看到了一個全新的技術世界在向我敞開大門。接著,我從通義萬相 2.1 的官方代碼庫中克隆項目代碼。
git clone https://github.com/Wan-Video/Wan2.1.git
這一步就像是拿到了進入寶藏庫的鑰匙,讓我離探索 AI 視頻生成的奧秘又近了一步。
安裝依賴包:
進入項目目錄后,安裝依賴包成了首要任務。這些依賴包是項目運行的基石,缺一不可。
cd Wan2.1
pip install -r requirements.txt
然而,安裝過程并非一帆風順。flash_attn
?的安裝出現了錯誤,錯誤提示信息在屏幕上不斷閃爍,讓我有些焦慮。我趕緊查閱官方文檔和相關技術論壇,嘗試了多種解決方法。最終,我決定先在?requirements.txt
?中注釋掉?flash_attn
,完成其他依賴包的安裝后,再單獨安裝?flash_attn
。
# 先注釋掉 requirements.txt 中的 flash_attn
sed -i 's/flash_attn/#flash_attn/g' requirements.txt
pip install -r requirements.txt
# 單獨安裝 flash_attn
pip install flash_attn
經過一番折騰,依賴包終于全部安裝成功,我長舒了一口氣,也更加堅定了繼續探索的決心。
簡單場景視頻生成:
一切準備就緒后,我迫不及待地開始嘗試生成視頻。我先從一個簡單的場景入手,打算生成一個 “清晨,一只小鳥在枝頭歡快歌唱” 的視頻。
from diffusers import DiffusionPipeline
import torch# 加載通義萬相 2.1 模型
pipe = DiffusionPipeline.from_pretrained("Wan-Video/Wan2.1", torch_dtype=torch.float16)
# 將模型加載到 GPU 上以加速運算
pipe = pipe.to("cuda")# 設置描述視頻場景的文本提示
prompt = "清晨,陽光輕柔地灑在翠綠的樹枝上,一只小巧玲瓏的小鳥站在枝頭,歡快地歌唱著,它的羽毛在陽光下閃耀著金色的光芒。"
# 生成視頻
video = pipe(prompt).videos[0]
# 保存生成的視頻
video.save("bird_singing.mp4")
當我運行這段代碼時,內心充滿了期待。看著代碼逐行執行,進度條緩緩前進,仿佛是在見證一個神奇的魔法過程。終于,視頻生成完成,我興奮地打開?bird_singing.mp4
?文件,視頻中的畫面讓我眼前一亮。小鳥的姿態栩栩如生,歌聲仿佛都能透過屏幕傳出來,通義萬相 2.1 的強大功能讓我驚嘆不已。
多元素場景視頻生成:
為了進一步挑戰通義萬相 2.1 的能力,我決定嘗試生成一個包含多個元素的復雜場景視頻。我想生成一個 “在一個美麗的海濱沙灘上,一群孩子在堆沙堡,海浪一波波地涌來,遠處的帆船在海風中搖曳” 的視頻。
from diffusers import DiffusionPipeline
import torch# 加載通義萬相 2.1 模型
pipe = DiffusionPipeline.from_pretrained("Wan-Video/Wan2.1", torch_dtype=torch.float16)
# 將模型加載到 GPU 上以加速運算
pipe = pipe.to("cuda")# 設置詳細的文本提示
prompt = "在一個陽光明媚的日子里,一片金黃的海濱沙灘上,一群天真可愛的孩子正興致勃勃地堆著沙堡。他們的笑聲回蕩在空氣中,五彩的小鏟子和水桶散落在一旁。不遠處,海浪帶著白色的泡沫一波波地涌來,輕輕地拍打著沙灘。而在遙遠的海平面上,幾艘帆船在輕柔的海風中緩緩搖曳,帆影在陽光下閃爍著銀光。"
# 設置負面提示,避免生成不希望出現的效果
negative_prompt = "模糊,畫面抖動,顏色失真"
# 調整推理步數和引導比例以優化視頻生成效果
video = pipe(prompt, negative_prompt=negative_prompt, num_inference_steps=70, guidance_scale=8.5).videos[0]
# 保存生成的視頻
video.save("beach_scene.mp4")
這次生成視頻的時間明顯比上次長,我在等待的過程中不斷想象著視頻的樣子。當視頻最終生成時,我被眼前的畫面震撼了。孩子們堆沙堡的動作生動自然,海浪的涌動和帆船的搖曳都十分逼真,仿佛我真的置身于那片美麗的海濱沙灘上。
帶運鏡效果的視頻生成:
我還想嘗試利用通義萬相 2.1 的運鏡控制功能,生成一個具有獨特視角的視頻。我打算生成一個 “在古老的城堡中,鏡頭從城堡的大門緩緩推進,穿過長長的走廊,最后停在一間擺滿珍寶的房間” 的視頻。
from diffusers import DiffusionPipeline
import torch# 加載通義萬相 2.1 模型
pipe = DiffusionPipeline.from_pretrained("Wan-Video/Wan2.1", torch_dtype=torch.float16)
# 將模型加載到 GPU 上以加速運算
pipe = pipe.to("cuda")# 設置帶有運鏡描述的文本提示
prompt = "在一座古老而神秘的城堡中,鏡頭從城堡那厚重的大門開始緩緩推進,大門上的鐵環在微弱的光線下閃爍著寒光。鏡頭沿著長長的走廊前行,走廊兩側的壁燈散發著昏黃的光,墻壁上掛著一幅幅古老的油畫。最后,鏡頭停在一間擺滿珍寶的房間,房間里的珠寶在燈光下閃耀著五彩的光芒。"
# 設置負面提示
negative_prompt = "畫面卡頓,陰影不自然"
# 調整參數
video = pipe(prompt, negative_prompt=negative_prompt, num_inference_steps=80, guidance_scale=9.0).videos[0]
# 保存生成的視頻
video.save("castle_journey.mp4")
運行代碼后,我目不轉睛地盯著屏幕,看著視頻一點點生成。當我打開?castle_journey.mp4
?時,那流暢的運鏡效果讓我仿佛親身經歷了一場城堡探險之旅,通義萬相 2.1 的運鏡控制能力讓我大為折服。
1.5個人實踐感受:
通過這段時間使用藍耘科技提供的算力支持和通義萬相 2.1 進行視頻生成的實踐,我收獲頗豐。從技術層面來看,雖然在代碼調用過程中遇到了不少問題,但每一次解決問題都是一次成長的機會。我不僅提高了自己的編程能力,還對 AI 視頻生成技術有了更深入的理解。
從創意層面來看,通義萬相 2.1 為我打開了一扇創意的大門。以往那些只能在腦海中想象的場景,如今只需通過文字描述就能輕松變成生動的視頻,這讓我的創意得到了前所未有的釋放。
然而,我也意識到目前的技術還存在一些不足。模型對硬件資源的需求較高,生成復雜視頻時所需的時間較長,而且在一些細節處理上還可以進一步優化。
1.6藍耘在 AI 視頻生成領域的未來發展:
展望未來,藍耘科技在 AI 視頻生成領域有著巨大的發展潛力。憑借其在算力服務方面的深厚積累,藍耘可以進一步優化與通義萬相 2.1 的適配,提高模型的運行效率和穩定性。通過不斷投入研發,探索更高效的硬件架構和算法優化方案,降低算力成本,讓更多用戶能夠輕松享受到 AI 視頻生成的樂趣。
在業務拓展方面,藍耘可以與更多行業展開合作,將 AI 視頻生成技術應用到各個領域。例如,在游戲開發中,利用該技術快速生成游戲宣傳視頻和過場動畫;在文旅行業,為旅游景點生成沉浸式的宣傳視頻,吸引更多游客。通過與不同行業的深度融合,藍耘能夠開拓更廣闊的市場空間,推動 AI 視頻生成技術的普及和應用。
1.7AI 視頻生成技術的現實意義:
AI 視頻生成技術的出現,具有深遠的現實意義。在內容創作領域,它極大地提高了創作效率,降低了創作門檻。無論是個人創作者還是專業團隊,都能借助這一技術快速產出高質量的視頻內容,豐富了內容生態。
在商業營銷方面,企業可以利用 AI 視頻生成技術制作更具吸引力的廣告視頻,精準觸達目標客戶,提高營銷效果。同時,還能根據不同地區、不同客戶群體的需求,快速生成個性化的視頻廣告,實現精準營銷。
從社會層面來看,AI 視頻生成技術有助于文化的傳承和傳播。通過生成生動有趣的歷史文化視頻、科普視頻等,能夠讓更多人了解和熱愛傳統文化,提高公眾的文化素養。
總的來說,這次與藍耘科技和通義萬相 2.1 的合作是一次非常有意義的經歷。我相信,隨著技術的不斷發展和完善,AI 視頻生成技術將會在更多領域發揮重要作用,為我們的生活和社會帶來更多的改變和驚喜。我也期待著未來能夠繼續參與到這項技術的探索和應用中,見證它創造更多的奇跡。
注冊鏈接:https://cloud.lanyun.net//#/registerPage?promoterCode=0131