通義萬相 2.1 + 藍耘算力，AI 視頻生成的夢幻組合

在這個科技日新月異的時代，人工智能不斷刷新著我們對世界的認知。一次偶然的機會，我借助北京藍耘科技股份有限公司提供的算力支持，踏上了使用通義萬相 2.1 進行 AI 視頻生成的奇妙之旅。

1.1初遇藍耘科技：

1.2通義萬相 2.1：AI 視頻生成的革新者:

1.3藍耘與通義萬相 2.1 的深度結合:

算力支撐層面的結合:

技術服務層面的結合:

應用拓展層面的結合:

藍耘如何注冊使用：

新手如何快速藍耘部署通義萬相 2.1：?

使用藍耘的算力資源調用通義萬相的 API 完成視頻生成部署：

1. 準備工作：

2. 代碼效果：

3. 說明：

1.4代碼調用：開啟探索之門:

搭建開發環境:

安裝依賴包:

簡單場景視頻生成:

多元素場景視頻生成:

帶運鏡效果的視頻生成:

1.5個人實踐感受:

1.6藍耘在 AI 視頻生成領域的未來發展:

1.7AI 視頻生成技術的現實意義:

1.1初遇藍耘科技：

藍耘科技，一家在信息技術領域深耕多年的企業，成立于 2004 年，注冊資本 2500 萬。多年來，它不僅在 IT 產品分銷、系統集成等傳統業務上成績斐然，還在全國 26 個省市構建起了廣泛的業務網絡。2017 年成功在新三板掛牌，更是其發展歷程中的重要里程碑。

近年來，隨著人工智能浪潮的興起，藍耘科技積極轉型，在 GPU 算力解決方案與算力云服務領域大展拳腳。他們為有高性能計算需求的客戶提供了便捷、高效的算力支持，這為我后續使用通義萬相 2.1 進行視頻生成奠定了堅實的基礎。

1.2通義萬相 2.1：AI 視頻生成的革新者:

通義萬相 2.1 是阿里云通義大模型家族的杰出代表。2025 年 1 月一經推出，便在 AI 視頻生成領域引起了軒然大波。它推出了極速版和專業版兩個版本，在權威的 VBench Leaderboard 評測榜單上力壓群雄，以 84.7% 的總分登頂。

其優勢十分顯著。首創的中文文字生成功能，讓我們可以輕松在視頻中添加具有電影級效果的中英文文字特效；在復雜運動生成方面，能穩定呈現各種高難度動作，解決了以往模型動作不協調的問題；靈活的運鏡控制能力，只需在文本中描述鏡頭移動，就能生成節奏把控精準的視頻；還能真實模擬物理規律，讓生成的視頻更加貼近現實。

1.3藍耘與通義萬相 2.1 的深度結合:

藍耘科技與通義萬相 2.1 的結合是一場技術與需求的完美邂逅，雙方優勢互補，為 AI 視頻生成領域帶來了新的活力。

算力支撐層面的結合:

通義萬相 2.1 強大的視頻生成能力背后，是對高性能算力的巨大需求。尤其是在處理復雜場景、高分辨率視頻生成時，模型的運算量呈指數級增長。藍耘科技多年來在 GPU 算力解決方案與算力云服務領域的深厚積累，正好為通義萬相 2.1 提供了堅實的算力后盾。

藍耘構建了大規模、高性能的 GPU 集群，這些集群具備強大的并行計算能力，能夠快速處理通義萬相 2.1 模型在視頻生成過程中的復雜計算任務。通過優化硬件架構和資源分配算法，藍耘確保了每一個使用通義萬相 2.1 的用戶都能獲得穩定、高效的算力支持。例如，在我生成 “在繁華都市街頭舉行盛大派對” 這樣復雜場景的視頻時，如果沒有藍耘提供的強大算力，視頻生成的時間可能會成倍增加，甚至可能因為算力不足而無法完成。

技術服務層面的結合:

除了算力支持，藍耘科技還為通義萬相 2.1 的用戶提供了全方位的技術服務。在用戶使用過程中，遇到的任何技術問題都可以及時得到藍耘專業技術團隊的支持。

對于像我這樣在代碼調用過程中遇到困難的用戶，藍耘的技術人員會耐心地幫助我分析問題、解決問題。當我在安裝?flash_attn?依賴包遇到錯誤時，藍耘的技術支持人員通過遠程協助，幫我排查錯誤原因，并提供了詳細的解決方案。他們還會定期對用戶進行回訪，了解用戶的使用體驗和需求，根據反饋不斷優化服務。

應用拓展層面的結合:

藍耘科技憑借其廣泛的業務網絡和行業資源，積極推動通義萬相 2.1 在各個行業的應用拓展。藍耘深入了解不同行業的需求特點，將通義萬相 2.1 的技術優勢與行業需求相結合，開發出一系列針對性的解決方案。

在電商行業，藍耘與通義萬相 2.1 合作，為商家提供快速、高質量的產品展示視頻生成服務。商家只需提供產品的圖片和簡單描述，就能利用通義萬相 2.1 生成生動、吸引人的視頻，大大提高了商品的展示效果和銷售轉化率。在影視制作行業，藍耘協助制作團隊利用通義萬相 2.1 進行前期創意構思和概念視頻制作，縮短了制作周期，降低了制作成本。

藍耘如何注冊使用：

點擊鏈接：https://cloud.lanyun.net//#/registerPage?promoterCode=0131

只需要兩步快速完成：

新手如何快速藍耘部署通義萬相 2.1：?

進入的畫面：

下面我們把這段話輸入進去：

在光線柔和的臥室里，曉妍慵懶地斜倚在蓬松的靠枕上，全身心沉浸于手中那方小小的世界。她的手指在手機屏幕上靈動跳躍，時而輕輕點擊，時而快速滑動，如同一位嫻熟的鋼琴師在彈奏一首輕快的樂章。
?
此刻，她正刷著社交媒體，一張張精美的圖片、一段段詼諧的文字讓她目不暇接。看到有趣之處，她嘴角不自覺上揚，眼眸里閃爍著愉悅的光芒，發出清脆的笑聲，打破了房間的寧靜。偶爾，她會停下滑動的手指，歪著頭思考片刻，然后在評論區迅速敲下自己的想法，點擊發送后，又滿懷期待地等待著他人的回復，眼神中滿是專注與投入。
?
公交站臺邊，阿宇在喧囂中站定，從兜里掏出手機。他的拇指在屏幕上機械地劃動，目光緊鎖屏幕，公交車進站的廣播聲、周圍行人的嘈雜聲，都被他自動屏蔽在外。手機屏幕散發的冷光映照著他略顯疲憊的臉，他正瀏覽著體育新聞，一場激烈的籃球賽事戰報緊緊抓住了他的注意力。看到支持球隊獲勝的消息，他微微握拳，低聲輕呼 “漂亮”，眼神瞬間明亮起來，仿佛置身于熱血沸騰的比賽現場，絲毫沒察覺到身邊乘客投來的異樣目光。

生成的視頻效果：

生成視頻

使用藍耘的算力資源調用通義萬相的 API 完成視頻生成部署：

1. 準備工作：

獲取 API 密鑰：在阿里云控制臺獲取通義萬相 API 的訪問密鑰（AccessKey ID 和 AccessKey Secret）。
安裝必要的 Python 庫：使用?pip?安裝阿里云 SDK 相關庫。

pip install aliyun-python-sdk-core-v3
pip install aliyun-python-sdk-imagerecog

2. 代碼效果：

如何使用通義萬相 API 進行視頻生成：

# 導入必要的庫
from aliyunsdkcore.client import AcsClient
from aliyunsdkcore.acs_exception.exceptions import ClientException
from aliyunsdkcore.acs_exception.exceptions import ServerException
from aliyunsdkimagerecog.request.v20190930.GenerateVideoRequest import GenerateVideoRequest
import json# 配置阿里云客戶端
access_key_id = 'your_access_key_id'  # 替換為你的 AccessKey ID
access_key_secret = 'your_access_key_secret'  # 替換為你的 AccessKey Secret
region_id = 'cn-shanghai'  # 替換為你選擇的區域 IDclient = AcsClient(access_key_id, access_key_secret, region_id)# 構建視頻生成請求
request = GenerateVideoRequest()
request.set_accept_format('json')# 設置請求參數
# 視頻生成的文本描述
prompt = "在一個美麗的花園中，花朵盛開，蝴蝶飛舞。"
# 你可以根據需要添加更多參數，如視頻時長、分辨率等
params = {"prompt": prompt,"duration": 10,  # 視頻時長，單位為秒"resolution": "1920x1080"  # 視頻分辨率
}
request.set_content(json.dumps(params).encode('utf-8'))try:# 發送請求response = client.do_action_with_exception(request)response_json = json.loads(response)print("視頻生成請求成功：")print(response_json)# 這里可以根據返回結果進一步處理，如獲取視頻的下載鏈接等if 'Data' in response_json and 'VideoUrl' in response_json['Data']:video_url = response_json['Data']['VideoUrl']print(f"生成的視頻下載鏈接：{video_url}")
except ClientException as e:print(f"客戶端異常：{e}")
except ServerException as e:print(f"服務器異常：{e}")

3. 說明：

客戶端配置：使用?AcsClient?初始化阿里云客戶端，需要提供?AccessKey ID、AccessKey Secret?和區域 ID。
請求構建：創建?GenerateVideoRequest?對象，并設置請求的格式為 JSON。
參數設置：將視頻生成的文本描述、時長、分辨率等參數封裝在一個字典中，并轉換為 JSON 字符串設置到請求內容中。
發送請求：使用?client.do_action_with_exception?方法發送請求，并處理可能的客戶端異常和服務器異常。
結果處理：根據返回的 JSON 結果，獲取視頻的下載鏈接等信息。

1.4代碼調用：開啟探索之門:

搭建開發環境:

我首先要做的就是搭建一個合適的開發環境。我選擇使用 conda 來創建一個 Python 虛擬環境，這樣可以確保項目依賴的獨立性。

conda create -n wan python=3.10
conda activate wan

看著命令行中虛擬環境創建成功的提示信息，我仿佛看到了一個全新的技術世界在向我敞開大門。接著，我從通義萬相 2.1 的官方代碼庫中克隆項目代碼。

git clone https://github.com/Wan-Video/Wan2.1.git

這一步就像是拿到了進入寶藏庫的鑰匙，讓我離探索 AI 視頻生成的奧秘又近了一步。

安裝依賴包:

進入項目目錄后，安裝依賴包成了首要任務。這些依賴包是項目運行的基石，缺一不可。

cd Wan2.1
pip install -r requirements.txt

然而，安裝過程并非一帆風順。flash_attn?的安裝出現了錯誤，錯誤提示信息在屏幕上不斷閃爍，讓我有些焦慮。我趕緊查閱官方文檔和相關技術論壇，嘗試了多種解決方法。最終，我決定先在?requirements.txt?中注釋掉?flash_attn，完成其他依賴包的安裝后，再單獨安裝?flash_attn。

# 先注釋掉 requirements.txt 中的 flash_attn
sed -i 's/flash_attn/#flash_attn/g' requirements.txt
pip install -r requirements.txt
# 單獨安裝 flash_attn
pip install flash_attn

經過一番折騰，依賴包終于全部安裝成功，我長舒了一口氣，也更加堅定了繼續探索的決心。

簡單場景視頻生成:

一切準備就緒后，我迫不及待地開始嘗試生成視頻。我先從一個簡單的場景入手，打算生成一個 “清晨，一只小鳥在枝頭歡快歌唱” 的視頻。

from diffusers import DiffusionPipeline
import torch# 加載通義萬相 2.1 模型
pipe = DiffusionPipeline.from_pretrained("Wan-Video/Wan2.1", torch_dtype=torch.float16)
# 將模型加載到 GPU 上以加速運算
pipe = pipe.to("cuda")# 設置描述視頻場景的文本提示
prompt = "清晨，陽光輕柔地灑在翠綠的樹枝上，一只小巧玲瓏的小鳥站在枝頭，歡快地歌唱著，它的羽毛在陽光下閃耀著金色的光芒。"
# 生成視頻
video = pipe(prompt).videos[0]
# 保存生成的視頻
video.save("bird_singing.mp4")

當我運行這段代碼時，內心充滿了期待。看著代碼逐行執行，進度條緩緩前進，仿佛是在見證一個神奇的魔法過程。終于，視頻生成完成，我興奮地打開?bird_singing.mp4?文件，視頻中的畫面讓我眼前一亮。小鳥的姿態栩栩如生，歌聲仿佛都能透過屏幕傳出來，通義萬相 2.1 的強大功能讓我驚嘆不已。

多元素場景視頻生成:

為了進一步挑戰通義萬相 2.1 的能力，我決定嘗試生成一個包含多個元素的復雜場景視頻。我想生成一個 “在一個美麗的海濱沙灘上，一群孩子在堆沙堡，海浪一波波地涌來，遠處的帆船在海風中搖曳” 的視頻。

from diffusers import DiffusionPipeline
import torch# 加載通義萬相 2.1 模型
pipe = DiffusionPipeline.from_pretrained("Wan-Video/Wan2.1", torch_dtype=torch.float16)
# 將模型加載到 GPU 上以加速運算
pipe = pipe.to("cuda")# 設置詳細的文本提示
prompt = "在一個陽光明媚的日子里，一片金黃的海濱沙灘上，一群天真可愛的孩子正興致勃勃地堆著沙堡。他們的笑聲回蕩在空氣中，五彩的小鏟子和水桶散落在一旁。不遠處，海浪帶著白色的泡沫一波波地涌來，輕輕地拍打著沙灘。而在遙遠的海平面上，幾艘帆船在輕柔的海風中緩緩搖曳，帆影在陽光下閃爍著銀光。"
# 設置負面提示，避免生成不希望出現的效果
negative_prompt = "模糊，畫面抖動，顏色失真"
# 調整推理步數和引導比例以優化視頻生成效果
video = pipe(prompt, negative_prompt=negative_prompt, num_inference_steps=70, guidance_scale=8.5).videos[0]
# 保存生成的視頻
video.save("beach_scene.mp4")

這次生成視頻的時間明顯比上次長，我在等待的過程中不斷想象著視頻的樣子。當視頻最終生成時，我被眼前的畫面震撼了。孩子們堆沙堡的動作生動自然，海浪的涌動和帆船的搖曳都十分逼真，仿佛我真的置身于那片美麗的海濱沙灘上。

帶運鏡效果的視頻生成:

我還想嘗試利用通義萬相 2.1 的運鏡控制功能，生成一個具有獨特視角的視頻。我打算生成一個 “在古老的城堡中，鏡頭從城堡的大門緩緩推進，穿過長長的走廊，最后停在一間擺滿珍寶的房間” 的視頻。

from diffusers import DiffusionPipeline
import torch# 加載通義萬相 2.1 模型
pipe = DiffusionPipeline.from_pretrained("Wan-Video/Wan2.1", torch_dtype=torch.float16)
# 將模型加載到 GPU 上以加速運算
pipe = pipe.to("cuda")# 設置帶有運鏡描述的文本提示
prompt = "在一座古老而神秘的城堡中，鏡頭從城堡那厚重的大門開始緩緩推進，大門上的鐵環在微弱的光線下閃爍著寒光。鏡頭沿著長長的走廊前行，走廊兩側的壁燈散發著昏黃的光，墻壁上掛著一幅幅古老的油畫。最后，鏡頭停在一間擺滿珍寶的房間，房間里的珠寶在燈光下閃耀著五彩的光芒。"
# 設置負面提示
negative_prompt = "畫面卡頓，陰影不自然"
# 調整參數
video = pipe(prompt, negative_prompt=negative_prompt, num_inference_steps=80, guidance_scale=9.0).videos[0]
# 保存生成的視頻
video.save("castle_journey.mp4")

運行代碼后，我目不轉睛地盯著屏幕，看著視頻一點點生成。當我打開?castle_journey.mp4?時，那流暢的運鏡效果讓我仿佛親身經歷了一場城堡探險之旅，通義萬相 2.1 的運鏡控制能力讓我大為折服。