【AI大模型】DeepSeek + 通義萬相高效制作AI視頻實戰詳解

一、前言

二、AI視頻概述

2.1 什么是AI視頻

2.2 AI視頻核心特點

2.3 AI視頻應用場景

三、通義萬相介紹

3.1 通義萬相概述

3.1.1 什么是通義萬相

3.2 通義萬相核心特點

3.3 通義萬相技術特點

3.4 通義萬相應用場景

四、DeepSeek + 通義萬相制作AI視頻流程

4.1 DeepSeek + 通義萬相制作視頻優勢

4.1.1 DeepSeek 優勢

4.1.2 通義萬相視頻生成優勢

4.2 操作過程

4.2.1 使用DeepSeek 生成視頻腳本

4.2.2 使用通義萬相生成視頻

四、通義萬相其他功能體驗

4.1 圖生視頻

4.2 文字作畫

4.3 Java API 調用

4.3.1 導入依賴SDK

4.3.2 獲取apikey

4.3.3 代碼集成

五、寫在文末

一、前言

AI大模型技術的火爆，讓AI視頻賽道也變得熱鬧。以往讓很多人覺得視頻制作領域是一個很難跨越的障礙，AI大模型的興起之后，同時也帶動了AI視頻技術的革新，不少廠商紛紛加入AI視頻的爭奪，畢竟短視頻經歷了多年的沉淀之后，已經成為大多數日常生活中不可或缺的一部分，本文以國產大模型之光的通義萬相為例進行詳細的說明。

二、AI視頻概述

2.1 什么是AI視頻

AI視頻 是指利用人工智能（AI）技術生成、編輯、增強或分析視頻內容的過程和結果。通過AI技術，視頻制作、處理和優化的效率得到了顯著提升，同時也為創意表達和內容創作帶來了更多可能性。AI視頻的核心在于利用機器學習、計算機視覺、自然語言處理等技術，自動化或智能化地完成視頻相關的任務。

2.2 AI視頻核心特點

AI 視頻的核心特點主要體現在以下幾個方面，這些特點使得 AI 技術在視頻領域的應用更加高效、智能和創新：

自動化處理
- AI 可以自動完成視頻制作、編輯和處理中的許多任務，減少人工干預。例如：
  - 自動剪輯視頻片段。
  - 自動生成字幕和配音。
  - 自動識別并分類視頻內容。
智能化
- AI 能夠理解視頻內容并做出智能決策。例如：
  - 識別視頻中的物體、場景、人臉和動作。
  - 分析視頻的情感基調（如歡樂、悲傷、緊張等）。
  - 根據用戶偏好推薦個性化視頻內容。
制作高效
- AI 技術可以大幅提升視頻處理的效率，節省時間和成本。例如：
  - 快速生成高質量視頻內容。
  - 批量處理視頻數據（如轉碼、壓縮、增強等）。
  - 實時處理視頻流（如直播中的實時字幕或特效）。
具備一定的創新
- AI 為視頻創作帶來了全新的可能性，突破了傳統技術的限制。例如：
  - 生成虛擬角色或深度偽造（Deepfake）視頻。
  - 創建逼真的特效和動畫。
  - 將文本或圖像轉化為動態視頻。
支持個性化
- AI 可以根據用戶的需求和偏好生成定制化的視頻內容。例如：
  - 為不同用戶生成個性化的廣告視頻。
  - 根據用戶興趣推薦相關視頻內容。
  - 生成符合特定風格或主題的視頻。
生成的視頻質量較高
- AI 技術可以提升視頻的質量和觀感。例如：
  - 增強視頻分辨率（如將低清視頻轉為高清）。
  - 修復老舊或損壞的視頻。
  - 自動調整視頻的色彩、光線和穩定性。

AI 視頻的核心特點是自動化、智能化、高效性、創新性、個性化、高質量、實時性和數據驅動。這些特點使得 AI 技術在視頻領域的應用越來越廣泛，從內容創作到分發和消費，AI 正在徹底改變視頻行業的面貌。

2.3 AI視頻應用場景

AI視頻技術在多個領域展現出廣泛的應用場景，涵蓋了從娛樂、教育到商業營銷等多個方面。以下是AI視頻的主要應用場景及其具體表現：

娛樂與社交媒體
- 動態封面與個性化內容：
  - AI可以生成炫酷的動態封面或個性化視頻，幫助社交媒體用戶吸引更多關注。例如，美食博主可以生成食材飛舞的視頻封面，旅行博主可以生成地標建筑的切換視頻。
- 趣味視頻生成：
  - 普通用戶可以通過AI工具快速生成趣味視頻，用于分享、娛樂或發布自媒體。例如，生成夢幻朋友圈配圖或節日主題視頻
內容創作與影視創作
- 劇本生成與可視化：
  - AI可以根據文字描述生成視頻腳本，并初步生成視頻片段，幫助創作者優化腳本和場景設計。
- 特效與場景生成：
  - AI技術可以生成逼真的虛擬場景和特效，減少實景搭建和后期制作成本。例如，利用生成對抗網絡（GAN）生成動態粒子效果或深度場景合成。
- 智能剪輯與后期處理：
  - AI可以自動識別視頻中的關鍵情節，進行智能剪輯和優化，提升制作效率。
電商與廣告營銷
- 產品展示與廣告生成：
  - AI可以生成高質量的產品展示視頻，例如化妝品涂抹效果或電子產品3D拆解圖，提升消費者的購買欲望。
- 個性化廣告投放：
  - 通過分析用戶行為和視頻內容，AI可以自動植入相關廣告，提升廣告效果。
教育與科普
- 生動教學視頻：
  - AI可以生成歷史、科學等學科的生動教學視頻，例如古代戰爭場景或細胞結構動畫，提升學生的學習興趣。
- 科普動畫制作：
  - 通過AI生成科普動畫，將復雜知識以趣味化的方式呈現，提高傳播效率。
短劇與影視創作
- AI短劇制作：
  - AI技術已滲透到短劇制作的多個環節，包括劇本生成、場景搭建、特效制作和智能剪輯，大幅壓縮制作周期和成本。
- 情感與敘事優化：
  - 盡管AI短劇在情感共鳴上仍有不足，但通過人機協同創作，可以逐步提升敘事張力和情感表現。
其他創新應用
- 虛擬主播與角色生成：
  - AI可以生成虛擬主播或角色，用于直播、新聞播報等場景，目前已經在一些平臺開始投入使用，比如AI數字人等。
- 實時視頻處理：
  - 在直播或視頻會議中，AI可以實時生成字幕、翻譯或虛擬背景，提升互動體驗。

AI視頻的應用場景極為廣泛，從娛樂、教育到商業營銷，AI技術正在改變視頻創作、分發和消費的方式。未來，隨著技術的不斷進步，AI視頻將在更多領域展現出更大的潛力。

三、通義萬相介紹

3.1 通義萬相概述

3.1.1 什么是通義萬相

通義萬相 是阿里云推出的一款AI多模態內容生成平臺，專注于圖像和視頻的智能化創作。它基于阿里云通義大模型家族，旨在通過先進的人工智能技術，為用戶提供高效、創新的視覺內容生成解決方案。

網頁端入口：通義萬相_AI創意作畫_AI繪畫_人工智能-阿里云

3.2 通義萬相核心特點

通義萬相具備多種強大的AI生成能力，主要包括：

文本生成圖像：
- 根據用戶輸入的文字描述，生成符合需求的圖像，支持多種藝術風格（如水彩、油畫、3D卡通等。
圖像風格遷移：
- 用戶上傳原圖和風格圖后，AI可以將原圖處理為指定風格，實現創意轉化。
視頻生成：
- 支持文生視頻和圖生視頻任務，能夠生成影視級高清視頻，并優化中式元素的表現，特別適合中國風內容的創作。
相似圖像生成：
- 上傳任意圖片后，AI可以生成內容或風格相似的畫作，適合創意發散
復雜運動生成：
- 能夠模擬真實世界的物理規律，生成復雜和大幅度的運動場景，提升視頻的真實感

3.3 通義萬相技術特點

通義萬相技術具備如下優勢和特點：

基于阿里通義大模型：
- 依托阿里巴巴通義大模型（Tongyi Large Model），結合擴散模型（Diffusion Model）和 Transformer 架構進行高質量圖像生成。
多模態支持：
- 通義萬相不僅支持圖像生成，還具備視頻生成能力，實現了多模態內容的智能化創作。
高度可控性：
- 基于阿里云研發的組合式生成模型Composer，通義萬相能夠對配色、布局、風格等設計元素進行精細拆解與智能重組，提供高度可控的圖像生成效果。
中文優化：
- 原生支持中文長文本提示詞，能夠精準理解并生成符合中國文化和審美的內容，被稱為“最懂中國風”的視頻大模型。
開源支持：
- 通義萬相2.1模型已全面開源，開發者可以通過Github、HuggingFace等平臺獲取推理代碼和權重，支持文生視頻和圖生視頻任務。

通義萬相技術優勢在于其多模態生成能力、中文優化、高質量輸出、高度可控性、技術創新、廣泛的應用場景以及開源支持。這些優勢使其成為國內AIGC領域的領先平臺，為創作者和企業提供了強大的AI賦能工具。未來，隨著技術的進一步迭代，通義萬相有望在更多領域展現更大的價值。

3.4 通義萬相應用場景

通義萬相作為阿里云推出的AI多模態內容生成平臺，憑借其強大的圖像和視頻生成能力，在多個領域展現了廣泛的應用場景。以下是通義萬相的主要應用場景及其具體表現：

藝術創作
- 通義萬相為藝術家和設計師提供了強大的創意支持，能夠根據用戶輸入的提示詞或描述生成個性化的藝術作品。其支持多種藝術風格（如水彩、油畫、3D卡通等），幫助創作者探索新的藝術表現形式
  - 個性化藝術生成：用戶可以通過簡單的指令生成獨特的藝術作品，滿足個人或商業需求。
  - 風格遷移：將現有圖像轉化為指定風格，實現創意轉化。
廣告與營銷
- 通義萬相在廣告制作和營銷領域展現了強大的應用潛力，能夠快速生成高質量的視頻和圖像內容，提升廣告的吸引力和效果
  - 廣告素材生成：生成商品海報、廣告圖和創意視頻，提升營銷效率。
  - 個性化廣告投放：根據用戶數據生成定制化廣告內容，提高廣告投放的精準性。
影視與游戲開發
- 通義萬相在影視和游戲開發中發揮了重要作用，能夠生成特效、場景預覽和角色概念設計，大幅縮短制作周期
  - 影視特效生成：生成逼真的特效和背景，提升影視作品的視覺效果。
  - 游戲場景與角色設計：生成游戲角色、場景和動畫，加速游戲開發進程。
社交媒體平臺內容創作
- 通義萬相為社交媒體用戶和內容創作者提供了強大的工具，能夠生成吸引眼球的短視頻和動態封面，增強用戶互動性
  - 短視頻生成：生成個性化的短視頻內容，吸引粉絲和提高互動。
  - 動態封面設計：生成炫酷的動態封面，提升社交媒體內容的吸引力。
商業設計與展示
- 通義萬相在商業設計和展示中展現了強大的應用潛力，能夠生成高質量的設計素材和展示視頻
  - 產品展示視頻：生成商品展示視頻，提升消費者的購買欲望。
  - 虛擬店鋪裝修：生成虛擬店鋪裝修預覽視頻，幫助商家展示店鋪布局和產品陳列。

四、DeepSeek + 通義萬相制作AI視頻流程

4.1 DeepSeek + 通義萬相制作視頻優勢

4.1.1 DeepSeek 優勢

Deepseek 生成的內容具有較高的專業性和深度，能夠滿足不同領域的需求。同時其深度思考能力和聯網搜索能力，能夠為用戶生成最新，且內容豐富程度較高。在使用AI視頻生成的場景中，制作視頻需要視頻腳本，分鏡頭文案等元素信息，借助Deepseek 強大的對話和深度思考能力，可以生成高質量的視頻腳本，然后配合AI視頻制作平臺的能力，即可快速完成視頻的制作。deepseek入口：DeepSeek

4.1.2 通義萬相視頻生成優勢

通義萬相作為阿里云推出的AI多模態內容生成平臺，在視頻生成領域展現了顯著的技術優勢和應用潛力。以下是通義萬相在視頻生成方面的主要優勢：

高質量視頻生成
- 通義萬相能夠生成影視級高清視頻，支持1080P分辨率，畫面質感細膩，視覺效果出色。其生成的視頻在動態場景中表現出極高的流暢度和真實感，適合廣告、影視、游戲等多個領域的需求
中文優化與本土化支持
- 通義萬相在中文視頻生成方面具有顯著優勢，能夠精準理解中文長文本提示詞，并生成符合中國文化和審美的視頻內容。例如，用戶輸入“以紅色新年宣紙為背景，出現一滴水墨，暈染墨汁緩緩暈染開來”的指令，通義萬相可以生成具有濃郁東方韻味的視頻。
復雜運動與物理規律模擬
- 通義萬相通過自研的高效VAE（變分自編碼器）和DiT（圖像生成對抗網絡）架構，增強了時空上下文建模能力，能夠精準模擬復雜運動和真實物理規律。例如，雨滴落在傘上會濺起水花，玻璃杯摔碎時碎片飛濺等場景都能逼真呈現。
多模態生成能力
- 通義萬相支持文生視頻和圖生視頻兩種生成模式。用戶可以通過輸入文本描述或上傳圖片，快速生成高質量視頻內容。這種多模態能力使其在廣告設計、短視頻創作等領域具有廣泛的應用價值。
豐富的視覺效果與特效
- 通義萬相提供了多種視頻特效選項，如過渡效果、粒子效果、模擬效果等，用戶可以根據需求自由組合，增強視頻的表現力和藝術感。例如，一鍵生成藝術字功能，支持中英文文字特效生成，極大提升了視頻的視覺吸引力。
使用簡單創作效率高
- 通義萬相通過簡潔的操作界面和強大的AI技術支持，大幅降低了視頻創作的門檻。即使是普通用戶，也能通過簡單的指令快速生成高質量視頻內容，顯著提升了創作效率。
開源與生態支持
- 通義萬相2.1模型已全面開源，開發者可以通過Github、HuggingFace等平臺獲取推理代碼和權重，支持文生視頻和圖生視頻任務。這種開源策略不僅降低了技術使用門檻，還促進了AI社區的協作與創新。

4.2 操作過程

接下來通過實際案例演示如何使用DeepSeek + 通義萬相生成視頻

4.2.1 使用DeepSeek 生成視頻腳本

提供如下的文案，即我們接下來我們需要讓DeepSeek 生成視頻的原始需求

我想做一個治愈系的名山大川的短視頻，視頻中的元素包括蔚藍的天空，廣闊的山河湖泊，飛鳥，無人機拍攝視角以及特寫鏡頭，以國家地理紀錄片的風格，時長30秒

打開deepseek，發出上述指令，稍等一會兒，deepseek便給出了完整的解析和思考過程，比如制作視頻的注意點，建議點，優化點等

基于上一步的回答，我們進一步輸入指令要求DeepSeek 生成分鏡頭腳本

通過上面的2步指令輸入，就得到了接下來用于生成視頻的原始分鏡腳本，當然，如果第一次生成的腳本不滿意，還可以通過多輪對話的方式進行微調，直到得到滿意的腳本為止。

4.2.2 使用通義萬相生成視頻

進入通義萬相之后，找到左側的視頻生成的菜單，拷貝上一步的分鏡腳本到輸入框中，它會自動將markdown格式的文案進行解析出來，在當前的操作窗口頁面，里面還有一些參數可以調整，比如視頻比例，可以結合實際需求進行選擇，像3:4在一些自媒體平臺比較流行，參數部分可自行嘗試。

將腳本復制進去之后，點擊生成視頻按鈕，生成視頻的時長會根據你的實際分鏡不同而有差異。

等待一段時間之后，在右側就可以看到生成好的視頻了。

可以直接打開查看視頻的效果，也可以下載到本地

通過上面的操作流程，就完成了一個從生成視頻的分鏡腳本到制作出視頻的完整過程，事實上，這也是很多自媒體創作者利用AI大模型完成AI視頻制作的基本操作流程，只不過其中的細節還需要進一步的完善和優化，比如分鏡腳本的優化，視頻參數的調整，視頻導入到其他剪輯工具的調色、剪輯、后期制作等。

四、通義萬相其他功能體驗

在通義萬相的操作界面上還有不少好用的功能可以體驗，下面再選取兩個高頻的場景進行演示操作。

4.1 圖生視頻

簡而言之，即根據你上傳的圖片生成視頻

比如以官方提供的圖片為例進行視頻生成，選擇一張

點擊生成視頻，通義萬相會自動解析圖片中的元素內容，生成一段類似于視頻腳本的描述文案，然后等待視頻生成即可，最后可以看到，這是一段一個類似飛碟的飛行物在低空飛行的視頻

4.2 文字作畫

即文生圖的功能，這個在AI大模型出來不久，很多大模型都開始在這個領域探索，截止到現在，這一技術逐漸成熟，對用使用者來說，只需要提供你的文案描述，文案盡可能的覆蓋到待生成的圖片元素，這樣生成的圖效果才好，有點考驗一個人的文字功底，如下我們在框里輸入一段內容

生成一張貓和狗快樂玩耍的溫馨圖片，圖中小貓伸出爪子去撓小狗的頭，旁邊有草坪，有幾只蝴蝶，有盛開的花朵，藍色的天空，風格為寫實風格

輸入進去然后點擊生成，稍等一會，即可生成默認的4張圖片

4.3 Java API 調用

通義萬相也提供了API對接方式，可以在應用程序中進行集成和使用

以左側的視頻生成API為例進行說明，點擊之后，跳轉到下面的對接文檔頁面

以Java對接為例進行說明，參考下面的步驟。

4.3.1 導入依賴SDK

在你的springboot工程 pom文件中添加如下依賴

需要用比較新的版本，否則可能還沒有包含視頻生成相關的API能力

<dependency><groupId>com.alibaba</groupId><artifactId>dashscope-sdk-java</artifactId><!-- 請將 'the-latest-version' 替換為最新版本號：https://mvnrepository.com/artifact/com.alibaba/dashscope-sdk-java --><version>t2.18.2</version>
</dependency>

4.3.2 獲取apikey

登錄阿里云的百煉大平臺，注冊賬號后創建一個apikey即可，入口：阿里云登錄 - 歡迎登錄阿里云，安全穩定的云計算服務平臺

4.3.3 代碼集成

參考下面的代碼

只需要將里面的代碼中的apkey替換成你自己的即可

package com.congge.chat;// Copyright (c) Alibaba, Inc. and its affiliates.// dashscope sdk >= 2.18.2
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesis;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisParam;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisResult;
import com.alibaba.dashscope.exception.ApiException;
import com.alibaba.dashscope.exception.InputRequiredException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.utils.JsonUtils;public class Text2Video {/*** Create a video compositing task and wait for the task to complete.*/public static void text2Video() throws ApiException, NoApiKeyException, InputRequiredException {VideoSynthesis vs = new VideoSynthesis();VideoSynthesisParam param =VideoSynthesisParam.builder().model("wanx2.1-t2v-turbo").apiKey("你的apikey").prompt("一只小貓在月光下奔跑").size("1280*720").build();System.out.println("please wait...");VideoSynthesisResult result = vs.call(param);System.out.println(JsonUtils.toJson(result));}public static void main(String[] args) {try {text2Video();} catch (ApiException | NoApiKeyException | InputRequiredException e) {System.out.println(e.getMessage());}System.exit(0);}
}

運行上面的代碼，控制臺的輸出結果中即包含了生成的視頻鏈接