数字人功能操作教程 - 酷云AI | 数字人形象选择·文案配音·视频生成·剪辑合成

0功能概述

数字人是酷云AI平台提供的一项智能化视频内容生成工具，用户无需真人出镜、拍摄或专业后期，即可快速制作出由虚拟数字人播报的视频。该功能广泛应用于内容创作、营销推广、电商带货、品牌宣传、教育培训等多个行业场景，帮助个人和企业高效产出高质量视频，降低制作成本与门槛。

一、自媒体与内容创作

应用场景：知识科普、新闻资讯、影视解说、故事讲述、书评分享

怎么用：

创作者无需露脸，选择数字人形象作为"虚拟主播"出镜讲解
通过AI辅助创作快速生成口播文案，搭配系统音色或克隆自己的声音完成配音
结合封面图生成和标题文案功能，一站式产出自媒体成品视频

实现价值：降低出镜门槛，保护个人隐私，保持稳定内容输出频率

二、电商带货与直播引流

应用场景：商品讲解、爆款推荐、直播间预告、产品使用教程

怎么用：

使用带货模式，让数字人以销售口吻讲解商品卖点
通过"商品融合"功能，让数字人形象手持商品或穿戴服饰，模拟真人展示效果
制作直播预热视频，提前在各平台发布引流

实现价值：无需主播实时在线，可批量生产带货视频，持续触达消费者

三、本地生活与探店推广

应用场景：美食打卡、餐厅推荐、酒店体验、景点攻略、店铺宣传

怎么用：

选择探店模式，数字人以探店达人的风格进行沉浸式讲解
使用"背景替换"功能，将餐厅实景、店铺环境等真实场景融入视频背景
结合实地照片配合数字人口播，产出有代入感的种草视频

实现价值：无需真人到店反复拍摄，单次制作即可覆盖多家门店推广需求

四、企业品牌与商业宣传

应用场景：品牌故事、企业文化、产品发布、客户案例、招聘宣传

怎么用：

克隆企业高管或品牌代言人的专属数字人形象，统一对外视觉输出
将品牌介绍、产品发布等文案通过数字人进行专业播报
定期制作企业文化宣传内容，用于官网、公众号、视频号等渠道

实现价值：保持品牌形象一致性，降低真人拍摄协调成本，快速响应宣传需求

五、教育培训与知识付费

应用场景：课程录制、知识点讲解、少儿教育、企业培训、操作演示

怎么用：

教师或讲师录制一次声音后克隆专属音色，后续课程无需反复录制
通过数字人进行标准化课程讲授，配合可调节语速适应不同学段
批量制作知识付费内容，保持授课风格统一

实现价值：大幅降低课程录制时间成本，实现内容标准化、规模化生产

六、音乐才艺与虚拟偶像

应用场景：歌曲翻唱、原创音乐展示、虚拟偶像演唱、节日祝福视频

怎么用：

上传提前准备好的音乐音频文件
数字人自动同步口型进行演唱表演
结合形象装修功能打造独特的虚拟偶像外观

实现价值：无需真人录制演唱视频，快速产出声画同步的音乐表演内容

七、金融服务与合规播报

应用场景：理财产品介绍、保险条款解读、金融知识普及、合规声明播报

怎么用：

将需要向客户说明的金融条款、产品信息输入为播报文案
数字人以专业沉稳的形象进行标准化讲解
确保每次播报内容一致，避免人工口误带来的合规风险

实现价值：内容输出标准化、可追溯，降低人工讲解的偏差风险

八、政务服务与公共宣传

应用场景：政策解读、办事指南、社区通知、安全宣传、健康科普

怎么用：

将政策文件转化为通俗易懂的口播文案
数字人以亲和专业的形象进行播报讲解
批量生成多主题宣传视频，在政务新媒体平台发布

实现价值：提升政务信息传播效率，以生动形式拉近与群众的距离

总结：无论是个人创作者、中小企业还是大型机构，只要需要"有人出镜讲解"的视频内容，数字人都能提供高效、低成本的解决方案，让视频创作不再受限于时间、场地和人力。

7案例展示

以下是数字人功能生成的实际案例视频：

1选择数字人形象

访问 数字人创作 页面后，首先进入第一步：选择数字人形象。

1.1 选择公共数字人形象

在左侧预览区可以看到当前选中的形象，右侧是形象选择区域。

精选形象列表：

系统提供了多个预置的数字人形象，分为不同分类
分类包括：全部、我的形象、收藏等
点击分类标签可快速筛选

操作技巧：

点击卡片可选中形象，被选中的卡片会有红色边框高亮
点击星星图标可收藏喜欢的形象
滚动页面可加载更多形象

1.2 上传自定义数字人形象

页面下方提供两种方式创建专属形象：

克隆专属数字人形象：

点击"克隆专属数字人形象"区域
系统会打开上传界面
上传一张清晰的照片（建议正面照，光线均匀）
系统将基于照片克隆专属数字人形象

设计专属数字人：

点击"设计专属数字人"区域
进入形象DIY装修界面
可以自定义调整形象的各种细节

1.3 形象装修功能（DIY）

点击已选形象的"装修"按钮，可进入专业装修模式：

快捷模式：

装修类型	可选场景
人像编辑	精致五官、磨皮美颜、时尚妆容、表情调整
商品融合	手持商品、商品展示、穿戴服饰、配饰添加
背景替换	咖啡厅、办公室、都市夜景、户外风景
商品替换	换手机、换鞋款、换包包、换眼镜

专业模式：

支持上传1-9张参考图
在描述中使用"图1"、"图2"等标记指定位置
更灵活的装修描述

⚠️ 注意事项：
1. 设计时图片中只允许出现一个人脸
2. 人脸最好正镜头或轻微侧面，不可完全侧面

2文案配音设置

选择形象后，点击"下一步"进入第二步文案配音。

2.1 五种创作模式

根据您的需求选择合适的创作模式：

模式	适用场景	特点
口播讲解 🎤	知识分享、产品评测	数字人气质出众，娓娓道来，增强信任感
探店数字人 🍜	美食打卡、店铺推荐	沉浸式探访体验，真实种草
带货数字人 🛍️	商品推销、直播预热	聚焦爆款卖点，强化转化话术
唱歌数字人 🎵	音乐展示、才艺表演	声画同步，数字人同步演唱
动漫数字人 🎭	虚拟主播、偶像风格	二次元风格，生动有趣

💡 各模式使用技巧：

探店数字人 🍜：
建议在选择探店模式后，使用"形象DIY装修"功能中的"背景替换"功能，将店铺实际场景（如咖啡厅、餐厅、景区等）融合到数字人形象图中。这样生成的视频背景与真实店铺环境结合，效果更加自然真实，更能打动观众。

带货数字人 🛍️：
建议在选择带货模式后，使用"形象DIY装修"功能中的"商品融合"功能，让数字人形象"手持商品"或"穿戴服饰/配饰"。这样数字人在讲解商品时会更加真实可信，大幅提升带货转化效果。

唱歌数字人 🎵：
唱歌数字人模式仅支持上传音频文件，不支持配音合成功能。您需要提前准备好音乐音频文件（MP3、WAV、M4A格式），上传后数字人将同步口型演唱，实现"数字人唱歌"效果。

2.2 音频来源选择

方式一：配音合成

选择"🎙️ 配音合成"标签页

⚠️ 注意：配音合成功能不适用于唱歌数字人模式，如需生成唱歌视频，请使用下方"上传音频"功能。

文案输入模式：

自由输入 ✏️：直接在文本框中输入或粘贴文案
- 支持插入停顿（0.3秒、0.5秒、1秒）
- 字数限制：230字
- 显示预计时长（按每秒4字计算）
AI创作 🤖：让AI帮您生成文案
- 需要选择人设（点击选择人设按钮）
- 可选择关联知识库（点击选择知识库按钮）
- 根据不同模式，填写对应的表单信息
- 点击"生成文案"按钮获取AI创作内容

音色选择：

音色类型	说明	获取方式
系统音色	平台预设的多种音色	直接从音色库选择
克隆音色 🎤	复刻您自己的声音	克隆我的声音
设计音色 ✨	AI生成的专属音色	设计专属音色

克隆专属声音流程：

点击"🎤 克隆我的声音"按钮

选择录音方式：
- 实时录音：点击开始录音，系统提供参考文本（直播带货、教育培训、小说朗读、音视频配音）
- 上传音频：拖拽或选择音频文件（支持MP3、WAV、M4A格式，建议10-20秒）
填写音色名称
点击"开始复刻"
复刻任务提交后，可在"我的复刻"中查看进度

🎤 克隆音色标准与要求：

为确保克隆效果达到最佳，请遵守以下标准：

要求类别	标准说明
环境要求	环境不能太嘈杂，选择安静无回声的室内环境，避免空调风声、窗外车流声等背景噪音
录音质量	麦克风距离嘴部约10-15厘米，保持声音清晰；避免喷麦现象
语速语调	模拟真实应用场景的说话风格和语速，自然流畅，避免刻意读稿感
声音内容	避免多人同时说话，只保留单人声音；不要模仿他人音色或变声说话
音频时长	建议录音时长10-20秒，过短会影响克隆效果，过长无额外增益
设备建议	推荐使用耳机或独立麦克风录音，避免使用电脑自带麦克风

设计专属音色流程：

点击"✨ 设计专属音色"按钮

填写声音描述（建议包含：性别+年龄+音色特点+说话风格）
填写预览文本（至少15字，建议20-50字）
填写音色名称
点击"保存音色"

调节参数：

参数	范围	说明
语速	0.5x - 2.0x	调节语音播放速度
音量	0% - 100%	调节音频音量
音调	0.5 - 2.0	调节语音音高

合成配音：

选择好音色后，点击"🎙️ 合成配音"按钮
系统开始合成，显示预计费用（按0.04算力/字符计算）
合成完成后可试听效果

方式二：上传音频

选择"📁 上传音频"标签页

✅ 适用场景：此方式非常适合唱歌数字人模式，可直接上传音乐文件实现数字人唱歌效果。

在线录音 🎙️：使用麦克风实时录音（最长50秒）
上传文件 📁：上传本地音频文件
- 如果音频时长超过50秒，系统会提示裁剪
- 可使用音频剪辑器截取需要的部分

2.3 进入下一步

完成文案输入和音频生成后：

确保音频已生成或上传成功
点击"下一步：生成视频 →"
系统会保存当前配置并跳转到视频生成页面

3生成数字人视频

进入第三步：生成数字人视频。

3.1 音频信息确认

页面左侧显示当前音频信息：

音频时长：显示音频总时长（秒）
音频播放器：可预览当前音频

3.2 模型选择

系统提供两种数字人生成模型：

模型类型	适用场景
普通模型	标准品质，高性价比
高级模型	高品质，专属模型，效果更好

不同模型的价格不同，生成速度也不同，若使用普通模型生成失败时请重新生成或切换到高级模型生成。

💡 选择建议：
• 普通用户或测试阶段建议使用普通模型
• 对效果要求较高或VIP用户可选择高级模型

3.3 提示词配置

提示词用于控制数字人的表情或画面动态效果。

使用说明：

系统会根据选择的模式自动填充默认提示词
提示词限制：120字以内
建议使用系统默认提示词，避免输入大量自定义描述

⚠️ 提示：提示词越多反而会影响AI对画面的理解，建议保持简洁或使用默认提示词。

3.4 提交生成

开始生成：

确认所有配置无误
点击"🚀 生成视频"按钮
系统开始提交任务，显示生成进度

生成过程：

正常情况生成30秒数字人视频预估时间为10-15分钟左右，VIP用户享受插队权限

生成完成：

生成成功后，可点击"📥 下载视频"保存
可点击"🔄 重新生成"使用不同配置
点击"下一步 →"进入剪辑合成步骤

生成失败：

如遇生成失败，可点击"🔄 重新生成"重试
建议尝试切换到高级模型

4剪辑合成与后期处理

进入第四步：剪辑合成。

4.1 字幕识别

开始识别：

确保视频已生成完成
点击"🎙️ 开始识别"按钮
系统将自动识别视频中的语音内容

字幕编辑：

识别结果以句子为单位显示
每个句子显示当前字数/原始字数
如遇错别字需修改字幕文本，直接在输入框中编辑
重要：每个句子的字数必须与原始字幕保持一致，否则无法保存

保存修改：

修改字幕后，点击"💾 保存修改"按钮
如有字数不匹配问题，系统会提示错误

4.2 字幕样式设置

基础设置：

设置项	可选内容
字幕开关	启用 / 禁用
位置	底部居中 / 顶部居中
字体	阿里巴巴大众体
字体大小	12px - 24px（建议选择默认值15px）
字体颜色	颜色选择器
字体描边	颜色选择器

4.3 封面图生成

点击"🖼️ 封面图创作"展开设置面板，可为你的数字人视频生成出配套封面图，封面图用于在自媒体平台发布视频时使用。

快捷模式预设：

预设名称	文字风格	构图方式
💥 爆款大字报	大字报	居中黄金
✨ 极简霓虹	霓虹灯字	负空间
📰 杂志封面	时尚杂志	居中黄金
🤖 赛博故障	故障艺术	对角线
🖌️ 国风书法	毛笔书法	左右对称
🎬 电影质感	简约风	电影宽幕
🎨 可爱卡通	卡通可爱	出血满版
🎭 艺术留白	手写体	负空间

自定义模式：

文字风格可选：大字报、简约风、手写体、故障艺术、毛笔书法、卡通可爱、时尚杂志、霓虹灯字
构图方式可选：居中黄金、电影宽幕、三分法则、左右对称、对角线、画中画框、出血满版、负空间

自定义描述：

可输入额外描述，如"添加光效"、"换金色调"等

生成与使用：

选择预设或自定义设置
点击"生成封面图"按钮
生成完成后可预览效果
点击"使用"保存为当前封面
可点击"下载"保存到本地

4.4 文案创作（标题/描述/标签）

点击"📝 文案创作"展开设置面板，文案用于在自媒体平台发布视频时使用，可生成出完整所需的文案内容。

创作风格选择：

风格	说明
接地气 💬	通俗易懂，亲民风格
悬疑好奇 🤔	引发好奇心的写法
情感共鸣 ❤️	触动人心的表达
幽默搞笑 😄	风趣幽默的风格
知识科普 📚	专业知识的讲解
新闻资讯 📰	新闻播报风格
励志激励 💪	正能量鼓励风格

生成文案：

选择创作风格
点击"生成文案"按钮
系统生成：标题（8字内）、描述（100字内）、标签（10个）
可分别复制各项内容
可点击"复制全部"一键复制

4.5 最终剪辑与导出

字幕视频生成：

确认所有字幕样式和设置
点击"🔄 立即剪辑"按钮
系统开始生成带字幕的视频

下载视频：

生成完成后，点击"⬇️ 下载视频"按钮
视频将在新页面打开，可右键另存为

返回修改：

如需返回上一步修改，点击"← 返回上一步"

5价格说明

配音合成价格

项目	价格	说明
文字配音	0.04 算力/字符	按实际合成字符数计算

声音克隆价格

用户类型	价格	说明
非VIP用户	100 算力/次	首次克隆优惠
VIP用户	0 算力/次	享受免费克隆名额

声音设计价格

用户类型	价格	说明
非VIP用户	100 算力/次	AI设计音色
VIP用户	0 算力/次	享受免费设计名额

形象装修价格

项目	价格	说明
封面图生成	5.00 电力值/次	按生成次数计费

数字人视频价格

模型类型	非VIP用户	VIP用户
普通模型	1.60 算力/秒	0.96 算力/秒
高级模型	2.00 算力/秒	1.32 算力/秒

6常见问题

Q: 提示词有什么作用？

A: 提示词用于控制数字人的表情、动作和画面效果。建议使用系统默认提示词，自定义过多可能导致效果下降。

Q: 普通用户可以克隆几个数字人形象？

A: 普通用户仅可免费克隆1个数字人形象，VIP用户最多免费克隆200个数字人形象。

Q: 如何获得更好的视频效果？

A: 1. 使用高级模型 2. 选择清晰的原始形象照片 3. 适当使用形象装修功能 4. 根据不同模式合理使用场景融合功能

Q: 克隆声音需要多长时间？

A: 一般需要等待几分钟到十几分钟不等，取决于服务器负载。可在"我的音色"中查看处理进度。

Q: 克隆声音效果不理想怎么办？

A: 请确保录音环境安静、声音清晰、语速自然。可重新录制音频尝试，建议参考"克隆音色标准与要求"章节。

Q: 视频生成失败怎么办？

A: 可尝试以下方法：1. 切换到高级模型重试 2. 缩短音频时长 3. 更换形象图片 4. 稍后再试

Q: 探店视频如何做得更真实？

A: 建议在探店模式中使用"背景替换"功能，将真实店铺场景融入数字人形象，这样生成的视频背景与实际环境结合，效果更自然。

Q: 带货视频如何突出商品？

A: 建议在带货模式中使用"商品融合"功能，让数字人"手持商品"或展示商品，讲解时商品与形象结合更真实可信。

Q: 如何生成数字人唱歌视频？

A: 唱歌模式需要使用"上传音频"功能，上传音乐文件（MP3、WAV、M4A格式），数字人将自动同步口型演唱。

Q: VIP有什么特权？

A: VIP用户享受：克隆声音免费、设计音色免费、视频生成6折优惠、优先队列等特权。

0功能概述

一、自媒体与内容创作

二、电商带货与直播引流

三、本地生活与探店推广

四、企业品牌与商业宣传

五、教育培训与知识付费

六、音乐才艺与虚拟偶像

七、金融服务与合规播报

八、政务服务与公共宣传

7案例展示

1选择数字人形象

1.1 选择公共数字人形象

1.2 上传自定义数字人形象

1.3 形象装修功能（DIY）

2文案配音设置

2.1 五种创作模式

2.2 音频来源选择

方式一：配音合成

方式二：上传音频

2.3 进入下一步

3生成数字人视频

3.1 音频信息确认

3.2 模型选择

3.3 提示词配置

3.4 提交生成

4剪辑合成与后期处理

4.1 字幕识别

4.2 字幕样式设置

4.3 封面图生成

4.4 文案创作（标题/描述/标签）

4.5 最终剪辑与导出

5价格说明

配音合成价格

声音克隆价格

声音设计价格

形象装修价格

数字人视频价格

6常见问题

Q: 提示词有什么作用？

Q: 普通用户可以克隆几个数字人形象？

Q: 如何获得更好的视频效果？

Q: 克隆声音需要多长时间？

Q: 克隆声音效果不理想怎么办？

Q: 视频生成失败怎么办？

Q: 探店视频如何做得更真实？

Q: 带货视频如何突出商品？

Q: 如何生成数字人唱歌视频？

Q: VIP有什么特权？

开始您的数字人创作之旅