数字人功能操作教程

欢迎使用酷云AI数字人创作系统!本教程将详细介绍数字人的完整制作流程,从选择形象最终生成视频,帮助您快速上手。

选择形象 文案配音 生成视频 剪辑合成

0功能概述

数字人是酷云AI平台提供的一项智能化视频内容生成工具,用户无需真人出镜、拍摄或专业后期,即可快速制作出由虚拟数字人播报的视频。该功能广泛应用于内容创作、营销推广、电商带货、品牌宣传、教育培训等多个行业场景,帮助个人和企业高效产出高质量视频,降低制作成本与门槛。

一、自媒体与内容创作

应用场景:知识科普、新闻资讯、影视解说、故事讲述、书评分享

怎么用:

  • 创作者无需露脸,选择数字人形象作为"虚拟主播"出镜讲解
  • 通过AI辅助创作快速生成口播文案,搭配系统音色或克隆自己的声音完成配音
  • 结合封面图生成和标题文案功能,一站式产出自媒体成品视频

实现价值:降低出镜门槛,保护个人隐私,保持稳定内容输出频率

二、电商带货与直播引流

应用场景:商品讲解、爆款推荐、直播间预告、产品使用教程

怎么用:

  • 使用带货模式,让数字人以销售口吻讲解商品卖点
  • 通过"商品融合"功能,让数字人形象手持商品或穿戴服饰,模拟真人展示效果
  • 制作直播预热视频,提前在各平台发布引流

实现价值:无需主播实时在线,可批量生产带货视频,持续触达消费者

三、本地生活与探店推广

应用场景:美食打卡、餐厅推荐、酒店体验、景点攻略、店铺宣传

怎么用:

  • 选择探店模式,数字人以探店达人的风格进行沉浸式讲解
  • 使用"背景替换"功能,将餐厅实景、店铺环境等真实场景融入视频背景
  • 结合实地照片配合数字人口播,产出有代入感的种草视频

实现价值:无需真人到店反复拍摄,单次制作即可覆盖多家门店推广需求

四、企业品牌与商业宣传

应用场景:品牌故事、企业文化、产品发布、客户案例、招聘宣传

怎么用:

  • 克隆企业高管或品牌代言人的专属数字人形象,统一对外视觉输出
  • 将品牌介绍、产品发布等文案通过数字人进行专业播报
  • 定期制作企业文化宣传内容,用于官网、公众号、视频号等渠道

实现价值:保持品牌形象一致性,降低真人拍摄协调成本,快速响应宣传需求

五、教育培训与知识付费

应用场景:课程录制、知识点讲解、少儿教育、企业培训、操作演示

怎么用:

  • 教师或讲师录制一次声音后克隆专属音色,后续课程无需反复录制
  • 通过数字人进行标准化课程讲授,配合可调节语速适应不同学段
  • 批量制作知识付费内容,保持授课风格统一

实现价值:大幅降低课程录制时间成本,实现内容标准化、规模化生产

六、音乐才艺与虚拟偶像

应用场景:歌曲翻唱、原创音乐展示、虚拟偶像演唱、节日祝福视频

怎么用:

  • 上传提前准备好的音乐音频文件
  • 数字人自动同步口型进行演唱表演
  • 结合形象装修功能打造独特的虚拟偶像外观

实现价值:无需真人录制演唱视频,快速产出声画同步的音乐表演内容

七、金融服务与合规播报

应用场景:理财产品介绍、保险条款解读、金融知识普及、合规声明播报

怎么用:

  • 将需要向客户说明的金融条款、产品信息输入为播报文案
  • 数字人以专业沉稳的形象进行标准化讲解
  • 确保每次播报内容一致,避免人工口误带来的合规风险

实现价值:内容输出标准化、可追溯,降低人工讲解的偏差风险

八、政务服务与公共宣传

应用场景:政策解读、办事指南、社区通知、安全宣传、健康科普

怎么用:

  • 将政策文件转化为通俗易懂的口播文案
  • 数字人以亲和专业的形象进行播报讲解
  • 批量生成多主题宣传视频,在政务新媒体平台发布

实现价值:提升政务信息传播效率,以生动形式拉近与群众的距离

总结:无论是个人创作者、中小企业还是大型机构,只要需要"有人出镜讲解"的视频内容,数字人都能提供高效、低成本的解决方案,让视频创作不再受限于时间、场地和人力。

7案例展示

以下是数字人功能生成的实际案例视频:

1选择数字人形象

访问 数字人创作 页面后,首先进入第一步:选择数字人形象。

1.1 选择公共数字人形象

在左侧预览区可以看到当前选中的形象,右侧是形象选择区域。

数字人形象选择
精选形象列表界面

精选形象列表:

  • 系统提供了多个预置的数字人形象,分为不同分类
  • 分类包括:全部、我的形象、收藏等
  • 点击分类标签可快速筛选

操作技巧:

  • 点击卡片可选中形象,被选中的卡片会有红色边框高亮
  • 点击星星图标可收藏喜欢的形象
  • 滚动页面可加载更多形象

1.2 上传自定义数字人形象

页面下方提供两种方式创建专属形象:

自定义数字人形象
自定义数字人形象创建

克隆专属数字人形象:

  1. 点击"克隆专属数字人形象"区域
  2. 系统会打开上传界面
  3. 上传一张清晰的照片(建议正面照,光线均匀)
  4. 系统将基于照片克隆专属数字人形象

设计专属数字人:

  1. 点击"设计专属数字人"区域
  2. 进入形象DIY装修界面
  3. 可以自定义调整形象的各种细节

1.3 形象装修功能(DIY)

形象DIY装修
形象DIY装修界面

点击已选形象的"装修"按钮,可进入专业装修模式:

快捷模式:

装修类型 可选场景
人像编辑 精致五官、磨皮美颜、时尚妆容、表情调整
商品融合 手持商品、商品展示、穿戴服饰、配饰添加
背景替换 咖啡厅、办公室、都市夜景、户外风景
商品替换 换手机、换鞋款、换包包、换眼镜

专业模式:

  • 支持上传1-9张参考图
  • 在描述中使用"图1"、"图2"等标记指定位置
  • 更灵活的装修描述
⚠️ 注意事项:
1. 设计时图片中只允许出现一个人脸
2. 人脸最好正镜头或轻微侧面,不可完全侧面

2文案配音设置

选择形象后,点击"下一步"进入第二步文案配音。

数字人第二步
文案配音设置界面

2.1 五种创作模式

根据您的需求选择合适的创作模式:

模式 适用场景 特点
口播讲解 🎤 知识分享、产品评测 数字人气质出众,娓娓道来,增强信任感
探店数字人 🍜 美食打卡、店铺推荐 沉浸式探访体验,真实种草
带货数字人 🛍️ 商品推销、直播预热 聚焦爆款卖点,强化转化话术
唱歌数字人 🎵 音乐展示、才艺表演 声画同步,数字人同步演唱
动漫数字人 🎭 虚拟主播、偶像风格 二次元风格,生动有趣
💡 各模式使用技巧:

探店数字人 🍜:
建议在选择探店模式后,使用"形象DIY装修"功能中的"背景替换"功能,将店铺实际场景(如咖啡厅、餐厅、景区等)融合到数字人形象图中。这样生成的视频背景与真实店铺环境结合,效果更加自然真实,更能打动观众。

带货数字人 🛍️:
建议在选择带货模式后,使用"形象DIY装修"功能中的"商品融合"功能,让数字人形象"手持商品"或"穿戴服饰/配饰"。这样数字人在讲解商品时会更加真实可信,大幅提升带货转化效果。

唱歌数字人 🎵:
唱歌数字人模式仅支持上传音频文件,不支持配音合成功能。您需要提前准备好音乐音频文件(MP3、WAV、M4A格式),上传后数字人将同步口型演唱,实现"数字人唱歌"效果。

2.2 音频来源选择

音频来源选择
音频来源选择界面

方式一:配音合成

选择"🎙️ 配音合成"标签页

⚠️ 注意:配音合成功能不适用于唱歌数字人模式,如需生成唱歌视频,请使用下方"上传音频"功能。

文案输入模式:

  • 自由输入 ✏️:直接在文本框中输入或粘贴文案
    • 支持插入停顿(0.3秒、0.5秒、1秒)
    • 字数限制:230字
    • 显示预计时长(按每秒4字计算)
  • AI创作 🤖:让AI帮您生成文案
    • 需要选择人设(点击选择人设按钮)
    • 可选择关联知识库(点击选择知识库按钮)
    • 根据不同模式,填写对应的表单信息
    • 点击"生成文案"按钮获取AI创作内容

音色选择:

音色类型 说明 获取方式
系统音色 平台预设的多种音色 直接从音色库选择
克隆音色 🎤 复刻您自己的声音 克隆我的声音
设计音色 ✨ AI生成的专属音色 设计专属音色

克隆专属声音流程:

  1. 点击"🎤 克隆我的声音"按钮
克隆音色
克隆音色界面
  1. 选择录音方式:
    • 实时录音:点击开始录音,系统提供参考文本(直播带货、教育培训、小说朗读、音视频配音)
    • 上传音频:拖拽或选择音频文件(支持MP3、WAV、M4A格式,建议10-20秒)
  2. 填写音色名称
  3. 点击"开始复刻"
  4. 复刻任务提交后,可在"我的复刻"中查看进度

🎤 克隆音色标准与要求:

为确保克隆效果达到最佳,请遵守以下标准:

要求类别 标准说明
环境要求 环境不能太嘈杂,选择安静无回声的室内环境,避免空调风声、窗外车流声等背景噪音
录音质量 麦克风距离嘴部约10-15厘米,保持声音清晰;避免喷麦现象
语速语调 模拟真实应用场景的说话风格和语速,自然流畅,避免刻意读稿感
声音内容 避免多人同时说话,只保留单人声音;不要模仿他人音色或变声说话
音频时长 建议录音时长10-20秒,过短会影响克隆效果,过长无额外增益
设备建议 推荐使用耳机或独立麦克风录音,避免使用电脑自带麦克风

设计专属音色流程:

  1. 点击"✨ 设计专属音色"按钮
设计音色
设计专属音色界面
  1. 填写声音描述(建议包含:性别+年龄+音色特点+说话风格)
  2. 填写预览文本(至少15字,建议20-50字)
  3. 填写音色名称
  4. 点击"保存音色"

调节参数:

参数 范围 说明
语速 0.5x - 2.0x 调节语音播放速度
音量 0% - 100% 调节音频音量
音调 0.5 - 2.0 调节语音音高

合成配音:

  1. 选择好音色后,点击"🎙️ 合成配音"按钮
  2. 系统开始合成,显示预计费用(按0.04算力/字符计算)
  3. 合成完成后可试听效果
合成配音
合成配音界面

方式二:上传音频

选择"📁 上传音频"标签页

✅ 适用场景:此方式非常适合唱歌数字人模式,可直接上传音乐文件实现数字人唱歌效果。
  • 在线录音 🎙️:使用麦克风实时录音(最长50秒)
  • 上传文件 📁:上传本地音频文件
    • 如果音频时长超过50秒,系统会提示裁剪
    • 可使用音频剪辑器截取需要的部分

2.3 进入下一步

完成文案输入和音频生成后:

  1. 确保音频已生成或上传成功
  2. 点击"下一步:生成视频 →"
  3. 系统会保存当前配置并跳转到视频生成页面

3生成数字人视频

进入第三步:生成数字人视频。

生成数字人视频第三步
生成数字人视频界面

3.1 音频信息确认

页面左侧显示当前音频信息:

  • 音频时长:显示音频总时长(秒)
  • 音频播放器:可预览当前音频

3.2 模型选择

系统提供两种数字人生成模型:

模型类型 适用场景
普通模型 标准品质,高性价比
高级模型 高品质,专属模型,效果更好

不同模型的价格不同,生成速度也不同,若使用普通模型生成失败时请重新生成或切换到高级模型生成。

💡 选择建议:
• 普通用户或测试阶段建议使用普通模型
• 对效果要求较高或VIP用户可选择高级模型

3.3 提示词配置

提示词用于控制数字人的表情或画面动态效果。

使用说明:

  • 系统会根据选择的模式自动填充默认提示词
  • 提示词限制:120字以内
  • 建议使用系统默认提示词,避免输入大量自定义描述
⚠️ 提示:提示词越多反而会影响AI对画面的理解,建议保持简洁或使用默认提示词。

3.4 提交生成

开始生成:

  1. 确认所有配置无误
  2. 点击"🚀 生成视频"按钮
  3. 系统开始提交任务,显示生成进度

生成过程:

  • 正常情况生成30秒数字人视频预估时间为10-15分钟左右,VIP用户享受插队权限

生成完成:

  • 生成成功后,可点击"📥 下载视频"保存
  • 可点击"🔄 重新生成"使用不同配置
  • 点击"下一步 →"进入剪辑合成步骤

生成失败:

  • 如遇生成失败,可点击"🔄 重新生成"重试
  • 建议尝试切换到高级模型

4剪辑合成与后期处理

进入第四步:剪辑合成。

数字人视频第四步
剪辑合成与后期处理界面

4.1 字幕识别

开始识别:

  1. 确保视频已生成完成
  2. 点击"🎙️ 开始识别"按钮
  3. 系统将自动识别视频中的语音内容

字幕编辑:

  • 识别结果以句子为单位显示
  • 每个句子显示当前字数/原始字数
  • 如遇错别字需修改字幕文本,直接在输入框中编辑
  • 重要:每个句子的字数必须与原始字幕保持一致,否则无法保存

保存修改:

  • 修改字幕后,点击"💾 保存修改"按钮
  • 如有字数不匹配问题,系统会提示错误

4.2 字幕样式设置

基础设置:

设置项 可选内容
字幕开关 启用 / 禁用
位置 底部居中 / 顶部居中
字体 阿里巴巴大众体
字体大小 12px - 24px(建议选择默认值15px)
字体颜色 颜色选择器
字体描边 颜色选择器

4.3 封面图生成

点击"🖼️ 封面图创作"展开设置面板,可为你的数字人视频生成出配套封面图,封面图用于在自媒体平台发布视频时使用。

快捷模式预设:

预设名称 文字风格 构图方式
💥 爆款大字报 大字报 居中黄金
✨ 极简霓虹 霓虹灯字 负空间
📰 杂志封面 时尚杂志 居中黄金
🤖 赛博故障 故障艺术 对角线
🖌️ 国风书法 毛笔书法 左右对称
🎬 电影质感 简约风 电影宽幕
🎨 可爱卡通 卡通可爱 出血满版
🎭 艺术留白 手写体 负空间

自定义模式:

  • 文字风格可选:大字报、简约风、手写体、故障艺术、毛笔书法、卡通可爱、时尚杂志、霓虹灯字
  • 构图方式可选:居中黄金、电影宽幕、三分法则、左右对称、对角线、画中画框、出血满版、负空间

自定义描述:

  • 可输入额外描述,如"添加光效"、"换金色调"等

生成与使用:

  1. 选择预设或自定义设置
  2. 点击"生成封面图"按钮
  3. 生成完成后可预览效果
  4. 点击"使用"保存为当前封面
  5. 可点击"下载"保存到本地

4.4 文案创作(标题/描述/标签)

点击"📝 文案创作"展开设置面板,文案用于在自媒体平台发布视频时使用,可生成出完整所需的文案内容。

创作风格选择:

风格 说明
接地气 💬 通俗易懂,亲民风格
悬疑好奇 🤔 引发好奇心的写法
情感共鸣 ❤️ 触动人心的表达
幽默搞笑 😄 风趣幽默的风格
知识科普 📚 专业知识的讲解
新闻资讯 📰 新闻播报风格
励志激励 💪 正能量鼓励风格

生成文案:

  1. 选择创作风格
  2. 点击"生成文案"按钮
  3. 系统生成:标题(8字内)、描述(100字内)、标签(10个)
  4. 可分别复制各项内容
  5. 可点击"复制全部"一键复制

4.5 最终剪辑与导出

字幕视频生成:

  1. 确认所有字幕样式和设置
  2. 点击"🔄 立即剪辑"按钮
  3. 系统开始生成带字幕的视频

下载视频:

  • 生成完成后,点击"⬇️ 下载视频"按钮
  • 视频将在新页面打开,可右键另存为

返回修改:

  • 如需返回上一步修改,点击"← 返回上一步"

5价格说明

配音合成价格

项目 价格 说明
文字配音 0.04 算力/字符 按实际合成字符数计算

声音克隆价格

用户类型 价格 说明
非VIP用户 100 算力/次 首次克隆优惠
VIP用户 0 算力/次 享受免费克隆名额

声音设计价格

用户类型 价格 说明
非VIP用户 100 算力/次 AI设计音色
VIP用户 0 算力/次 享受免费设计名额

形象装修价格

项目 价格 说明
封面图生成 5.00 电力值/次 按生成次数计费

数字人视频价格

模型类型 非VIP用户 VIP用户
普通模型 1.60 算力/秒 0.96 算力/秒
高级模型 2.00 算力/秒 1.32 算力/秒

6常见问题

Q: 提示词有什么作用?

A: 提示词用于控制数字人的表情、动作和画面效果。建议使用系统默认提示词,自定义过多可能导致效果下降。

Q: 普通用户可以克隆几个数字人形象?

A: 普通用户仅可免费克隆1个数字人形象,VIP用户最多免费克隆200个数字人形象。

Q: 如何获得更好的视频效果?

A: 1. 使用高级模型 2. 选择清晰的原始形象照片 3. 适当使用形象装修功能 4. 根据不同模式合理使用场景融合功能

Q: 克隆声音需要多长时间?

A: 一般需要等待几分钟到十几分钟不等,取决于服务器负载。可在"我的音色"中查看处理进度。

Q: 克隆声音效果不理想怎么办?

A: 请确保录音环境安静、声音清晰、语速自然。可重新录制音频尝试,建议参考"克隆音色标准与要求"章节。

Q: 视频生成失败怎么办?

A: 可尝试以下方法:1. 切换到高级模型重试 2. 缩短音频时长 3. 更换形象图片 4. 稍后再试

Q: 探店视频如何做得更真实?

A: 建议在探店模式中使用"背景替换"功能,将真实店铺场景融入数字人形象,这样生成的视频背景与实际环境结合,效果更自然。

Q: 带货视频如何突出商品?

A: 建议在带货模式中使用"商品融合"功能,让数字人"手持商品"或展示商品,讲解时商品与形象结合更真实可信。

Q: 如何生成数字人唱歌视频?

A: 唱歌模式需要使用"上传音频"功能,上传音乐文件(MP3、WAV、M4A格式),数字人将自动同步口型演唱。

Q: VIP有什么特权?

A: VIP用户享受:克隆声音免费、设计音色免费、视频生成6折优惠、优先队列等特权。

开始您的数字人创作之旅

立即体验酷云AI数字人,让创作更简单高效

立即免费体验