0功能概述
数字人是酷云AI平台提供的一项智能化视频内容生成工具,用户无需真人出镜、拍摄或专业后期,即可快速制作出由虚拟数字人播报的视频。该功能广泛应用于内容创作、营销推广、电商带货、品牌宣传、教育培训等多个行业场景,帮助个人和企业高效产出高质量视频,降低制作成本与门槛。
一、自媒体与内容创作
应用场景:知识科普、新闻资讯、影视解说、故事讲述、书评分享
怎么用:
- 创作者无需露脸,选择数字人形象作为"虚拟主播"出镜讲解
- 通过AI辅助创作快速生成口播文案,搭配系统音色或克隆自己的声音完成配音
- 结合封面图生成和标题文案功能,一站式产出自媒体成品视频
实现价值:降低出镜门槛,保护个人隐私,保持稳定内容输出频率
二、电商带货与直播引流
应用场景:商品讲解、爆款推荐、直播间预告、产品使用教程
怎么用:
- 使用带货模式,让数字人以销售口吻讲解商品卖点
- 通过"商品融合"功能,让数字人形象手持商品或穿戴服饰,模拟真人展示效果
- 制作直播预热视频,提前在各平台发布引流
实现价值:无需主播实时在线,可批量生产带货视频,持续触达消费者
三、本地生活与探店推广
应用场景:美食打卡、餐厅推荐、酒店体验、景点攻略、店铺宣传
怎么用:
- 选择探店模式,数字人以探店达人的风格进行沉浸式讲解
- 使用"背景替换"功能,将餐厅实景、店铺环境等真实场景融入视频背景
- 结合实地照片配合数字人口播,产出有代入感的种草视频
实现价值:无需真人到店反复拍摄,单次制作即可覆盖多家门店推广需求
四、企业品牌与商业宣传
应用场景:品牌故事、企业文化、产品发布、客户案例、招聘宣传
怎么用:
- 克隆企业高管或品牌代言人的专属数字人形象,统一对外视觉输出
- 将品牌介绍、产品发布等文案通过数字人进行专业播报
- 定期制作企业文化宣传内容,用于官网、公众号、视频号等渠道
实现价值:保持品牌形象一致性,降低真人拍摄协调成本,快速响应宣传需求
五、教育培训与知识付费
应用场景:课程录制、知识点讲解、少儿教育、企业培训、操作演示
怎么用:
- 教师或讲师录制一次声音后克隆专属音色,后续课程无需反复录制
- 通过数字人进行标准化课程讲授,配合可调节语速适应不同学段
- 批量制作知识付费内容,保持授课风格统一
实现价值:大幅降低课程录制时间成本,实现内容标准化、规模化生产
六、音乐才艺与虚拟偶像
应用场景:歌曲翻唱、原创音乐展示、虚拟偶像演唱、节日祝福视频
怎么用:
- 上传提前准备好的音乐音频文件
- 数字人自动同步口型进行演唱表演
- 结合形象装修功能打造独特的虚拟偶像外观
实现价值:无需真人录制演唱视频,快速产出声画同步的音乐表演内容
七、金融服务与合规播报
应用场景:理财产品介绍、保险条款解读、金融知识普及、合规声明播报
怎么用:
- 将需要向客户说明的金融条款、产品信息输入为播报文案
- 数字人以专业沉稳的形象进行标准化讲解
- 确保每次播报内容一致,避免人工口误带来的合规风险
实现价值:内容输出标准化、可追溯,降低人工讲解的偏差风险
八、政务服务与公共宣传
应用场景:政策解读、办事指南、社区通知、安全宣传、健康科普
怎么用:
- 将政策文件转化为通俗易懂的口播文案
- 数字人以亲和专业的形象进行播报讲解
- 批量生成多主题宣传视频,在政务新媒体平台发布
实现价值:提升政务信息传播效率,以生动形式拉近与群众的距离
7案例展示
以下是数字人功能生成的实际案例视频:
1选择数字人形象
访问 数字人创作 页面后,首先进入第一步:选择数字人形象。
1.1 选择公共数字人形象
在左侧预览区可以看到当前选中的形象,右侧是形象选择区域。
精选形象列表:
- 系统提供了多个预置的数字人形象,分为不同分类
- 分类包括:全部、我的形象、收藏等
- 点击分类标签可快速筛选
操作技巧:
- 点击卡片可选中形象,被选中的卡片会有红色边框高亮
- 点击星星图标可收藏喜欢的形象
- 滚动页面可加载更多形象
1.2 上传自定义数字人形象
页面下方提供两种方式创建专属形象:
克隆专属数字人形象:
- 点击"克隆专属数字人形象"区域
- 系统会打开上传界面
- 上传一张清晰的照片(建议正面照,光线均匀)
- 系统将基于照片克隆专属数字人形象
设计专属数字人:
- 点击"设计专属数字人"区域
- 进入形象DIY装修界面
- 可以自定义调整形象的各种细节
1.3 形象装修功能(DIY)
点击已选形象的"装修"按钮,可进入专业装修模式:
快捷模式:
| 装修类型 | 可选场景 |
|---|---|
| 人像编辑 | 精致五官、磨皮美颜、时尚妆容、表情调整 |
| 商品融合 | 手持商品、商品展示、穿戴服饰、配饰添加 |
| 背景替换 | 咖啡厅、办公室、都市夜景、户外风景 |
| 商品替换 | 换手机、换鞋款、换包包、换眼镜 |
专业模式:
- 支持上传1-9张参考图
- 在描述中使用"图1"、"图2"等标记指定位置
- 更灵活的装修描述
1. 设计时图片中只允许出现一个人脸
2. 人脸最好正镜头或轻微侧面,不可完全侧面
2文案配音设置
选择形象后,点击"下一步"进入第二步文案配音。
2.1 五种创作模式
根据您的需求选择合适的创作模式:
| 模式 | 适用场景 | 特点 |
|---|---|---|
| 口播讲解 🎤 | 知识分享、产品评测 | 数字人气质出众,娓娓道来,增强信任感 |
| 探店数字人 🍜 | 美食打卡、店铺推荐 | 沉浸式探访体验,真实种草 |
| 带货数字人 🛍️ | 商品推销、直播预热 | 聚焦爆款卖点,强化转化话术 |
| 唱歌数字人 🎵 | 音乐展示、才艺表演 | 声画同步,数字人同步演唱 |
| 动漫数字人 🎭 | 虚拟主播、偶像风格 | 二次元风格,生动有趣 |
探店数字人 🍜:
建议在选择探店模式后,使用"形象DIY装修"功能中的"背景替换"功能,将店铺实际场景(如咖啡厅、餐厅、景区等)融合到数字人形象图中。这样生成的视频背景与真实店铺环境结合,效果更加自然真实,更能打动观众。
带货数字人 🛍️:
建议在选择带货模式后,使用"形象DIY装修"功能中的"商品融合"功能,让数字人形象"手持商品"或"穿戴服饰/配饰"。这样数字人在讲解商品时会更加真实可信,大幅提升带货转化效果。
唱歌数字人 🎵:
唱歌数字人模式仅支持上传音频文件,不支持配音合成功能。您需要提前准备好音乐音频文件(MP3、WAV、M4A格式),上传后数字人将同步口型演唱,实现"数字人唱歌"效果。
2.2 音频来源选择
方式一:配音合成
选择"🎙️ 配音合成"标签页
文案输入模式:
- 自由输入 ✏️:直接在文本框中输入或粘贴文案
- 支持插入停顿(0.3秒、0.5秒、1秒)
- 字数限制:230字
- 显示预计时长(按每秒4字计算)
- AI创作 🤖:让AI帮您生成文案
- 需要选择人设(点击选择人设按钮)
- 可选择关联知识库(点击选择知识库按钮)
- 根据不同模式,填写对应的表单信息
- 点击"生成文案"按钮获取AI创作内容
音色选择:
| 音色类型 | 说明 | 获取方式 |
|---|---|---|
| 系统音色 | 平台预设的多种音色 | 直接从音色库选择 |
| 克隆音色 🎤 | 复刻您自己的声音 | 克隆我的声音 |
| 设计音色 ✨ | AI生成的专属音色 | 设计专属音色 |
克隆专属声音流程:
- 点击"🎤 克隆我的声音"按钮
- 选择录音方式:
- 实时录音:点击开始录音,系统提供参考文本(直播带货、教育培训、小说朗读、音视频配音)
- 上传音频:拖拽或选择音频文件(支持MP3、WAV、M4A格式,建议10-20秒)
- 填写音色名称
- 点击"开始复刻"
- 复刻任务提交后,可在"我的复刻"中查看进度
🎤 克隆音色标准与要求:
为确保克隆效果达到最佳,请遵守以下标准:
| 要求类别 | 标准说明 |
|---|---|
| 环境要求 | 环境不能太嘈杂,选择安静无回声的室内环境,避免空调风声、窗外车流声等背景噪音 |
| 录音质量 | 麦克风距离嘴部约10-15厘米,保持声音清晰;避免喷麦现象 |
| 语速语调 | 模拟真实应用场景的说话风格和语速,自然流畅,避免刻意读稿感 |
| 声音内容 | 避免多人同时说话,只保留单人声音;不要模仿他人音色或变声说话 |
| 音频时长 | 建议录音时长10-20秒,过短会影响克隆效果,过长无额外增益 |
| 设备建议 | 推荐使用耳机或独立麦克风录音,避免使用电脑自带麦克风 |
设计专属音色流程:
- 点击"✨ 设计专属音色"按钮
- 填写声音描述(建议包含:性别+年龄+音色特点+说话风格)
- 填写预览文本(至少15字,建议20-50字)
- 填写音色名称
- 点击"保存音色"
调节参数:
| 参数 | 范围 | 说明 |
|---|---|---|
| 语速 | 0.5x - 2.0x | 调节语音播放速度 |
| 音量 | 0% - 100% | 调节音频音量 |
| 音调 | 0.5 - 2.0 | 调节语音音高 |
合成配音:
- 选择好音色后,点击"🎙️ 合成配音"按钮
- 系统开始合成,显示预计费用(按0.04算力/字符计算)
- 合成完成后可试听效果
方式二:上传音频
选择"📁 上传音频"标签页
- 在线录音 🎙️:使用麦克风实时录音(最长50秒)
- 上传文件 📁:上传本地音频文件
- 如果音频时长超过50秒,系统会提示裁剪
- 可使用音频剪辑器截取需要的部分
2.3 进入下一步
完成文案输入和音频生成后:
- 确保音频已生成或上传成功
- 点击"下一步:生成视频 →"
- 系统会保存当前配置并跳转到视频生成页面
3生成数字人视频
进入第三步:生成数字人视频。
3.1 音频信息确认
页面左侧显示当前音频信息:
- 音频时长:显示音频总时长(秒)
- 音频播放器:可预览当前音频
3.2 模型选择
系统提供两种数字人生成模型:
| 模型类型 | 适用场景 |
|---|---|
| 普通模型 | 标准品质,高性价比 |
| 高级模型 | 高品质,专属模型,效果更好 |
不同模型的价格不同,生成速度也不同,若使用普通模型生成失败时请重新生成或切换到高级模型生成。
• 普通用户或测试阶段建议使用普通模型
• 对效果要求较高或VIP用户可选择高级模型
3.3 提示词配置
提示词用于控制数字人的表情或画面动态效果。
使用说明:
- 系统会根据选择的模式自动填充默认提示词
- 提示词限制:120字以内
- 建议使用系统默认提示词,避免输入大量自定义描述
3.4 提交生成
开始生成:
- 确认所有配置无误
- 点击"🚀 生成视频"按钮
- 系统开始提交任务,显示生成进度
生成过程:
- 正常情况生成30秒数字人视频预估时间为10-15分钟左右,VIP用户享受插队权限
生成完成:
- 生成成功后,可点击"📥 下载视频"保存
- 可点击"🔄 重新生成"使用不同配置
- 点击"下一步 →"进入剪辑合成步骤
生成失败:
- 如遇生成失败,可点击"🔄 重新生成"重试
- 建议尝试切换到高级模型
4剪辑合成与后期处理
进入第四步:剪辑合成。
4.1 字幕识别
开始识别:
- 确保视频已生成完成
- 点击"🎙️ 开始识别"按钮
- 系统将自动识别视频中的语音内容
字幕编辑:
- 识别结果以句子为单位显示
- 每个句子显示当前字数/原始字数
- 如遇错别字需修改字幕文本,直接在输入框中编辑
- 重要:每个句子的字数必须与原始字幕保持一致,否则无法保存
保存修改:
- 修改字幕后,点击"💾 保存修改"按钮
- 如有字数不匹配问题,系统会提示错误
4.2 字幕样式设置
基础设置:
| 设置项 | 可选内容 |
|---|---|
| 字幕开关 | 启用 / 禁用 |
| 位置 | 底部居中 / 顶部居中 |
| 字体 | 阿里巴巴大众体 |
| 字体大小 | 12px - 24px(建议选择默认值15px) |
| 字体颜色 | 颜色选择器 |
| 字体描边 | 颜色选择器 |
4.3 封面图生成
点击"🖼️ 封面图创作"展开设置面板,可为你的数字人视频生成出配套封面图,封面图用于在自媒体平台发布视频时使用。
快捷模式预设:
| 预设名称 | 文字风格 | 构图方式 |
|---|---|---|
| 💥 爆款大字报 | 大字报 | 居中黄金 |
| ✨ 极简霓虹 | 霓虹灯字 | 负空间 |
| 📰 杂志封面 | 时尚杂志 | 居中黄金 |
| 🤖 赛博故障 | 故障艺术 | 对角线 |
| 🖌️ 国风书法 | 毛笔书法 | 左右对称 |
| 🎬 电影质感 | 简约风 | 电影宽幕 |
| 🎨 可爱卡通 | 卡通可爱 | 出血满版 |
| 🎭 艺术留白 | 手写体 | 负空间 |
自定义模式:
- 文字风格可选:大字报、简约风、手写体、故障艺术、毛笔书法、卡通可爱、时尚杂志、霓虹灯字
- 构图方式可选:居中黄金、电影宽幕、三分法则、左右对称、对角线、画中画框、出血满版、负空间
自定义描述:
- 可输入额外描述,如"添加光效"、"换金色调"等
生成与使用:
- 选择预设或自定义设置
- 点击"生成封面图"按钮
- 生成完成后可预览效果
- 点击"使用"保存为当前封面
- 可点击"下载"保存到本地
4.4 文案创作(标题/描述/标签)
点击"📝 文案创作"展开设置面板,文案用于在自媒体平台发布视频时使用,可生成出完整所需的文案内容。
创作风格选择:
| 风格 | 说明 |
|---|---|
| 接地气 💬 | 通俗易懂,亲民风格 |
| 悬疑好奇 🤔 | 引发好奇心的写法 |
| 情感共鸣 ❤️ | 触动人心的表达 |
| 幽默搞笑 😄 | 风趣幽默的风格 |
| 知识科普 📚 | 专业知识的讲解 |
| 新闻资讯 📰 | 新闻播报风格 |
| 励志激励 💪 | 正能量鼓励风格 |
生成文案:
- 选择创作风格
- 点击"生成文案"按钮
- 系统生成:标题(8字内)、描述(100字内)、标签(10个)
- 可分别复制各项内容
- 可点击"复制全部"一键复制
4.5 最终剪辑与导出
字幕视频生成:
- 确认所有字幕样式和设置
- 点击"🔄 立即剪辑"按钮
- 系统开始生成带字幕的视频
下载视频:
- 生成完成后,点击"⬇️ 下载视频"按钮
- 视频将在新页面打开,可右键另存为
返回修改:
- 如需返回上一步修改,点击"← 返回上一步"
5价格说明
配音合成价格
| 项目 | 价格 | 说明 |
|---|---|---|
| 文字配音 | 0.04 算力/字符 | 按实际合成字符数计算 |
声音克隆价格
| 用户类型 | 价格 | 说明 |
|---|---|---|
| 非VIP用户 | 100 算力/次 | 首次克隆优惠 |
| VIP用户 | 0 算力/次 | 享受免费克隆名额 |
声音设计价格
| 用户类型 | 价格 | 说明 |
|---|---|---|
| 非VIP用户 | 100 算力/次 | AI设计音色 |
| VIP用户 | 0 算力/次 | 享受免费设计名额 |
形象装修价格
| 项目 | 价格 | 说明 |
|---|---|---|
| 封面图生成 | 5.00 电力值/次 | 按生成次数计费 |
数字人视频价格
| 模型类型 | 非VIP用户 | VIP用户 |
|---|---|---|
| 普通模型 | 1.60 算力/秒 | 0.96 算力/秒 |
| 高级模型 | 2.00 算力/秒 | 1.32 算力/秒 |
6常见问题
Q: 提示词有什么作用?
A: 提示词用于控制数字人的表情、动作和画面效果。建议使用系统默认提示词,自定义过多可能导致效果下降。
Q: 普通用户可以克隆几个数字人形象?
A: 普通用户仅可免费克隆1个数字人形象,VIP用户最多免费克隆200个数字人形象。
Q: 如何获得更好的视频效果?
A: 1. 使用高级模型 2. 选择清晰的原始形象照片 3. 适当使用形象装修功能 4. 根据不同模式合理使用场景融合功能
Q: 克隆声音需要多长时间?
A: 一般需要等待几分钟到十几分钟不等,取决于服务器负载。可在"我的音色"中查看处理进度。
Q: 克隆声音效果不理想怎么办?
A: 请确保录音环境安静、声音清晰、语速自然。可重新录制音频尝试,建议参考"克隆音色标准与要求"章节。
Q: 视频生成失败怎么办?
A: 可尝试以下方法:1. 切换到高级模型重试 2. 缩短音频时长 3. 更换形象图片 4. 稍后再试
Q: 探店视频如何做得更真实?
A: 建议在探店模式中使用"背景替换"功能,将真实店铺场景融入数字人形象,这样生成的视频背景与实际环境结合,效果更自然。
Q: 带货视频如何突出商品?
A: 建议在带货模式中使用"商品融合"功能,让数字人"手持商品"或展示商品,讲解时商品与形象结合更真实可信。
Q: 如何生成数字人唱歌视频?
A: 唱歌模式需要使用"上传音频"功能,上传音乐文件(MP3、WAV、M4A格式),数字人将自动同步口型演唱。
Q: VIP有什么特权?
A: VIP用户享受:克隆声音免费、设计音色免费、视频生成6折优惠、优先队列等特权。
开始您的数字人创作之旅
立即体验酷云AI数字人,让创作更简单高效
立即免费体验