AI Talker爱说数字人操作说明书

  1. 数字人科普

1.1 数字人概述

AI的发展使得扩散模型可以通过学习人类说话视频口型和声音的对比记住对应关系,从而可以反向推理出其他语言发音时的口型变化。数字人的形式也有很多种,照片数字人、视频数字人、三维数字人等。

  • 照片数字人:基于照片生成数字人说话视频,也是口型推理,但是人物除头部有轻微角度变换和口型对应之外其他肢体根本不能动,会产生恐怖谷效应,更多人看到只会觉得更害怕,也不具有商业价值。
  • 视频数字人:发展尤为广泛,因为基于人类视频原始形象,基本效果等同于真人,表情动作都和视频一样自然,且口型推理只处理嘴型部分图像,算力需求更小,成本更低,更具商业价值。
  • 三维数字人:是指纯CG制作的三维模型或者通过人脸扫描“捏脸”生成的,可以变换人的动作,模仿人类表情,但是表情动作仍然不太自然,对于二次元爱好者有娱乐作用,企业虚拟IP有商业价值。

1.2 视频数字人

1.2.1 视频数字人概述

视频数字人的生成技术有数字孪生、TTS文字合成语音、NLP自然语言处理、ASR语音识别技术、LLM大语言模型文案创作等综合性技术及大成者,通过1:1克隆真实人物视频,还原真人视频形象、动作、表情以及无限逼近真人声音的数字分身,所以可以理解为:替你说话的短视频(克隆人),因为可脱离本人拍摄限制,所以可以理解为替你工作的另一个自己。让你真正从繁重的重复性拍摄工作中解放出来,释放你的时间,释放更多可能。

1.2.2 两种技术路径

(1)直接使用视频修改对应音频的口型:即刻复刻形象,支持走动场景视频,效率高,更灵活。AITalker爱说数字人「矩阵版」就是使用此技术。

(2)训练端坐视频根据动作分拆视频片段,推理时根据内容语音自由组合片段生成视频。训练时间长,通常需要6-8小时,只支持端坐或者动作幅度非常小的视频,适用场景不多,但是对于精美场景需求较高的室内场景有更好的支持性。AITalker后续会推出此类产品。

2024年全国两会AI数字人形象复刻被列入新质生产力

1.3 AI Talker爱说数字人

1.3.1 AI Talker爱说数字人概述

数字人可以代替真人出镜,高效一键批量生成口播形式的视频、延长直播带货时长,大幅度节省人力物力成本,提高内容生产效率,解放真人劳动力。视频生成部分适用于企业老板IP打造、新闻主播、知识博主、品牌宣传、产品介绍、课程录制等。

1.3.2 AI Talker爱说数字人优势

节省大量时间

形象重复使用

分工协作更快

代替拍摄团队

视频标准化

制作成本低

跨越语言障碍

不担心员工离职

不受时间影响

不受地点限制

健康状况无惧

批量矩阵获客

1.4 AI Talker数字人做IP的优势

1.4.1 AI赋能落地的价值

AI耳熟能详,每个人使用都会觉得没有价值,其实是因为场景不对,技术只要成熟,不同的组合变成不同的产品,再对应的场景中才会拥有足够的价值。数字人解决的是口播视频效率和成本问题,包括时间成本和人员成本,而且还可以脱离本人,让产品具有更丰富的商业想象力。使用爱说数字人矩阵版,可极大节约拍摄成本的同时,跨越时间和空间冲突,IP本身除拍摄原始素材外,完全可以脱离此事,专注其他更有价值的事情,运营人员可随时生产内容,多平台发布。

1.4.2 稳定&可控

数字人不会受到人类的生理、心理状态以及生活中的各种意外因素影响。他们的表现始终保持稳定,能够按照预设的计划和策略进行活动和内容输出。原始素材越精致,产出效果越好。

1.4.3 定制化&灵活生动

根据内容定位的需要,对数字人的外貌、场景、表现力、语言风格等进行高度灵活定制。一套系统可以打造多个人设,内容产出互不影响,适合矩阵化“造星”。

1.4.4 工作时长无限制

与人类需要休息、有工作时间的限制不同,数字人可以24小时不间断地生产,随时进行内容创作,可以最大限度地扩大一个人的影响力。例如创维老总黄宏生,同时打造「黄宏生企业说」(财经博主)、「黄宏生院长」(教育博主)、「企业家黄宏生」等。

1.4.5 工作地点远程协同

IP博主拍摄好原始素材进行训练之后,即可脱离肉身,去做其他工作。也可以手机端APP随时随地拍摄上传素材进行训练,供创作使用。运营人员即刻可以使用素材进行新的内容创作生产,协同配合

1.4.6 成本急剧降低

相对拍摄口播视频的需求,一次拍摄,多次使用,避免NG错误,口播流利,可以说各种语言,甚至可以直接教授英语课程,时代广场打广告,义务老板娘再也不用学英语了,英语十分钟速成。即使初中毕业的老总也可以给世界各地的员工发新年祝福视频。而这样的视频生产成本大大降低。

  1. AI Talker爱说【矩阵版】使用说明

2.1 【矩阵版】产品说明

数字人矩阵版是专门为企业宣传,个人IP矩阵创作所用,低单价,大批量,一个运营人员代替整个运营团队工作。企业主或IP本人手机端上传视频素材训练,运营人员直接使用素材生产内容,协同无缝衔接。

2.2 【矩阵版】产品优势

(1)专业版口型效果媲美大厂技术,可移动场景支持让数字人更为活灵活现,适用更多场景

(2)形象场景,无限自由定制(单人脸无限素材场景拍摄上传,供内容创作使用)

(3)算力1000点(可生成口型非常准确的专业版视频333分钟,达到五个半小时视频生成时长)

(4)丰富公共音色(100音色包括普通话、方言、外语等音频生成不再另外计费,魔音工坊按字收费一年近千元)

(5)声音克隆(使用极具个性化的音色,一次克隆长期使用,效果顶级)

(6)配音生成,无论公共音色还是声音克隆,均不再单独收取费用(推理数量不限,某国外网站按字计费,10万字近150元,剪映200字1元钱)

(7)附送100多标准版公模,口型效果略差,但是成本更低。

(8)批量视频剪辑:调整画面大小位置、识别字幕、背景音乐、声音大小等基础剪辑的批量操作

(9)其他AI工具:限500次/年

  • AI智能文案,更方便内容生产和创作
  • 文案公式,分析他人视频文案并重新撰写,提供优质标题以及文案的修改工具
  • 文案裂变,同一内容,通过AI编写多段不同文案,避免内容重复影响矩阵效果
  • coze、文心一言、豆包等平台账号同步登录和AI工具的使用

2.3 使用终端

Web端:登录web端

安卓端:扫描下方二维码登录

2.4 购买流程

(1)与DK渠道商沟通确认购买产品。

(2)提供作为账号的手机号码。

(3)等待系统账号开通即可登录使用。

2.5 使用流程

注意事项:视频形象训练仅对应一个形象

首次上传第一个素材必须是使用者本人!

首次上传第一个素材必须是使用者本人!!

首次上传第一个素材必须是使用者本人!!

因测试或者错误上传,致使后续无法更换形象,概不负责。

2.5.1 【电脑网页端】登录使用

(1)确认开通账号后,打开网址https://ip.doocor.com/#/login,输入您的手机号,通过手机验证码登录。

(2)登录后即可看到以下页面,左侧有数字人、短视频等菜单。

2.5.2 形象定制

(1)「数字人」即有「形象定制」页面,找到「管理数字人

(2)可看到已拥有的数字形象权限,可以「管理形象」,注意不要创建数字人,那是单独添加人脸所用,需要购买卡密激活。

(3)可添加您的视频素材,进行训练。

注意形象权限仅限一张人脸!!!

注意形象权限仅限一张人脸!!!

注意形象权限仅限一张人脸!!!

※ ※ ※ 第一个视频人物决定后续只可使用此人视频进行训练,不可修改。※ ※ ※

(4)训练完成的形象会显示在此处,不再使用的形象可关闭状态。

(5)点击左侧灰色框区域即可上传录制的视频进行训练。或手机扫描二维码直接上传手机拍摄视频。为形象命名,并选择【专业版】切记!专业版口型更准确,否则生成效果口型准确度较低。

(6)训练完成即可在形象定制页面看到可用的场景素材,确定是专业版即可。

视频训练瞬间即可完成,现在就可以去生成视频啦~是不是非常简单?只需要上传视频即可完成训练。

(7)AI数字人录制过程视频讲解

English shooting instructions.
中文克隆说明

2.5.3 声音克隆

(1)声音定制分类:分为极速版精品版

极速版」需要10-20秒音频上传即可,快速复刻。可推理中英文文案,偶尔亦可生成日、韩文案。

–不限克隆次数

精品版」单账号只可训练一次,音频时长需要10-20分钟,通过卡密进行提交训练,克隆时效1个工作日完成。如果您的声音具有丰富的表现力和情绪表达,可以使用此声音克隆。

–每账号最多拥有一个精品克隆,不支持退款。请慎重确认原始音频声音清晰,感情丰富,再进行克隆。

(2)声音定制流程

a. 【数字人】-【声音定制】页面点击「定制声音」按钮,即可开始声音定制。

b. 「描述」部分可设定关键词:例如悲伤、生气、激昂、轻柔等,便于区分。

c. 上传完成提交即可等待克隆完成(声音克隆完成后不可试听),可「语音合成」输入一些文案试听克隆效果,如果不满意可以删除重新训练。

d. 精品声音克隆需要输入单独秘钥才可提交训练。

2.5.4 视频生成

视频生成即使用训练完成的场景素材,根据新的声音,重新匹配嘴型的过程。

  • 点击左侧「短视频」菜单,即可到生成视频页面。
  • 可以查看自己剩余算力数量,并且可以通过卡密形式充值。下方生成完成的视频即可点击查看视频。
  • 点击「新增」即可创建短视频。
  • 选择左侧形象场景,确定使用哪个视频素材进行视频生成
  • 上传音频
  • 设置视频分组,点击【确定】按钮即可生成视频。

注意:若初始没有分组,输入分组名称后回车即可创建分组

2.5.5 关于音频

(1)音频生成有3种方式

  • 声音克隆,生成语音
  • 公共音色,生成配音
  • 录制音频上传

(2)音频菜单分为4部分

  • 我的音频:已经生成或者上传的音频文件,更换场景可重复使用。
  • 语音合成:包括声音克隆音色和其他中外100+音色可使用
  • 上传录音文件:直接用真人录音上传驱动数字人视频生成
  • 在线录音:如果有录音设备可以直接录制,但是如果口播不流利通常不建议使用

(3)克隆音色和语音合成都是将文字转化为声音的过程,数字人视频的生成都是用声音驱动原始视频的口型与声音相符。

(4)AI生成文案,次数限制,500次/年有效期。

(5)删除旁白背景描述文字,即可直接生成语音,如果生成失败,尝试减少文字至300字以内。

(6)生成即可点击播放按钮试听声音,效果满意即可设定【音频分组】点击确定按钮,保存声音,去生成视频。

(7)若已进行声音克隆,即会在【我的定制】下看到克隆出来的音色,选择即可使用自己的声音生成音频。

(8)同样点击选中(卡片边框变为蓝色)卡片,选择之后下方输入文字即刻合成语音,并且试听效果。

更为逼真效果的数字人,其实还是录音音频驱动效果最好!因为人说话有更强烈的抑扬顿挫、停顿、甚至错误,是这些使得视频更为逼真。

(9)使用「上传文件」即可上传音频,上传后等待文字识别,确认口型驱动的文字发音准确即可合成视频。

(10)视频合成需要等待时间大概为1:4,即一分钟视频大概需要4-5分钟合成完成,请耐心等待,并且刷新「短视频」页面查看合成结果状态。

2.5.6 【安卓APP端】登录使用

(1)APP下载

(2)使用说明

a. 通过手机号+验证码方式进行登录

b. 登陆后首页可以看到有短视频、实景直播、智能直播等模块,此时点击AI形象定制,进入到[定制AI数字人]页面

c. 在[定制AI数字人]页面可以通过卡密形式添加数字人(通常账号开通时已完成创建)

d. 在[定制AI数字人]页面点击对应的数字人进入到[数字人形象]页面

e. 在[数字人形象]页面点击右上角的创建按钮,会弹出[创建数字人形象]浮层,点击上传视频,选择手机中已经拍摄好的视频文件进行上传,数字人形象版本中选择V3专业,则训练的更加完美,都操作完之后点击提交,即可训练完成,训练完成的数字人形象会显示在[数字人形象]页面

f. 开始制作短视频,在[首页]中点击「短视频」卡片,会弹出[选择数字人]浮层,在定制形象中可以看到刚刚创建并训练好的形象,选择一个形象进入到[数字人短视频]页面

通常手机端训练好,运营人员即刻远程看到形象进行视频创作,方便老板或IP本人远在天涯,亦可随时随地协作创作。

g. 选择好形象后开始制作音频,同样三种方式制作音频:

  • 语音合成,输入文字合成声音,可以使用自己的克隆音色(如果有)
  • 上传手机中已有的录音音频,录音具有更逼真的视频效果哦~
  • 点击录音进行实时录制,即刻录制,方便快捷,随时随地,灵感不丢失~

  选择后提交即可等待视频生成啦~

h. 等待视频生成后,在[首页]的作品管理中便可看到刚刚创建的视频

APP可以作为视频博主本人上传视频素材使用,即刻上传,远程运营人员即刻使用创作内容。

  1. 形象克隆拍摄要求

技术先进,要求甚少,但依然需要注意以下几点:

(1)保持视频嘴部不被遮挡!

(2)尽量侧脸不要超过45度,完整嘴部始终在镜头中。

(3)抬头低头角度也不要太大。

(4)如果是走动、开车尽量训练视频时长大于生成内容时长,通常3-5分钟即可,否则会产生视频倒放情况。

(5)拿着产品介绍的时候记录不要有拆封动作,否则视频时间过长会产生倒放会让包装回到未拆之前状态。

(6)若用剪映压缩原视频,导出时视频编码一定要用H.264格式,HEVC格式在APP端上传不支持。

4.1 极速版

(1)金同学

原音

中文克隆效果

英文克隆效果

韩语克隆效果

日语克隆效果

(2)仓卯

原音

中文克隆效果

英文克隆效果

日语克隆效果

4.2 精品版

4.2.1 精品版概述

精品版,需要人工调教训练,上传文件或者给到工作人员备注名字和电话。精品版声音可以模仿多情绪,在文案生成时可以不同的抑扬顿挫,但是需要原始音频的声音表现力较好。

克隆效果如下:

4.2.1 精品版声音克隆要求

(1)安静的环境;

(2)讲话流畅,有正常停顿,情绪自然(不建议朗诵的情绪,最终要做短视频的,可以考虑直接拿后续准备做短视频的文案更佳,情绪和语速都会更自然,给人讲课或者和人自然对话的感觉最佳);

(3)开头念26个英文字幕(可以读出类似AI这种);

(4)录音文件先录制一分钟的,自己先试听感受下声音的效果是否满意,原始音频满意克隆结果才可能满意;

(5)优秀的语音克隆需要至少10分钟原始音频,不要更换环境,避免不同的背景音,也避免声音大小不一样情况;

(6)手机放在桌上正常讲话即可,不要对准手机麦克风或用耳机录制,否则会有喷麦杂音或电音杂音;

(7)说错了无所谓,可以继续说,避免停顿,AI克隆不懂读的声音,但是可以理解说话的节奏和声音起伏;

(8)最后可以统一使用剪映处理,例如统一音量大小,响度统一、人声美化、人声分离(保留人声)、音频降噪等。

优秀的原始音频素材克隆效果才会更好哦~

5.案例展示

端坐数字人效果

移动数字人效果

走动数字人效果

其他视频范例

其他问题解答

(1)套餐分几种?分别包含什么?

  • 两种。试用套餐:单人脸+3个场景+6点算力(2分钟视频生成时长)。
  • 标准套餐:单人脸+无限场景+1000算力(约333分钟,5.5小时视频生成时长)。
  • 每分钟生成视频消耗3点算力,不满一分钟按一分钟计算。

(2)标准版和专业版区别是什么?

  • 标准版口型准确度比专业版略差,对于口型效果要求不高的场景,可以选择标准版进行视频制作,例如课程讲解课件制作过程,可避免授课老师亲临现场录制的繁琐事务。

(3)如何购买

  • 与缔科确认产品及服务内容,具体产品或服务价格以报价为准。付款购买后工作人员会按购买套餐开通账号。

(4)有效期多久?

  • 形象数量自第一个形象上传时起一年,续费自动延期一年;算力有效期自充值日起一年,续费不延期。

(5)算力如何理解?到底如何计算时长的?

  • 短视频算力是用来生成短视频所需消耗的积分,V3标准版模型生产1分钟短视频需要消耗1个算力,V3专业版生产1分钟以内视频需要消耗3个算力。不满一分钟按一分钟计算。视频最长不可超过3分钟,长视频建议分多个视频制作。

(6)为何我APP上传视频总是失败?

  • 视频格式编码有要求,记得剪映优化后的视频导出时视频编码必须是H.264格式!

1)拍摄视频,竖屏为主:9*16、1080*1920,正常拍摄30秒到120秒的原素材即可!

2)视频格式必须是MP4或者MOV两种格式!

如不是这两种格式的视频是上传不了的!望知晓!

如果是苹果手机拍摄的,将视频发到安卓手机里,然后导入剪映(最好是使用电脑剪映比较方便)

注意‼剪辑设置一下比例9*16、再导出视频选择1080*1920,格式选择MP4,H.264为准!

3)视频大小,手机上传不能超过200M.电脑上传不能超过500M。

(7)为何批量生成提交不了?

  • 提交生成序列不能同时超过10个,建议其他视频生成完之后再行提交生成任务。

(8)上传录音无法识别?

  • 可能语种超出识别范围无法解析,故无法进行口型匹配,无法生成。另外视频生成上限为3分钟,注意音频时长。