今天,腾讯“数智人工厂”正式开工!
如何低成本低门槛生成数智人?
让我们“进厂”一起看看:
深圳市腾讯公仔厂
一家全球领先的综合公仔厂商
生产的企鹅公仔,驰名中外
公仔很火,步履不停的鹅
亦有新征途
今天,腾讯用黑科技建的“新厂”
——“数智人工厂”
剪彩开工!
从前,鹅制作一只“公仔分身”
需要选材、剪裁、缝纫、填充
等一系列流程
现在,通过“数智人工厂”
鹅用一段3分钟的口播视频
就能生成自己的“数字分身”
“数字分身”可以用在很多场景
如短视频讲解、新闻播报、直播带货等
很忙的鹅仔
工作“解压”有了新方式!
输入文本,就能即刻生成一段
堪比真人出镜的口播视频
并且不走化妆流程、不会卡壳NG
不用架机打光、不占室内空间
如果按照正常线下录制
日更频率,每次录制2小时计算
用数字分身一年可节省700+小时
约1个月的时间
大大解放生产力!
“3分钟”生成的“数字分身”
就是腾讯云智能小样本数智人
背后是鹅用一系列黑科技
打造的“数智人工厂生产管线”
首先,当我们上传了一段
3分钟的口播视频后
腾讯安全天御风控系统
会完成一轮AI审核
那些“不可描述”的视频
都会被快速筛掉
而后,基于腾讯优图
图像数据增强、AI去除背景等能力
能够快速把视频口播真人
从视频中独立“提取”出来
接着,就来到了这条产线的重点
对脸部进行3D建模
如同钻石切面一样
腾讯优图将人脸分割成3万+“面片”
既保证渲染速度,也保证精细化
更考验的,是唇部的智能呈现
我们的目标是:
输入任意一句话?
都能对应上正确的唇形+ 发音
这种输入-输出
被称为“端到端”的过程
因为过程无法人工介入
流程不透明,就像个黑匣子
最后出来的是惊喜还是惊吓
很依赖黑匣子中AI模型的专业性
腾讯早在19年提出DurIAN模型
可以很好的解决黑匣子里的问题
保证口型参数和声学参数的“稳定输出”
首先是口型参数:唇形
每一个文字发音,都由音素构成
例如,“好”是由“声母h”和
“带调韵母 ao3”两个音素构成
每一个音素可对应唇部附近多个坐标
从而对应上正确的唇形
而学习音素和唇形的对应关系
只是基本功
更难的是两个唇形间的过渡
比如“好(h-ao)”和“嗨(h-ai)”
虽然第一个音素都相同
但是唇形过渡却有细小变化
而新的唇形驱动模型能准确把握细节
其次,是声学参数:发音
通过AI合成模型的不断迭代
除了可以通过TTS技术(Text To Speech)
将文本正确、快速的转化为
媲拟真人的语音外
AI还能通过学习真人上传的
100句话“小样本”
复刻出相同的音色
为了做到发音更“类人”
AI模型还可以判定一段文字中
哪里该读重音,哪里该停顿
哪里情绪有变化,多音字读哪个音等
而小样本“数字分身”的
动作、面部表情
则复刻于3分钟的口播视频
AI只需全神贯注唇部附近的建模
保证分身质量同时
大大减少生成成本
实现“数智人”的高产
——“数智人工厂”诞生!
客户通过API形式
就能调用“工厂”里对应的数智人
虽是“小样本”
但背后的AI模型却是基于
“大规模”的数据训练所得
虽是“2D真人”
但背后却是“3D”人像能力在支撑
做到了??
“用跑车的性能服务家用轿车用户”
实现“低门槛,低成本,高可用”!
除了小样本生成的2D真人数智人
腾讯云智能还提供3D真人、3D手语真人等
适用更复杂、挑战性更高的“岗位”
落地金融、文旅、汽车等各行各业
而结合腾讯的ASR自动语音识别
NLP自然语言理解、更高精的渲染等技术
这些数智人拥有
毛发级别的复原呈现
和更强的人机交互能力
有了“数智人工厂”
鹅也轻松多了
可以花更多时间
和自家公仔们好好相处了
点视频,看“数智人工厂”背后的黑科技
▼
五连冠!
帮自动驾驶“加点速”,跟鹅走!