码迷,mamicode.com
首页 > 其他好文 > 详细

未来的春晚,可能就不需要活的主持人了

时间:2020-09-21 12:08:33      阅读:34      评论:0      收藏:0      [点我收藏+]

标签:日本   情感   get   全球   may   直播   人做   原型   活动   

https://mp.weixin.qq.com/s/NXGSLylqaItkcCmfUBbIuA

By 超神经

在 1 月 28 日的 2019 网络春晚上,AI 虚拟主持人登台主持节目,撒贝宁作为与 AI 替身同台的主持人之一,当场宣布准备准备「隐退」, AI 取代主持人的时刻真的来临了吗?

在今年的网络春晚上,首次亮相了四位虚拟形象主持,分别是基于撒贝宁、朱迅、高博、龙洋的外形打造。四位主持人都与自己的虚拟主持人同台主持,确实在晚会上增添了不少乐趣。

快嘴的小撒在 AI 小撒面前都快没台词可说了

从视频中可以看到,虚拟的 AI 主持人和实体之间有很大的相似度,除了在接话和抖机灵上不输人类,也有相应的肢体语言,而且每一个虚拟主持人也具有不同的表达特点。

虚拟主持人是什么

据报道,这次登上网络春晚的虚拟主持,是 ObEN 通过 3D 图像重建和电音模拟技术来构建虚拟形象,打造出个性化的人工智能虚拟形象——PAI(个性化人工智能,即 Personal AI)。

除了这次网络春晚的虚拟主持人,ObEN 也与名人和明星公司展开了合作。韩国最大的娱乐公司 SM 公司就是 ObEN 最早的天使投资人之一。

2017年6月,ObEN 与韩国 SM 娱乐公司,在香港合作成立了全球第一个人工智能明星版权公司 AI Star,中文名为幻星,打造虚拟偶像。国内的女子偶像组合 SNH48 也宣布和 ObEN 合作,打造专属的人工智能形象。

技术图片

而这个产品的核心技术主要在三个方面:

首先,是视觉形象的建立。利用主持人本体的照片,采用三维扫描仪、3DS MAX、MAYA等三维建模工具,让AI建立一个算法模型,通过理解照片的颜色分布与结构深度的关系,最后构建出人脸和身型。

其次,是声音的合成。他们使用的AI语音技术,不需要大量收集语音库,只需十几句语音录制,通过特征参数提取,迁移学习等方法就能实现声音模型的建立。

最后,要让虚拟主持人尽可能逼真。这不仅需要视觉能与其声音匹配,还需要赋予它们个性化。通过传感器和运动跟踪设备,再结合了AI和动作捕捉训练,虚拟主持人能够按照相应本体,去模拟口语表达、脸部表情、手势、形体运动及场景互动等。

虽说这是 AI 的首次主持跨界,但 AI 虚拟主播界的亮相还真不在少数。

第一位中文 AI 新闻主播

在前2018 年 11 月举行的第五届互联网大会上,新华社展示了他们一位新记者,这是第一位 AI 虚拟合成的新闻主播,而 AI的原型本体邱浩这么说到:“图像是我的图像,声音也适合我的声音,但播报的这些话我可从来没说过......”

在这段视频中,我们可以看到视频中的主播,用它的腔调介绍着自己,配合着声音,它的面部,嘴唇有相应的动作。不得不说,惊喜是有,但还是有些失望。比起真人主播,能让人一眼就分辨出是机械化的产物。它的工作方式还需要人类写出新闻稿。

这种合技术支持,来自搜狗的「分身技术」。而这个技术背后的关键,是语音合成和图像生成两大部分。

技术图片

语音合成技术,可以通过少量的音频数据,让机器模型学习输入对象的说话特点,把握住音色、韵律、情感等方面,最终实现对输入文本的音频信息。

而图像生成,用到了人脸识别、三维人脸重建、表情建模等方面的学习和构造,最终达到输出音频个输出视觉信息的对应。

抛开那些槽点不说,这项技术最大的宣传点就是可以实现银幕上的分身功能,大概就是你能用电视、平板和手机看到一个人同时在播报三个不同的内容。

霓虹国不仅打造初音,也打造主播

而日本在更早的时候有过报道,他们的也做出过 AI 主播。

在去年 4 月份,日本NHK电视台一档叫「NEWS CHECK 11」的节目中,担任主播的就是一个可爱的卡通 AI 主播——「新闻主播 Yomiko 」。
技术图片

这个主播是利用了 CG 技术制作,它从大量的录音中学习了拆分成音素,然后学习文本的识别和朗读,最后用于朗读新闻。

此外,机器人做新闻主播也有过实现。

大阪大学和京都大学研制的美女机器人 「Elika」,也在 18 年 4 月份担任日本 NNN 电视台的新闻主播。

「Elika 」的人设是 23 岁的美少女,它被赋予了一张标准女性的面容,说话的声音以配音演员的录音为基础合成而来,可以称得上非常自然。

技术图片

此外,它还具有先进的对话系统,在和人交谈时,它通过麦克风和传感器收集信息,感知对方的声音和动作,从而转向对方,并进行流畅的对话。

它的眼睛、嘴巴、脖子等 19 处可通过气压活动,呈现出多种表情,也能做一些简单的动作,惟妙惟肖。

主持人何时会被取代?

说回网络春晚,四个调皮的虚拟主持人的亮相收到了很大的关注,而且从观众的态度上可以看出对它们颇为喜爱。

那么它们会是主持人下岗的一个契机吗?可能小撒和小小撒都不会答应。

技术图片
「小撒告别舞台」

至于 AI 新闻直播那种腔调以及违和的面部表情,也还是有待改进。日本当初热闹一时的新闻播报机器人,也没有大面积取代当地的新闻业,最多也就还是处在辅助和新奇的层面。

所以这么看,技术上的进步的确带给了我们新奇和美好的体验,但也许在这样一个时代,噱头比实际走的更快。

也许被取代的那一天终究会来,但很肯定的是它不是今天。我们应该相信,真到了那一天,人类也许早已解决了和 AI 的相处之道。那时候的春节,我们会看到不仅 AI 主持春晚, 还会有 AI表演节目。

我们啊,张着嘴等着 AI 喂我们吃饭就好了。
技术图片

超神经小百科

迁移学习 Transfer Learning

迁移学习是运用已有的知识来学习新知识的一个方法。

在迁移学习中,已有的知识叫做源域 ( source domain ),要学习的新知识叫目标域 ( target domain )。

迁移学习目的是从一个或多个源任务(source tasks)中抽取知识、经验,然后应用于一个目标领域(target domain)当中去。

迁移学习的基本方法

1)样本迁移
在源域中找到与目标域相似的数据,把这个数据的权值进行调整,使得新的数据与目标域的数据进行匹配。

2)模型迁移
假设源域和目标域共享模型参数,是指将之前在源域中通过大量数据训练好的模型应用到目标域上进行预测。

3)关系迁移
假设两个域是相似的,那么它们之间会共享某种相似关系,将源域中逻辑网络关系应用到目标域上来进行迁移。

技术图片

未来的春晚,可能就不需要活的主持人了

标签:日本   情感   get   全球   may   直播   人做   原型   活动   

原文地址:https://blog.51cto.com/14929242/2535613

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!