AI驱动智能媒体生产

日本广播协会NHK开发了新型的由人工智能驱动的广播技术,名为“Smart Production”,可以快速地收集和分析来自社会的各种信息,并传递给广大观众。Smart Production使用人工智能来分析从社交媒体、开放数据中获得的各种类型的信息以及广播电视台拥有的制作节目相关的技术诀窍,这种方法使得它能够提取社会中发生的事件,并将分析结果呈现给生产者。特别地,用于识别视频中对象的图像分析技术和用于生成访谈抄本的语音识别技术可以为视频镜头自动生成元数据。另外,为了向包括听力/视障人士在内的广大观众传递信息,研究和开发人员正致力于研发将广播数据转换成能被具有特殊需求的观众理解的内容的技术。

介绍

近年来,随着节目素材传输线变得高速以及记录媒体容量的增加,广播站已经能够获得大量的视频和音频内容用来创建节目。此外,随着社交媒体的使用变得普遍,关于事故、事件的第一报道以及有关社会趋势的信息都会出现在类似Twitter的社交平台上。如今还可以监视开放数据,例如市政当局发布的传感器信息,并且将这些数据应用到新闻节目中。从大量视频材料中提取节目所需的材料以及从社交媒体数据中寻找对新闻表达有用的信息对于节目制作人员来说已经变得非常麻烦。而且,为了让制作出来的节目能够被包括外国和听觉/视障人士在内的所有观众接受,必须将内容的格式转换成适合所有观众观看或收听的格式。因此,NHK科学和技术研究实验室与NHK的其他部门合作,致力于研究和开发人工智能驱动的内容制作技术和能够覆盖包括外国人和听觉/视障人士在内的所有观众的人性化广播通用服务。

文本大数据分析技术

NHK正在研发通过分析大数据来支持电视节目制作的技术,用于分析的大数据包括广播电台所拥有的节目信息以及社交网络服务(SNS)上发布的信息。社交媒体分析系统可以从社交媒体(包括Twitter)获得对制作新节目有用的信息,并将这些信息进行分类,例如火灾、交通事故或自然灾害的发生。自动新闻稿创作系统通过使用广播电台过去的新闻手稿和来自河流传感器的信息,自动准备在暴雨和台风期间河流状况变化的新闻草稿。

社交媒体分析系统

广播电台经常在社交媒体中手动搜索对节目制作有用的信息,并在确定准确性之后将这些信息用作初始的报道。如果碰巧遇到事故现场的人向SNS发布有关事件的信息,则人们可以比以往更快地了解到事件的发生。但是,需要有大量的人力来从海量的SNS帖子中发现有用的信息,这给制作团队带来了沉重的负担。因此,NHK开发了一个系统,可以学习已经被制作人员确定的对新闻广播有用的推文,并搜索和提供新的有用的推文。NHK已经与新闻团队合作开始了现场试验。

这个系统使用循环神经网络(RNN)来确定出现在推文中的单词是否包含对新闻广播有用的信息。它已经学会将信息分为24种新闻类别,例如火灾和交通事故。利用该系统,可以将原来需要本地广播制作者确认每天信息的工作部分自动化。该系统还接受来自节目制作成员的反馈作为学习的新数据,用来维护和改进提取推文的功能。因此,NHK正在进行研究,期望通过使用图像识别技术来识别推文附图中的对象,例如火和消防车等,来提高对具有新闻价值的推文进行分类的准确性。

自动新闻稿创作系统

广播电台收集、分析和使用由公共机构和当地市政部门发布的传感器信息来创作广播内容。持续监视如此开放的大量数据并快速用于创建包含如此多广播内容的新闻稿件对于节目制作成员来讲是沉重的负担。因此,我们开发了一个新闻草稿创作支持系统来自动创建新闻手稿,作为在大雨和其它天气状况下河流状况的初步报告。该系统使用来自河流水位传感器的信息和过去的广播新闻手稿资料(图3)。NHK在2017年雨季期间在本地新闻台对该系统进行了现场试验。

河流的水位信息是从River & Basin Integrated Communications基金会每十分钟发布的数据中获得的。这些信息包括监测位置,当前水位和四个水位通知阈值,用于报告洪水预警的程度。

根据新闻台里积累的过去的广播新闻手稿,该系统使用神经网络自动提取固定表达,并识别在水位警告期间使用到的河流名称和新闻表达。这些表达被用于创建模板。基于模板和获得的水位数据,就可以创建新闻稿草稿,这些草稿与广播站存储的过去的广播中使用的警告水位是匹配的。通过修改,记者也可以创建自己的关于河流状况的原始新闻手稿。

视频分析技术

为了能够创建具有高质量和吸引人的解目,NHK正在推进研究视频摘要和单色电影着色技术作为视频分析驱动的节目制作技术。

自动视频摘要系统

为了支持节目预览视频和摘要视频的制作,NHK正在通过技术研究来制作自动视频摘要。NHK已经开发出一个自动生成摘要视频的系统,其生成的摘要视频反映了节目制作组成员们的各种意图。

该系统允许节目制作成员自由地为各种信息内容设置权重,作为自动摘要的指南。这些信息内容包含“基于推特分析的用户响应,”“基于图像分析的出现在场景中的人”以及“字幕和摄影作品”。在这些提示的基础上,系统可以利用材料的特定方面自动生成摘要视频,例如“大型字幕的显示”,“表演者的特写”和“快速放大”。通过分析在SNS上发布的与节目相关的评论来了解大量观众的反馈以生成摘要视频也是可能的。

单色视频自动着色技术

NHK开发了一种使用人工智能驱动技术的自动将单色电影视频转换为彩色视频的系统来支持高效的节目制作(图5)。通过使用这种技术为单色电影着色,可以更加新鲜地向观众传达拍摄期间的条件。

NHK使用从过去的电视节目视频和存储在NHK档案中的彩色电影中收集的约20000个节目的视频数据训练了深层神经网络(DNN)。分别进行颜色估计,颜色校正和向相邻帧传播颜色信息的三个DNN被用于自动将单色视频转换为彩色视频。

由于在节目制作过程中需要基于历史事实进行颜色校正,NHK还开发了一种在对视频进行着色时将用户的指示考虑进来的系统。需要的操作包括简单地点击图像上的几个目标区域并指定应该使用的颜色或颜色的边界。这样,用户可以轻松地校正颜色。

到目前为止,专家每次只能为一帧视频手动着色,使用这种方法为几秒钟的视频着色需要好几天的时间。使用NHK开发的系统,可以将为五秒钟单色短视频着色的任务耗时从30分钟缩短到30秒。

语音识别技术

制作节目需要从大量收集到的视频材料中进行筛选以找到需要的信息。为此,视频资料的音频内容的转录是必不可少的,转录使得制作人员能够更容易地浏览内容列表并查看内容本身,因此需要有能够快速高效地完成转录的系统。基于这个需求,NHK开发了一种转录制作系统,该系统使用语音识别技术和可以在查看时轻松校正识别结果的用户界面。

为了减少操作过程中的劳动量,这个系统允许用户通过查看缩略图和主要的关键字来快速访问他们希望查看的区域。通过在每个单词层面上同步语音和文本的显示,可以仅通过几个操作来执行对识别结果的文本修正。此外,通过基于Web应用程序的界面,广播站内部的任何地方都可以访问这个系统。

目前,几个广播电台的部门正在修改对收集到的新闻资料和会议录音进行语音识别的结果。展望未来,NHK计划使用他们的反馈改进语音识别系统。

这个系统中使用的语音识别技术是为隐藏式字幕的制作而开发的。目前,它可以识别清晰的语音,例如广播语音。但是,收集到的视频材料包含语音不清晰的访谈。因此,大部分材料实际上不能用于广播。为了让制作者能够确认事实并提高准确性,对这些不清晰的部分进行转录是必要的。因此,NHK还在继续研发识别低辨识度语音的技术。

通用服务

自动音频描述

广播电台在次要音频频道上提供视觉内容的评论,这些评论不能仅由主要音频内容传达。通过用视听评论来补充视觉信息,能够提高视障人士对广播内容的理解。然而,此类音频评论目前只适用于有限类型的预录节目,如戏剧;例如体育节目等直播节目还不支持音频评论。因此NHK正在推进自动音频描述技术的研发,该技术具有自动合成语音功能。通过应用自动音频描述技术,NHK开发了一种使用“AI播音员”自动阅读新闻的语音合成系统。

直播体育赛事期间的自动音频描述

NHK带着实现体育赛事直播期间合成语音的目标进行研究,希望将该技术应用于2020年东京奥运会。近年来,体育赛事制作公司实现了诸如“谁”,“何时”和“发生了什么”等赛事期间实时数据的传播,传播的数据包括得分、进球和惩罚等。自动音频描述是一种全自动服务,可以根据实时数据生成脚本来解释正在进行的比赛并且将脚本转化为和在可接受的程度内和广播音频重叠的音频。该技术可以在难以手动执行的情况下即时创建音频描述,还可以为同时进行的多场体育赛事提供音频描述。自动音频描述还能以解说员的方式呈现。由语音合成器朗读的脚本也可以用于实时隐藏字幕。NHK正在研究如何提高在广播音频中呈现自动音频描述的方法的吸引力,并丰富详细解说的内容。

“AI播音员”

为了在广播节目中全面使用语音合成技术,NHK正在进行准备,例如进行使用DNN来阅读新闻和组织学习数据的语音合成技术研究。2018年4月,NHK在节目NEWSCHECK上以AI播音员“Yomiko”的实际形式实现了这项技术。与使用大规模收集文本和话语数据库的连接合成方法相比,NHK通过使用DNN实现了用极少数语音样本训练出读取新闻的自然语音。展望未来,NHK将着眼于支持地方广播电台播音员的工作,通过额外的语音学习来改进语音合成技术,以便合成更自然的语音。

手语CG

有些听力受损的观众希望通过手语获得信息,因为单独通过隐藏字幕提供的信息不足以完全理解广播内容。然而,在广播电台能够表达高度可靠的手语的人数量有限,而且他们当中的每一个人都不能保证长时间在同一广播电台工作。因此,NHK正在进行手语计算机图形(CG)生成技术的研究,以便在每个地区使用手语第一时间呈现紧急天气和灾害信息。

根据日本气象厅定期发送的XML数据,在预先准备好的天气预报手语模板例如“天气”,“温度”和“下雨的机会”等内容中填充数字数据。然后由自动生成的手语CG动画角色呈现该信息。在确认聋人能否理解自动生成的手语表达的实验中,肯定的答案率占到了96%,证实了通过该方法呈现手语的有效性。目前,NHK Online网站上已经建立了天气信息手语CG评估网页,它以手语形式提供天气信息,并且每天会自动更新三次。

此外,类似于对自动音频描述技术的研究,NHK也正在研究将手语CG应用到体育节目中。到目前为止,已经在Web浏览器上创建了展示体育视频和对应手语CG的原型系统。该系统使用在体育赛事期间发送的现场数据自动生成有关比赛条件和规则的手语CG。(图8)NHK还设计了用视觉方法呈现体育赛事中的兴奋时刻的方法。对参与实验的听力障碍者的调查问卷答案显示,他们非常喜爱这种通过解说无法获得的信息。未来NHK将进一步评估该系统对听力受损者的影响,以确定体育项目所需要的手语CG功能,并在2020年实际应用。

结论

利用社会和过去的电视节目档案提供的各种信息,本文介绍的文本大数据分析,视频分析和语音识别技术可以使广播电台快速有效地获取节目需要的信息,并使制作成员能够顺利地制作节目。此外,实现能够准确地向所有观众(包括听力和视觉障碍者)提供信息的通用服务是公共广播的关键,本文介绍了实现这一目标的优先工作。

展望未来,NHK表示将充分利用与引入了研究成果的本地广播公司近邻的优势,继续推进研究和开发,以便到2020年实现最高的广播服务标准。