七成以上的人无法分辨真假音效
再一次,人工智能欺骗了人类。在一项实验中,人工智能让73%的人相信人工智能合成声音效果是真实的。这一最新研究成果有望应用于电影、电视剧和其他影视制作工作。
想象一下,如果你在看一部恐怖电影:女主角在黑暗的地下室里颤抖,背景音乐很糟糕,一些看不见的邪恶生物在黑暗中扭动,然后突然有一个物体被一声巨响击倒。如果没有这种紧张和适当的音响效果,就很难通过眼睛看到场景来制造这种恐惧。
通常,这些声音效果都是由工作室里的福利艺术家录制的,他们用特定的物体发出特殊的声音。例如,如果导演想要在视频中添加破碎的玻璃声音,他可能需要福利艺术家打破大量的玻璃直到声音与视频剪辑相匹配。(DeepTech注:Foley,被称为拟声词,用于增强电影的听觉体验,是对日常声音效果的再现。)后期制作将添加到电影,视频和其他媒体,以提高音频质量.这些再现的声音可以以声音艺术家杰克弗利的名字命名,从衣服和脚步声到任何吱吱作响的门和碎玻璃的声音。
现在,为了解决这个问题,德克萨斯大学圣安东尼奥分校的研究人员创造了一个基于机器学习的自动化程序,该程序可以确定视频剪辑中发生的事情,并产生真实的声音效果,并使大多数人相信假声音效果是真实的。
对于这项工作,德克萨斯大学圣安东尼奥分校教授杰夫·普雷沃斯特(JeffPrevost)说,"自上世纪30年代以来,通过在后期制作电影和电视剧中使用福利艺术,为特定场景添加声音效果一直是一件复杂的事情。"如果没有真实的福利音效,电影就会显得空洞和虚幻,但福利音效的合成却增加了电影和电视剧的创作周期和成本。
普雷沃斯特和他的博士生桑奇塔·高斯(Sanchita Gauss)创建的多层机器学习计划中,他们创建了两种不同的模型,包括识别视频中的动作和确定正确的声音,以测试声音效果的合成。
第一个模型可以从快速运动动作剪辑的帧中提取图像特征(如颜色和运动),以确定合适的声音效果;第二个模型通过关系推理分析对象在不同帧中的时间关系,并通过关系推理比较不同帧的时间关系。该模型可以预测视频中发生的事情。
在最后一步,模型预测的活动或运动是通过合成声音来匹配的。目前,他们已经为1000个电影剪辑创造了声音,并捕捉到了常见的动作,如雨、飞马和滴答时钟。
研究结果表明,他们的模型最好应用于不需要与视频完全相同的场景(例如,雨的声音和火焰的劈啪声),但当视频中包含随时间变化的随机运动(例如打字、雷暴)时,效果就不太好。
此外,他们对57名当地大学生进行了调查,以确定他们是否能分辨出哪些电影片段包含了最初的声音效果。在评估第一种模式时,73%的学生选择合成声音效果作为最初的声音效果,而在评估第二种模式时,这两种人工智能模型的比例为66%。可以看出,这两种人工智能模型欺骗了大多数人。
然而,Prevost说,这种方法仍有一个明显的缺点,它必须要求分类主题出现在整个视频帧序列中,并且依赖有限Foley类别的数据集。
在这方面,普雷沃斯特认为,这些缺点将在今后的研究中得到解决。