科大讯飞新突破,“谛听”可识别30分贝音量

2020-09-22 09:27   来源: 互联网    阅读次数:3651

        物联网,作为人类最自然、最方便的通讯方式,声音正成为所有智能设备的重要入口,但声音进入的关键往往并不令人满意。就智能家居而言,它们的选音范围大多集中在2~3米的近场环境中,拾取效果不佳,需要多次唤醒。

        

        如果把相机比作"眼睛",那么拾音器就是"耳朵"。眼睛看到的图像和耳朵听到的声音结合在一起,形成了一个基本的音频和视频记录系统。然而,这种灵活的耳朵会受到许多因素的影响,如拾取距离、室内混响、环境噪声等,而这对拾取声音是一个很大的挑战。

        

        据了解,iFLYTEK系列配有32部麦克风、主要的自动声源定位、自适应波束形成和混响抑制技术,以及基于深度学习的噪声抑制和语音自动增益调整算法,可以实现说话人的自动定位、噪声和混响抑制、音量自动调整等功能,从而达到准确拾取声音的目的。

        

        自动跟踪声源,准确拾取30分贝的超低音量

        

        最近,一位科技博主对皮卡的评价引起了人们的注意。在视频中,iFLYTEK听了一系列产品,以及来自美国森·赫塞尔(Sen Hessel)和舒尔(Schur)的类似产品,"在同一舞台上竞争。"iFLYTEK表现不错。

        

        在模拟30分贝耳朵听不到超小音量的环境下,森·赫塞尔拾起稳定、清晰的内容,舒尔拾起的声音很小,很难分辨语音的内容,iFLYTEK听的内容清晰,音质较好。

        

        这主要是由于使用了iFLYTEK公司开发的全自动声源定位技术。只要有轻微的声音,它就能像聚光灯一样快速地定位声源,并能抑制其他方向的混响和噪音。在实际应用中,32台麦克风阵列每天能接收7×24小时的声音,全向、无死角,并能准确地捕捉低至30分贝的超低音量。

        

        克服技术上的困难,倾听降噪的能力是惊人的

        

        声学环境比预期更复杂,环境噪声、干扰噪声、电流噪声和其他噪声在时间和频谱上经常重叠,再加上回声和混响的影响,很难捕捉到相对纯的语音。在视频中,评估人员分别模拟了70分贝和90分贝的环境噪声。结果表明,即使是90分贝的极端噪声环境也抑制了噪声,谈话内容仍然清晰。

        

        面对噪声的挑战,iFLYTEK在时域、频域和空域聆听信息可以有效地增强语音,显著抑制噪声对目标语音的影响。首先,它通过声音定位技术对语音进行拾取,进行语音增强,实现了初步的降噪效果;然后进行了基于波束形成和深度学习的语音增强算法,并根据人耳的听觉特性自动增加和优化了音量,使声音更加充分。

        

        核心语音技术推动发展,为未来创造多个场景

        

        万事联姻的时代已经到来,充满活力的IOT将激发无限的可能性,前端接收到的声音质量无疑会影响后期的语音处理水平。

        

        聆听系列产品是iFLYTEK公司21年来坚持核心技术自主创新的体现。自2018年以来,iFLYTEK已经赢得了30项国际人工智能比赛,涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等多个领域。随着技术技能的突破,iFLYTEK也为皮卡的多种应用场景的着陆提供了强有力的技术支持。过去,采音设备成本高,音质差,方向性强,不能大面积推广,引入听力,可能会打破这一现象。

        

        据报道,听力系列产品在未来可以广泛应用于安全、交通、高质量会议等关键场所和关键部位,其实际应用可以说有很大的潜力。以公共场所为例,以往的大部分视频都不能准确地拾取声音,音视频的有效结合,全方位的音像采集解决了简单视频图像的死角,有利于防止群体性侵权事件的发生,满足更现实的需要。

责任编辑:fafa
分享到:
0
【慎重声明】凡本站未注明来源为"中关村热线"的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行!
关于我们| 免责声明| 投诉建议| 网站地图| sitemap|