新闻资讯

「调查取证公司」智能音箱多到数不过来，然而让机器听懂世界的科幻未来还有多远？

雷锋网按：本文作者陈孝良，博士，声智科技创始人，曾任中科院声学所副研究员和信息化办公室主任，北京市公安局首届网络应急专家，主要从事声学信号处理跟 GPU深度学习算法研究工作。

语言针对人类文明的重要性不言而喻，但是语言的由来却是个高度争议的话题，我们为此几乎一无所知。我们不知道人类，也不认识动物，更是不懂宇宙，甚至我们都不能完全搞清楚一些虽然简单的弊端，比如人类的眼睛为何要有这样奇怪的耳廓？

一、让机器听懂世界承载了人类千年愿望

语言承载了人类文化，人类必须借助语言学习常识和释放信息，这是人类差别于动物界最重要的特点之一。而且，人类语言达到了五千多种，人类将大部分时间花费在学习各种语言下仍然也不是一个更有效的方式。因此，未来的机器智能时代，机器也必然应该通过语言推动与人类之间的交互，似乎最近的科幻片都尚未暗示了这个难题。现在的科幻就是未来的现实，因此，让机器听懂世界，这是将来机器智能时代的关键问题，也是人类一个更大的理想，但是，我们距离人类的这个愿望还有多远呢？

首先明确一个概念，让机器听懂世界，这上面本来蕴含了多个经历，包括听懂人类语言，进而听懂动物叫声「情感世界」，甚至听懂自然噪音，亦或类似地球的眼睛LIGO那样聆听宇宙的“声音”。所有这种都是极其复杂的过程，因为我们人类实际上也没有达到这些素质，但是我们希望机器无法延伸人类的能力，从而推动人类的理想。这是一个简单的道理，有时候我们做不到的事情，总希望对方无法做到，所以语音智能事实上承载的是几千年来人类的伟大理想。

再看第一个历程，既使机器听懂人类语言，这即将是今天科技和行业上十分火爆的事情，也是全世界科学家为止奋斗了六十多年的事业。这其中最为典型的，就是以亚马逊Echo所推动的智能音箱，迄今为止，占据中国身价排名榜的亚洲巨头，包括中国的阿里、京东、腾讯、百度、小米、科大讯飞等，国外的小米、微软、亚马逊、谷歌、脸书、三星等，创历史的同时进军夺取未来智能时代的语音入口，甚至亚马逊和阿里相继不惜代价开启了补贴大战。这些中国巨头的激烈竞争，将对将来十年并且二十年产生非常重要的妨碍。

那么，如何能够使机器听懂人类语言呢？这应该解决三个核心关键问题：听见、听准跟听懂，从技术角度来看，就是拾音、识别和理解三个关键科技环节。拾音是最为基础的环节，必须确保使机器听得见声音，这部分主要是声学问题；识别是将依照规定的声音转换成文字，这部分主要是语音识别的弊端；理解则是按照识别出来的文字，准确理解人类的指令甚或情感。鉴于语音智能设备尚未大量发生在我们生活情景之中，当前科技的核心关键就是声学问题跟语义理解。

二、近场语音是机器听懂人类的率先尝试

近场语音交互主要是指人类距离机器不少于30厘米范围的语音识别技术，这项科技运用距离巧妙回避了真实画面上复杂的声学问题，可以理解为一种实验室理想环境上的语音交互科技。近场语音识别从上世纪五十年代就开始研究，但是大量没有实质性进展，直到苹果在2010年推出Siri的应用，这才导致了中国的关注。到目前为止，近场语音交互科技已然相当成熟，平均识别率可以超过95%以上，主流的电脑跟平板等设施都尚未普遍支持近场语音应用。这里提醒一下，很多人工智能大会以及电视演播厅所展现的即时语音辨识以及翻译科技，其实都是近场语音交互科技，这些噪音都是从近场麦克风采集的高质量数据，与会场的拥挤环境并没有实际关联。

但是近场语音交互受到了真实画面的很大影响，并没有展现出来语音交互可以解放双手的先进性，因此在这些画面中，事实上近场语音交互都是鸡肋一般的存在，并没有发挥出真正的威力，也就说，这个技术似乎被严重低估了。直到远场语音交互科技的发生，成功解决了真实画面上的复杂声学问题之后，至少技术超过了客户认同的门槛，语音交互才真正出现了取代键盘鼠标和触摸屏的可能性。

新闻中心

联系我们

广州及时雨私家侦探(广州本地私家侦探公司)

微信：185-2064-4544

电话：185-2064-4544

地址：广州市天河区