a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

直击智能语音痛点 如何打造完美人机交互?

人机交互的真正意义是让智能硬件能够进行自动化的服务并与用户进行自然交互,实现完美的用户体验。
资讯频道文章B

  国家《信息产业科技发展“十一五”规划和2020年中长期规划纲要》指出要落实“中文信息处理和智能人机交互技术”。人机交互的真正意义是让智能硬件能够进行自动化的服务并与用户进行自然交互,实现完美的用户体验,这要求智能硬件能够结合大数据进行分析并深度学习,实现行为理解并执行操作。当前,我国智能人机交互技术起步不久,相关市场也处于上升阶段,尤其是智能硬件市场备受关注,该领域内的多模态人机交互技术得到了广泛的应用,例如智能语音技术、虹膜识别技术、体感触觉技术等等。


思必驰信息科技有限公司市场总监 龙梦竹

  在智能语音技术方面,就国际市场而言,已经形成了Nuance、谷歌、苹果、微软等IT巨头的垄断格局。在国内市场,科大讯飞、百度、思必驰等智能语音解决方案各显其色,实现了较好的中文语音信息处理技术。

  但是,当前国内的智能语音技术在人机交互方面仍旧存在很大提升空间,主要表现为:

  智能硬件“听不懂”

  出现该问题的原因无非是“没听清”和“不理解”。“没听清”是语音识别出现了问题,噪声环境、识别距离、硬件回声等均是识别的关键因素,处理不当便会导致识别率降低;“不理解”是由于语义理解不够深入而导致,说话人不同,讲话习惯、音调、音速等也各不相同,上下文语境千差万别的情况下,如果不能结合语境进行深度学习,语义理解也将差强人意,更谈不上能够进行多轮交互了。

  智能硬件“不聪明”

  智能硬件“不聪明”表现为:无法根据要求提供相应的信息,定制功能缺失。无论是智能语音,还是人脸识别、图像识别等技术,都只是实现人机交互的手段和工具,人类真正的交互对象是资源。当前人机交互存在的很大问题是资源不足,不能满足人们多样的功能需求,如电话、社交、音乐、电台、导航、地图、天气查询、票务查询等等,智能硬件显得很不智能。当前智能硬件的后端服务集成尚未能满足当前用户的需要。

  针对智能硬件“听不懂”的问题,亟待解决的是语音识别和语义理解问题。在语音识别方面,角度、距离、回声、噪声等因素均对识别效果产生极大的影响。确定合适的拾音角度和拾音范围距离,有效降噪和消除回声,进行准确的声源定位,是识别的关键一步。当前国内市场很多企业已经陆续推出了相应的解决方案,例如 5麦麦克风阵列,可进行快速集成,但是成本稍高,适合小批量产品。中国科学院声学所的8麦技术方案,针对会议系统,且目前的市场应用并不广泛。另一方面还有环形“6+1”麦克风阵列,可进行360°无死角拾音,准确进行声源定位,并采用独有算法的降噪和回声消除技术,有效克服了语音识别过程中,随着语音传播距离加大,因语音本身的衰减,混响、背景噪音、人声干扰和回声加大等技术难点带来的阻力,实现业内领先的远场5米交互识别率92%以上,识别和交互效果媲美近讲。由此可见,当下语音技术企业均从科技研发角度出发,从解决实际应用场景下的产品需求出发,着力解决语音识别和交互的这一大问题。

  智能语音如何推动人机交互

  语义理解的关键是结合上下文语境进行深度学习,然而,在真实场景下,传统语音识别加自然语言处理的方案并不能很好地实现自由的“人机交互”。微软研究院表示,基于上下文的理解是微软自然语言处理组正在解决的重点问题,Cortana助手中就初步实现了上下文语义理解。科大讯飞也在年度发布会上表示,“纠正、打断”是自然交互的本质要求,且纠错是人机语音交互的一个标准,其对话系统也已经实现基于上下文的理解。我认为基于上下文的理解是认知智能的主要表现之一,也是解决语音识别错误的最有效途径之一,业界也已经诞生了“支持打断和智能纠正”的认知型对话系统及相关场景解决方案。

  人机交互的另一端是资源,丰富的第三方服务内容可使智能硬件变得更聪明,汇集大量的资源功能才能有效提升后端服务质量。所谓的智能语音解决方案,应该能够支持安卓、linux、QNX等主流操作系统,集成了丰富的第三方服务资源,例如微信、高德地图、酷我音乐、虾米音乐、喜马拉雅FM、考拉电台、神马搜索、大众点评、墨迹天气、百度天气、携程、百度股票等等,为用户提供社交、周边搜索、导航、音乐电台、天气日历等多功能服务。丰富的第三方服务资源供智能硬件随时交互提取使用,智能硬件变得更聪明智能,人机交互才能变得更流畅完美。

  智能语音的不断发展也在推动着人机交互的不断进步,抛弃传统APP/遥控器等移动终端的控制,实现全语音自动操控,智能硬件也能越来越琢磨透人类的思想,追踪行动意图,这些种种,均促使人们的生活更加智能便捷。智能语音的痛点始终放缓了人机交互的步伐,解决识别、理解与后端服务的难题,将促进人机交互向前迈出大大的一步,智能人机交互的未来需要我们共同努力。

参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s是国际知名展览公司——德国法兰克福展览集团旗下专业的自动化&安全生态服务平台,为智慧安防、智慧生活、智能交通、智能建筑、IT通讯&网络等从业者提供市场分析、技术资讯、方案评估、行业预测等,为读者搭建专业的行业交流平台。

免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
© 2020 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备12072668号 粤公网安备 44030402000264号
用户
反馈