a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

快商通发明单通道电话人声分离技术

单通道电话人声分离”),破解了复杂场景下的人声分离的难题,将银行、保险、市场调研等行业的呼叫中心历史语音数据变废为宝,大大降低了声纹数据库的建设门槛。
资讯频道文章B

  自声纹识别技术被推广应用以来,声纹库建设的数据来源,一直是从业者们头疼的难题。

  对于金融、保险、证券、市场调研、电商等拥有呼叫中心,并会产生大量语音数据的领域来说,建设声纹库本不是难事,但受历史技术水平的限制,这些领域所存储的历时语音数据来源大多为单通道,客服与客户的声音共存在同一段音频之中,难以分割,无法发挥数据价值。

  最近,快商通Kriston AI Lab发明了一种基于深度学习的单通道电话语音快速人声分离技术(简称“单通道电话人声分离”),破解了复杂场景下的人声分离的难题,将银行、保险、市场调研等行业的呼叫中心历史语音数据变废为宝,大大降低了声纹数据库的建设门槛。

  呼叫中心的电话语音,同时存在客服和客户两种不同的声源,如何分辨出特定人物的声音,这对于我们人类来说十分简单,但对于计算机来说,要把一个音频分割成多个不同的语音来源,却要面临很多困难。

  尤其是多人声音重叠部分,分离效果差,且需要采集大量的相关音频进行单独优化,无疑是一种事倍功半的行为。

  Kriston AI Lab提出的这种电话信道人声分离技术,以深度学习的方法实现数据模型训练 , 无需人工干预,便可以将单通道电话信道音频中两个不同说话人的音频进行拆分 ,分别保存,实现端到端的电话信道人声分离。

      电话信道人声分离是如何“炼”成的?

  人声分离分离技术以深度学习技术为基础 , 构建多层RNN循环神经网络。

  1、利用现实生活中电话信道双通道音频作为训练的数据集 , 将电话信道双通道音频合并为融合左通道客服音频和右通道客户音频的单通道音频作为整个模型训练的输入音频,将双通道音频直接读取的左通道音频和右通道音频作为网络训练的标签音频;

  2、输入单通道融合客服和客户音频到整个网络当中 , 网络的输出结果为模型预测出来的拆分客服和客户后的左通道音频和右通道音频;

  3、将模型预测拆分的左通道音频和右通道音频,与原始双通道音频读取的左通道音频和右通道音频进行损失值的计算 , 训练整个模型网络的参数;

  4、当模型训练拟合之后,将模型取出,输入现实生活中电话信道单通道音频,模型输出的音频即为拆分后的左通道音频(客户)和右通道客服(客服)。

  电话信道人声分离能发挥怎样的作用?

  电话信道人声分离的最大作用,便是利用分割后的音频进行声纹库注册,以实现反欺诈、电话营销等功能。

  在银行领域,客服会对逾期不还的订单进行电话提醒,从而产生大量的不还款语音数据,如果彼时该银行使用的是单通道通话,可以应用快商通电话信道人声分离技术对失信者音频进行分割。分割后的音频,便成为黑声纹库建设中历史黑产数据的重要来源。银行可进一步以黑声纹库为基础,准确识别黑名单用户,从源头上降低坏账率,完善金融反欺诈链条。

  在营销方面,使用电话信道人声分离技术,可以对客服外呼电话进行客户音频分割,将客户声音与会员标签、交易标签、营销标签等特征相匹配,统一由后台系统进行管理,实现高质量的电话营销。

参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s是国际知名展览公司——德国法兰克福展览集团旗下专业的自动化&安全生态服务平台,为智慧安防、智慧生活、智能交通、智能建筑、IT通讯&网络等从业者提供市场分析、技术资讯、方案评估、行业预测等,为读者搭建专业的行业交流平台。

免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!
© 2020 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备12072668号 粤公网安备 44030402000264号
用户
反馈