电话信道人声分离是如何“炼”成的?
人声分离分离技术以深度学习技术为基础 , 构建多层RNN循环神经网络。
1、利用现实生活中电话信道双通道音频作为训练的数据集 , 将电话信道双通道音频合并为融合左通道客服音频和右通道客户音频的单通道音频作为整个模型训练的输入音频,将双通道音频直接读取的左通道音频和右通道音频作为网络训练的标签音频;
2、输入单通道融合客服和客户音频到整个网络当中 , 网络的输出结果为模型预测出来的拆分客服和客户后的左通道音频和右通道音频;
3、将模型预测拆分的左通道音频和右通道音频,与原始双通道音频读取的左通道音频和右通道音频进行损失值的计算 , 训练整个模型网络的参数;
4、当模型训练拟合之后,将模型取出,输入现实生活中电话信道单通道音频,模型输出的音频即为拆分后的左通道音频(客户)和右通道客服(客服)。
电话信道人声分离能发挥怎样的作用?
电话信道人声分离的最大作用,便是利用分割后的音频进行声纹库注册,以实现反欺诈、电话营销等功能。
在银行领域,客服会对逾期不还的订单进行电话提醒,从而产生大量的不还款语音数据,如果彼时该银行使用的是单通道通话,可以应用快商通电话信道人声分离技术对失信者音频进行分割。分割后的音频,便成为黑声纹库建设中历史黑产数据的重要来源。银行可进一步以黑声纹库为基础,准确识别黑名单用户,从源头上降低坏账率,完善金融反欺诈链条。
在营销方面,使用电话信道人声分离技术,可以对客服外呼电话进行客户音频分割,将客户声音与会员标签、交易标签、营销标签等特征相匹配,统一由后台系统进行管理,实现高质量的电话营销。