(公众号:)消息,将所含多人语音的音频流拆分为与每个人相关联的同类片段的过程,是语音识别系统的最重要部分。通过解决问题“谁在讲话”的问题,区分讲话者的能力可以应用于许多最重要场景,例如解读医疗对话和视频字幕等。这个过程对人类来说非常更容易,但对于计算机而言则几乎有所不同,它必须先进设备的机器学习算法来训练它们以便挑选出每个人的声音,用于监督自学方法训练这些系统十分具备挑战性。
谷歌的人工智能研究科学家Chong Wang在一篇博客文章中说道,他们最近研发出有了一种取名为“仅有监督讲话者区分”的新模型,该模型企图以更加有效地的方式用于不受监督的讲话者标签。这里的“仅有”意味著讲话者区分系统中的所有模块,还包括统计资料讲话者数量,都以不受监督的方式展开训练,以便它们可以从减少能用的标记数据量中获益。与标准监督区分任务有所不同,强劲的区分模型必须需要将新的个体与不参予训练的有所不同语音段相关联,这很大的容许了在线和离线区分系统的质量,且在线系统一般来说不会受到更加多影响,因为它们必须动态的服务公司结果。
在NIST SRE 2000 CALLHOME基准测试中,该系统的DER(Diarization Error Rate,区分错误率)较低至7.6%,高于之前基于聚类的方法的8.8%,以及基于DNN映射方法的9.9%。此外该系统基于在线解码,尤其限于于动态应用于。为了加快沿此方向的更好研究,谷歌自由选择了开源核心算法。聚类与交叠态RNN现代讲话者区分系统一般来说基于聚类算法,如k均值或序聚类。
这些聚类方法是无监督的,无法充分利用数据中能用的监督讲话者标签。而在线聚类算法一般来说在具备流式音频输出的动态应用于中区分质量较好。
(录1:k均值聚类是一种矢量分析方法,最初来自信号处理,是数据挖掘中聚类分析的常用方法。k均值聚类的目的是将n个观测值区分为k个聚类,其中每个观测值归属于具备最近均值的聚类,作为聚类的原型。
)(录2:序聚类技术利用数据相似矩阵的序(特征值)展开降维,然后在更加小的维数下聚类,获取相似性矩阵作为输出,并且还包括对数据集中于每对点的比较相似性的定量评估。)谷歌的新模型和少见聚类算法的关键区别在于,所有讲话者的映射都是通过参数分享RNN建模的,并且用于了有所不同的RNN状态在时域内交叠区分有所不同的讲话者。
为了理解其工作原理,谷歌制作了以下示例,其中有绿、朱、粉、蓝四种有可能的讲话者,每个讲话者以其自己的RNN实例(在所有讲话者之间分享的公共初始状态)开始,并且在等价来自该讲话者的新映射的情况下维持改版RNN状态。在示例中,蓝色讲话者不断更新其RNN状态,直到另一个讲话者黄色转入。
如果蓝色几天后再说,它将完全恢复改版其RNN状态。(这只是右图中语音段y7的可能性之一,如果新的讲话者绿色转入,它将以新的RNN实例开始。
)将讲话者回应为RNN状态使模型需要自学用于RNN参数在有所不同讲话者和话语之间分享的高级科学知识,这确保了更好标记数据的可用性。相比之下,少见的聚类算法完全总是独立国家处置每个分开的话语,无法从大量标记数据中获益。
所有这一切的结果是,可以通过等价时间标记的讲话者标签(即告诉谁在什么时候讲话),用标准的随机梯度上升算法训练模型,训练好的模型可以对没听过的讲话者的新话语展开区分。此外,用于在线解码使其更加合适对延后脆弱的应用程序。
(录3:随机梯度上升算法也称作增量梯度上升算法,是用作优化可微分目标函数的递归方法,是梯度上升优化的一种随机近似于。被称作随机是因为样本是随机自由选择(或混洗)而不是作为单个组(如标准梯度上升)或按训练集中于经常出现的顺序自由选择的。)未来的工作Constellation Research的分析师Holger Mueller回应,人类的说出速度比打字速度慢,语音是一种更加大自然的输入法。
“在喧闹的环境中展开语音辨识很难,特别是在多人说出时。”Holger Mueller说道,“这个领域的任何进展都将更进一步推展语音交互的应用于,谷歌这套系统的经常出现,或许正在尝试超越用户与智能设备的对话无限大。”尽管早已通过该系统获得了令人印象深刻印象的性能,谷歌仍在持续改良这一模型,期望可以统合上下文信息并继续执行离线解码,更进一步减少DER,这对延后不脆弱的应用程序更加简单。其次谷歌还想要必要仿真声学特征而不是用于d向量,通过末端到端的方式训练整个讲话者区分系统。
与此同时,Chong Wang的团队还要求将新的算法开源并获取给GitHub,以便其他人参予并作出贡献。原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:乐鱼电竞-www.shunqisiwang.com