苹果发布论文，揭示 Siri 的秘密_Siri话题

苹果公司的跨平台 Siri 虚拟助手在全球有着超过 5 亿用户，显然，语音识别是苹果感兴趣的重要领域之一。

上周，苹果公司发表了一系列预印本研究论文，就如何改进语音触发检测和说话人验证，以及多说话人的语言识别技术进行了研究。

扬声器验证和语音触发检测

在第一篇论文中，一组苹果研究人员提出了一个训练过的人工智能模型，这个模型既能执行自动语音识别任务，也能执行说话人识别任务。

正如他们在摘要中所解释的，语音助手识别的命令通常以触发短语（例如，“嘿，Siri”）为前缀，检测这个触发短语涉及两个步骤。

首先，人工智能必须判断输入音频中的语音内容是否与触发短语的语音内容相匹配（语音触发检测）；其次，人工智能必须判断说话者的语音是否与注册用户或用户的语音相匹配（语音验证）。

通常情况下，这两项任务都是被独立考虑的。但有合著者假设，对语音发起者的了解可能有助于推断出声音信号中的语音内容，反之亦然，这将有助于对这两种属性进行评估。

对此，研究人员设计了三套能够学习语音和说话人信息的模型，并对一组数据进行训练，这些数据包含超过 16000 小时的带注释的样本，其中 5000 小时的音频有语音标签（其余的为说话人标签）。

不仅如此，还有超过 100 名受试者使用智能扬声器设备在一系列声学设置中为语料库做出贡献，包括安静的房间、来自房间内电视或厨房设备的外部噪音，以及录音机以大音量播放音乐。

Siri