关于在机器学习期刊中解释Hey Siri个性化
新时代,高科技越来越发达。朋友们读了很多关于科技的重要新闻。我们也应该在生活中使用很多这些高科技的东西。朋友应该注意什么?今天,我想和大家分享一条关于科技的知识。我希望你会喜欢它。
在苹果《机器学习期刊》上的一篇新帖中,该公司解释了“Hey Siri”语音激活功能背后的个性化工作原理,以减少误报数量。本刊指向较早的一项,描述了“Hey Siri”检测器的一般技术方法和实现细节,以及与说话人无关的更一般的“关键短语检测”问题。最新论文重点介绍了苹果在开发基本说话人识别系统时采用的机器学习技术,以减少附近其他人触发的听起来像“嘿Siri”的误报数量。
苹果在2014年iPhone 6首次亮相时推出了“Hey Siri”,尽管这个功能最初需要将iPhone连接到电源。直到一年后iPhone 6s首次亮相,“永远在线的Hey Siri”才问世,这要归功于全新的低功耗协处理器,它可以在不消耗大量电池的情况下提供持续监听。同时,这一功能在iOS 9中得到了进一步的完善,增加了新的“训练模式”,帮助Siri在初始设置过程中适应特定iPhone用户的语音。
本文继续解释“Hey Siri”一词最初是为了尽可能自然而选择的,并补充说,甚至在引入该功能之前,苹果就发现许多用户在使用“Hey Siri”后,会自然地以“Hey Siri”开始他们的Siri请求。“主页”按钮激活它。然而,这个短语的“简洁”是一把双刃剑,因为它也可能导致更多的误报。正如苹果解释的那样,早期实验表明,意外激活的次数太多,与正确调用的“合理比率”不成比例。因此,苹果的目标是利用机器学习技术减少“虚假接受”的数量,确保Siri只说“嘿Siri,
苹果补充说,说话人识别技术的“总体目标”是通过语音识别一个人,并提出了一个长期计划,可能会提供额外的个性化甚至身份验证,尤其是考虑到苹果HomePod等多用户设备。目标是确定“谁在说话”,而不是简单地说什么。本文继续解释“基于文本的说话人识别”和“与文本无关的”说话人识别这一更具挑战性的任务之间的区别,前者是基于已知短语(如“Hey Siri”)进行识别,后者是无论用户说什么都要识别用户。
也许最有趣的是,该杂志解释了Siri如何继续“隐式”训练自己识别用户的声音,即使是在显式注册过程之后(要求用户在初始设置过程中说出五个不同的“嘿Siri”短语)。初始设置后,隐式过程将继续通过分析其他“嘿Siri”请求来训练Siri,并将它们添加到用户的配置文件中,直到总共存储了40个样本(称为“说话人向量”),包括最初的五个显式训练过程。然后,使用该说话人向量集将其与未来的“嘿,Siri”请求进行比较,以确定其有效性。苹果还注意到,每个发声波形的“Hey Siri”部分也存储在iPhone本地,因此每当iOS更新包含改进的转换时,这些存储的波形都可以用来重建用户配置文件。本文还提出了一个没有明确注册步骤的未来,用户可以从一个空的配置文件开始使用“Hey Siri”功能,这个文件会不断增长和更新。然而,显式训练似乎有必要提供基线,以确保未来隐式训练的准确性。
考虑到苹果对隐私的态度,这并不奇怪,但仍然值得注意的是,所有这些计算和用户语音配置文件的存储只发生在每个用户的iPhone上,而不是在任何苹果服务器上,这表明设备上目前没有此类配置文件。然而,随着苹果对其扬声器识别技术的改进,未来使用一些安全的同步方法(如iCloud钥匙扣)来同步这些数据似乎是合理的,不仅可以跨iOS设备同步,还可以与苹果HomePod等扬声器同步。
本文就为大家讲解到这里了。