CN107480161A

CN107480161A - 用于媒体探究的智能自动化助理

Info

Publication number: CN107480161A
Application number: CN201710391293.4A
Authority: CN
Inventors: R·M·奥尔; M·P·贝纳多; D·J·曼德尔
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2016-06-08
Filing date: 2017-05-27
Publication date: 2017-12-15

Abstract

本公开的实施例涉及用于媒体探究的智能自动化助理。本发明提供了一种用于操作智能自动化助理以探究媒体项的系统和过程。在一个示例性过程中，从用户接收用于表示对一个或多个媒体项的请求的语音输入。该过程确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图。响应于确定语音输入对应于获取针对媒体项的个性化推荐的用户意图，从媒体项的特定于用户的语料库获取至少一个媒体项。媒体项的特定于用户的语料库基于与用户相关联的数据而被生成。提供该至少一个媒体项。

Description

用于媒体探究的智能自动化助理

相关专利申请的交叉引用

本专利申请要求于2016年6月8日提交的标题为“INTELLIGENT AUTOMATEDASSISTANT FOR MEDIA EXPLORATION”的美国临时申请序列号62/347,480；于2016年9月15日提交的标题为“INTELLIGENT AUTOMATED ASSISTANT FOR MEDIA EXPLORATION”的美国非临时申请序列号15/266,956；以及于2017年5月15日提交的标题为 “"INTELLIGENTAUTOMATED ASSISTANT FOR MEDIA EXPLORATION”的丹麦专利申请序列号PA201770338的优先权，所有这些专利申请据此全文以引用方式并入本文以用于所有目的。

技术领域

本发明整体涉及智能自动化助理，并且更具体地涉及用于媒体探究的智能自动化助理。

背景技术

智能自动化助理(或数字助理)可在人类用户和电子设备之间提供有利的界面。此类助理可允许用户使用语音形式和/或文本形式的自然语言与设备或系统进行交互。例如，用户可将包含用户请求的语音输入提供至在电子设备上运行的数字助理。该数字助理可根据语音输入来解释用户意图并且将用户意图转换到任务中。然后，可通过执行电子设备的一项或多项服务来执行任务，并且可将响应于用户请求的相关输出返回至用户。

在管理音乐或其他媒体时，数字助理可有助于搜索或回放特定的媒体，特别是在免提环境下。具体地，数字助理可有效地对请求作出响应以播放特定的媒体项，诸如按标题或艺术家明确识别的语料库或歌曲。然而，数字助理难以基于模糊的开放式自然语言请求诸如用于推荐歌曲或语料库的请求来发现相关的媒体项。

发明内容

本发明提供了一种用于操作智能自动化助理以探究媒体项的系统和过程。在一个示例性过程中，从用户接收用于表示对一个或多个媒体项的请求的语音输入。该过程确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图。响应于确定语音输入对应于获取针对媒体项的个性化推荐的用户意图，从媒体项的特定于用户的语料库获取至少一个媒体项。基于与用户相关联的数据而生成媒体项的特定于用户的语料库。提供该至少一个媒体项。

附图说明

图1为示出根据各种示例的用于实现数字助理的系统和环境的框图。

图2A为示出根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备的框图。

图2B为示出根据各种示例的用于事件处理的示例性部件的框图。

图3示出根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备。

图4为示出根据各种示例的具有显示器和触敏表面的示例性多功能设备的框图。

图5A示出根据各种示例的便携式多功能设备上的应用程序的菜单的示例性用户界面。

图5B示出根据各种示例的具有与显示器分开的触敏表面的多功能设备的示例性用户界面。

图6A示出根据各种示例的个人电子设备。

图6B为示出根据各种示例的个人电子设备的框图。

图7A为示出根据各种示例的数字助理系统或其服务器部分的框图。

图7B示出根据各种示例的如图7A所示的数字助理的功能。

图7C示出根据各种示例的知识本体的一部分。

图8A-C示出根据各种示例的操作用于媒体探究的数字助理的过程。

图9A-B示出根据各种示例的用户操作用于媒体探究的数字助理。

图10示出根据各种示例的用户操作用于媒体探究的数字助理。

图11示出根据各种示例的用户操作用于媒体探究的数字助理。

图12示出根据各种示例的电子设备的功能框图。

具体实施方式

在以下对示例的描述中将引用附图，在附图中以例示的方式示出了可被实施的特定示例。应当理解，在不脱离各个示例的范围的情况下，可使用其他示例并且可作出结构性变更。

使用数字助理探究媒体内容的常规技术一般繁琐并且低效。具体地，自然语言形式的媒体相关请求例如过于宽泛或模糊，因此难以准确推断出与请求对应的用户意图。例如，媒体相关请求“为我播放一些好听的”是模糊和开放式的，并且因此利用现有技术，数字助理可能检索与用户偏好不相容的媒体项，可能向用户呈现过多的媒体项，或可能根本不返回任何内容。这可导致用户和数字助理之间的大量后续的交互，以澄清用户意图。这可对用户体验产生不利影响。另外，大量后续的交互相对于设备的能耗是低效的。这一考虑对于电池驱动的设备特别重要。

根据本文所述的一些系统、计算机可读媒体和过程，数字助理以更高效和准确的方式来执行媒体探究。在一个示例性过程中，从用户接收用于表示对一个或多个媒体项的请求的语音输入。该过程确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图。响应于确定语音输入对应于获取针对媒体项的个性化推荐的用户意图，从媒体项的特定于用户的语料库获取至少一个媒体项。该至少一个媒体项使用特定于用户的媒体排序模型而被获取。基于与用户相关联的数据而生成媒体项的特定于用户的语料库或特定于用户的媒体排序模型。然后将至少一个媒体项提供至用户。通过使用媒体项的特定于用户的语料库和特定于用户的媒体排序模型获取至少一个媒体项，该至少一个媒体项符合用户偏好的可能性提高。因此，推荐与用户更相关的媒体项，这提高了数字助理的效率和有用性。

尽管以下描述使用术语“第一”、“第二”等来描述各种元件，但这些元件不应受术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如，第一输入可被命名为第二输入，并且类似地，第二输入可被命名为第一输入，而不脱离各种所描述的示例的范围。第一输入和第二数据均为输入，并且在一些情况下为独立且不同的输入。

在本文中对各种所描述的示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。如在对各种所述示例中的描述和所附权利要求书中所使用的那样，单数形式“一个”(“a”，“an”)和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“includes”，“including”，“comprises”和/或“comprising”) 当在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元素和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件和/或其分组。

根据上下文，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件] 时”或“响应于检测到[所陈述的条件或事件]”。

1、系统和环境

图1示出根据各种示例的系统100的框图。在一些示例中，系统100 实现数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”指解释语音和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了践行推断出的用户意图，系统执行以下各项中的一者或多者：通过设计用于实现所推断出的用户意图的步骤和参数来识别任务流，将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、API 等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

具体地，数字助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常，用户请求要么寻求数字助理作出信息性回答，要么寻求数字助理执行任务。对用户请求的令人满意的响应包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如，用户向数字助理提出问题诸如“我现在在哪里？”。基于用户的当前位置，数字助理回答“你在中央公园西门附近。”用户还请求执行任务，例如“请邀请我的朋友下周来参加我女朋友的生日聚会。”作为响应，数字助理可通过讲出“好的，马上”来确认请求，并然后代表用户将合适的日历邀请发送至在用户的电子通讯录中列出的用户朋友中的每个朋友。在执行所请求的任务期间，数字助理有时在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外，数字助理还提供其他视频或音频形式的响应，例如作为文本、警报、音乐、视频、动画等。

如图1所示，在一些示例中，数字助理可根据客户端-服务器模型来实施。数字助理包括在用户设备104上执行的客户端侧部分102(后文称作“DA客户端102”)，以及在服务器系统108上执行的服务器侧部分106 (后文称作“DA服务器106”)。DA客户端102通过一个或多个网络110 与DA服务器106进行通信。DA客户端102提供客户端侧功能诸如面向用户的输入和输出处理，并且与DA服务器106进行通信。DA服务器106为任意数量的DA客户端102提供服务器侧功能，该任意数量的DA客户端 102各自位于相应用户设备104上。

在一些示例中，DA服务器106包括面向客户端的I/O接口112、一个或多个处理模块114、数据和模型116、以及至外部服务的I/O接口118。面向客户端的I/O接口112有利于DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114利用数据和模型116来处理语音输入并且基于自然语言输入来确定用户意图。另外，一个或多个处理模块114基于推断出的用户意图来执行任务。在一些示例中，DA服务器106通过一个或多个网络110来与外部服务120(例如，一种或多种媒体服务120-1、一种或多种导航服务120-2、一种或多种消息型服务120-3、一种或多种信息服务120-4、日历服务120-5、电话服务120-6等)进行通信，以完成任务或采集信息。至外部服务的I/O接口118促成此类通信。

具体地，DA服务器106与一种或多种媒体服务进行通信，以执行包括搜索和获取媒体项的任务。一种或多种媒体服务120-1在例如一个或多个远程媒体服务器上实施，并且被配置为提供媒体项，诸如歌曲、语料库、播放列表、视频等。例如，一种或多种媒体服务包括媒体流服务，诸如Apple Music或iTunes Radio^TM(Apple Inc.(Cupertino,California))。一种或多种媒体服务120-1被配置为接收媒体搜索查询(例如，来自DA服务器106)，并且作为响应，提供满足媒体搜索查询的一个或多个媒体项。具体地，根据媒体搜索查询，搜索媒体项的一个或多个语料库，以识别一个或多个媒体项并且提供所识别的一个或多个媒体项。另外，一种或多种媒体服务被配置为提供与媒体项相关联的信息，诸如与特定媒体项相关联的艺术家的名字、特定媒体项的发行日期或特定媒体项的歌词。

一种或多种媒体服务120-1包括媒体项的各种语料库。该媒体项的语料库包括媒体项的特定于用户的语料库。基于与相应用户相关联的数据而生成媒体项的每个特定于用户的语料库。媒体相关的数据包括例如指示媒体项先前已被用户查看、选择、请求、采集或拒绝的用户输入。另外，媒体相关的数据包括在与用户相关联的媒体项的个人库中找到的媒体项。因此，被包含在媒体项的每个特定于用户的语料库中的媒体项反映相应用户的媒体偏好。在一些示例中，基于用户信息诸如用户登录信息和/或用户密码信息识别并且访问每个媒体项的特定于用户的语料库。在一些示例中，一种或多种媒体服务120-1中的媒体项的语料库还包括基于媒体项的发行日期而生成的媒体项的一种或多种第二语料库。例如，媒体项的一种或多种第二语料库仅包含具有在从当前日期开始的预先确定的时间范围内的发行日期的媒体项。

在一些示例中，媒体项的语料库中的每个媒体项包括指示一种或多种媒体参数的元数据。媒体参数包括例如{标题}、{艺术家}、{流派}、{发行日期}、{情绪}、{场合}、{编辑列表}、{政治倾向}、{技术熟练程度}等。因此基于在媒体项的元数据中指示的媒体参数来搜索和检索媒体项的语料库中的媒体项。下文参考图8A-C提供了关于与媒体项相关联的媒体参数的附加描述。

用户设备104可为任何合适的电子设备。在一些示例中，用户设备为便携式多功能设备(例如，下文参考图2A所述的设备200)、多功能设备 (例如，下文参考图4所述的设备400)、或个人电子设备(例如，下文参考图6A-B所述的设备600)。便携式多功能设备为例如还包含其他功能诸如PDA和/或音乐播放器功能的移动电话。便携式多功能设备的具体示例包括来自Apple Inc.(Cupertino,California)的设备、iPod设备和设备。便携式多功能设备的其他示例包括但不限于膝上型电脑或平板电脑。另外，在一些示例中，用户设备104为非便携式多功能设备。具体地，用户设备104为台式计算机、游戏机、电视机或电视机顶盒。在一些示例中，用户设备104包括触敏表面(例如，触摸屏显示器和/或触摸板)。另外，用户设备104任选地包括一个或多个其他物理用户接口设备，诸如物理键盘、鼠标和/或操纵杆。电子设备的各种示例诸如多功能设备在下文中更详细地被描述。

一个或多个通信网络110的示例包括局域网(LAN)和广域网(WAN)，例如互联网。一个或多个通信网络110使用任何已知的网络协议，包括各种有线或无线协议，诸如以太网、通用串行总线(USB)、火线 (FIREWIRE)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网电话协议 (VoIP)、Wi-MAX、或任何其他合适的通信协议来实施。

服务器系统108在计算机的一个或多个独立式数据处理设备或分布式网络上实施。在一些示例中，服务器系统108还采用第三方服务提供方 (例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。

在一些示例中，用户设备104经由第二用户设备122来与DA服务器 106进行通信。第二用户设备122与用户设备104类似或相同。例如，第二用户设备122类似于下文参考图2A、图4和图6A-B所述的设备200,400 或600。用户设备104被配置为经由直接通信连接诸如蓝牙、NFC、BTLE 等或经由有线或无线网络诸如本地Wi-Fi网络而被通信地耦接至第二用户设备122。在一些示例中，第二用户设备122被配置为充当用户设备104和 DA服务器106之间的代理。例如，用户设备104的DA客户端102被配置为经由第二用户设备122来将信息(例如，在用户设备104处接收的用户请求)传输至DA服务器106。DA服务器106处理信息并且经由第二用户设备122来将相关数据(例如，响应于用户请求的数据内容)返回至用户设备104。

在一些示例中，用户设备104被配置为将数据的缩略请求发送至第二用户设备122，以减少从用户设备104传输的信息量。第二用户设备122被配置为确定添加至缩略请求的补充信息，以生成传输至DA服务器106的完整请求。该系统架构可有利地使具有有限通信能力和/或有限电池电量的用户设备104(例如，手表或类似的紧凑型电子设备)通过使用具有较强通信能力和/或电池电量(例如，移动电话、膝上型电脑、平板电脑等)的第二用户设备122作为DA服务器106代理来访问由DA服务器106提供的服务。虽然在图1中只示出了两个用户设备104和用户设备122，但应当理解，在一些示例中，系统100可包括以代理配置进行配置以与DA服务器系统106进行通信的任意数量和类型的用户设备。

尽管图1中所示的数字助理包括客户端侧部分(例如，DA客户端 102)和服务器侧部分(例如，DA服务器106)两者，但在一些示例中，数字助理的功能被实现为被安装在用户设备上的独立式应用程序。此外，数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如，在一些示例中，DA客户端为仅提供面向用户的输入和输出处理功能，并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。

2、电子设备

现在将注意力转到用于实现数字助理的客户端侧部分的电子设备的实施方案。图2A是示出了根据一些实施方案的具有触敏显示器系统212的便携式多功能设备200的框图。触敏显示器212有时为了方便被叫做“触摸屏”，并且有时可被称为或被叫做“触敏显示器系统”。设备200包括存储器202(其任选地包括一个或多个计算机可读存储介质)、存储器控制器 222、一个或多个处理单元(CPU)220、外围设备接口218、RF电路208、音频电路210、扬声器211、麦克风213、输入/输出(I/O)子系统206、其他输入控制设备216、和外部端口224。设备200任选地包括一个或多个光学传感器264。设备200任选地包括用于检测设备200(例如，触敏表面，诸如设备200的触敏显示器系统212)上的接触的强度的一个或多个接触强度传感器265。设备200任选地包括用于在设备200上生成触觉输出的一个或多个触觉输出发生器267(例如，在触敏表面诸如设备200的触敏显示器系统 212或设备400的触摸板455上生成触觉输出)。这些部件任选地通过一个或多个通信总线或信号线203进行通信。

如在本说明书和权利要求书中所使用的，术语触敏表面上的接触的“强度”是指触敏表面上的接触(例如，手指接触)的力或压力(每单位面积的力)，或是指触敏表面上的接触的力或压力的替代物(代用物)。接触的强度具有值范围，该值范围包括至少四个不同的值并且更典型地包括上百个不同的值(例如，至少256个)。接触的强度任选地使用各种方法和各种传感器或传感器的组合来确定(或测量)。例如，在触敏表面下方或相邻于触敏表面的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中，来自多个力传感器的力测量被合并 (例如，加权平均)，以确定估计的接触力。类似地，触笔的压敏顶端任选地用于确定触笔在触敏表面上的压力。另选地，在触敏表面上检测到的接触面积的大小和/或其变化、接触附近触敏表面的电容和/或其变化、和/ 或接触附近触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。在一些具体实施中，接触力或压力的替代测量值直接用于确定是否已超过强度阈值(例如，强度阈值以与替代测量值对应的单位描述)。在一些具体实施中，接触力或压力的替代物测量被转换成估计的力或压力，并且估计的力或压力用于确定是否已超过强度阈值(例如，强度阈值是以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的属性，从而允许用户访问用户在尺寸更小的设备上可能本来不能访问的附加设备功能，该尺寸更小的设备具有有限的实地面积用于(例如，在触敏显示器上)显示示能表示和/或接收用户输入(例如，经由触敏显示器、触敏表面或物理控件/机械控件，诸如旋钮或按钮)。

如本说明书和权利要求书中所使用的，术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备的部件(例如，触敏表面)相对于设备的另一个部件(例如，外壳)的物理位移、或部件相对于设备的质心的位移。例如，在设备或设备的部件与用户对触摸敏感的表面(例如，手指、手掌或用户手部的其他部分)接触的情况下，通过物理位移生成的触觉输出将由用户解释为触感，该触感对应于设备或设备的部件的物理特征的所感知的变化。例如，触敏表面(例如，触敏显示器或触控板)的移动任选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下，用户将感觉到触感，诸如“按下点击”或“松开点击”，即使在通过用户的移动而物理地被按压 (例如，被移位)的与触敏表面相关联的物理致动按钮没有移动时。作为另一个示例，即使在触敏表面的光滑度无变化时，触敏表面的移动也会任选地由用户解释为或感测为触敏表面的“粗糙度”。虽然由用户对触摸的此类解释将受到用户的个体化感官知觉的限制，但是存在触摸的许多感官知觉是大多数用户共有的。因此，当触觉输出被描述为对应于用户的特定感官知觉(例如，“按下点击”、“松开点击”、“粗糙度”)时，除非另外陈述，否则所生成的触觉输出对应于设备或其部件的物理位移，该物理位移将会生成典型(或普通)用户的感官知觉。

应当理解，设备200仅是便携式多功能设备的一个示例，并且设备 200任选地具有比所示出的更多或更少的部件，任选地组合两个或更多个部件，或者任选地具有这些部件的不同配置或布置。图2A中所示的各种部件以硬件、软件、或硬件与软件两者的组合来实现，其包括一个或多个信号处理电路和/或专用集成电路。

存储器202包括一个或多个计算机可读存储介质。计算机可读存储介质为例如有形的和非暂态的。存储器202包括高速随机存取存储器并且还可包括非易失性存储器，诸如一个或多个磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备。存储器控制器222控制设备200的其他部件访问存储器202。

在一些示例中，存储器202的非暂态计算机可读存储介质用于存储指令(例如，用于执行下文所述的过程的方面)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其结合。在其他示例中，指令(例如，用于执行下文所述的过程的方面)被存储在服务器系统 108的非暂态计算机可读存储介质(未示出)上，或者在存储器202的非暂态计算机可读存储介质和服务器系统108的非暂态计算机可读存储介质之间划分。

外围设备接口218用于将设备的输入外围设备和输出外围设备耦接到 CPU 220和存储器202。该一个或多个处理器220运行或执行被存储在存储器202中的各种软件程序和/或指令集，以执行设备200的各种功能并处理数据。在一些实施方案中，外围设备接口218、CPU 220和存储器控制器 222被实现在单个芯片诸如芯片204上。在一些其他实施方案中，它们被实现在独立的芯片上。

RF(射频)电路208接收和发送也被叫做电磁信号的RF信号。RF电路208将电信号转换为电磁信号/将电磁信号转换为电信号，并且经由电磁信号来与通信网络以及其他通信设备进行通信。RF电路208任选地包括用于执行这些功能的熟知的电路，包括但不限于天线系统、RF收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、用户身份模块(SIM)卡、存储器等等。RF电路208任选地通过无线通信与网络以及其他设备进行通信，该网络为诸如互联网(也被称为万维网(WWW))、内联网、和/或无线网络(诸如蜂窝电话网络、无线局域网 (LAN)、和/或城域网(MAN))。RF电路208任选地包括用于检测近场通信 (NFC)场的熟知的电路，诸如通过近程通信无线电部件来进行检测。无线通信任选地使用多种通信标准、协议和技术中的任一者，包括但不限于全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进、纯数据(EV-DO)、 HSPA、HSPA+、双单元HSPA(DC-HSPDA)、长期演进(LTE)、近场通信 (NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址 (TDMA)、蓝牙、蓝牙低功耗、无线保真(Wi-Fi)(例如，IEEE 802.11a、 IEEE 802.11b、IEEE 802.11g、IEEE802.11n和/或IEEE 802.11ac)、互联网协议语音(VoIP)、Wi-MAX、电子邮件协议(例如，互联网消息访问协议 (IMAP)和/或邮局协议(POP))、即时消息(例如，可扩展消息处理和存在协议(XMPP)、用于即时消息和存在利用扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))、和/或短消息服务(SMS)、或者包括在本文档提交日期时还未开发出的通信协议的任何其他适当的通信协议。

音频电路210、扬声器211和麦克风213提供用户和设备200之间的音频接口。音频电路210从外围设备接口218接收音频数据，将音频数据转换为电信号，并将电信号传输到扬声器211。扬声器211将电信号转换为人类可听的声波。音频电路210还接收由麦克风213根据声波转换的电信号。音频电路210将电信号转换为音频数据，并将音频数据传输到外围设备接口218以用于处理。音频数据由外围设备接口218检索自和/或传输至存储器202和/或RF电路208。在一些实施方案中，音频电路210还包括耳麦插孔(例如，图3中的312)。耳麦插孔提供音频电路210和可移除的音频输入/输出外围设备之间的接口，该可移除的音频输入/输出外围设备诸如仅输出的耳机或者具有输出(例如，单耳耳机或双耳耳机)和输入(例如，麦克风)两者的耳麦。

I/O子系统206将设备200上的输入/输出外围设备诸如触摸屏212和其他输入控制设备216耦接至外围设备接口218。I/O子系统206任选地包括显示控制器256、光学传感器控制器258、强度传感器控制器259、触觉反馈控制器261、和用于其他输入或控制设备的一个或多个输入控制器 260。该一个或多个输入控制器260从其他输入控制设备216接收电信号/将电信号发送至其他输入控制设备216。其他输入控制设备216任选地包括物理按钮(例如，下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击式转盘等等。在一些另选的实施方案中，一个或多个输入控制器260 任选地耦接至以下各项中的任一者(或不耦接至以下各项中的任一者)：键盘、红外线端口、USB端口、以及指针设备诸如鼠标。一个或多个按钮(例如，图3中的308)任选地包括用于扬声器211和/或麦克风213的音量控制的增大/减小按钮。一个或多个按钮任选地包括下压按钮(例如，图 3中的306)。

快速按下下压按钮解除触摸屏212的锁定或者开始使用触摸屏上的手势来对设备进行解锁的过程，如在于2005年12月23日提交的标题为“Unlocking a Device byPerforming Gestures on an Unlock Image”的美国专利申请11/322,549即美国专利7,657,849中所述的，上述美国专利申请据此全文以引用方式并入本文。更长地按下下压按钮(例如306)使设备200开机或关机。用户能够对一个或多个按钮的功能进行自定义。触摸屏212用于实现虚拟按钮或软按钮以及一个或多个软键盘。

触敏显示器212提供设备和用户之间的输入接口和输出接口。显示控制器256从触摸屏212接收电信号和/或将电信号发送至触摸屏212。触摸屏212向用户显示视觉输出。视觉输出任选地包括图形、文本、图标、视频和它们的任何组合(统称为“图形”)。在一些实施方案中，一些视觉输出或全部的视觉输出对应于用户界面对象。

触摸屏212具有基于触觉和/或触感接触来从用户接受输入的触敏表面、传感器、或传感器组。触摸屏212和显示控制器256(与存储器202中的任何相关联的模块和/或指令集一起)检测触摸屏212上的接触(和该接触的任何移动或中断)，并且将所检测到的接触转换为与被显示在触摸屏 212上的用户界面对象(例如，一个或多个软键、图标、网页或图像)的交互。在一个示例性实施方案中，触摸屏212和用户之间的接触点对应于用户的手指。

触摸屏212使用LCD(液晶显示器)技术、LPD(发光聚合物显示器)技术或LED(发光二极管)技术，但在其他实施方案中可使用其他显示技术。触摸屏212和显示控制器256使用目前已知或以后将开发的多种触摸感测技术中的任何技术以及其他接近传感器阵列或用于确定与触摸屏 212接触的一个或多个点的其他元件来检测接触及其任何移动或中断，该多种触摸感测技术包括但不限于电容性、电阻性、红外和表面声波技术。在一个示例性实施方案中，使用投射式互电容感测技术，诸如在Apple Inc. (Cupertino,California)的和iPod发现的技术。

触摸屏212的一些实施方案中的触敏显示器可类似于以下美国专利中所述的多点触敏触摸板：6,323,846(Westerman等人)、6,570,557 (Westerman等人)和/或6,677,932(Westerman)；和/或美国专利公开 2002/0015024A1，这些专利文献中的每个专利文献据此全文以引用方式并入本文。然而，触摸屏212显示来自设备200的视觉输出，而触敏触摸板不提供视觉输出。

触摸屏212的一些实施方案中的触敏显示器如在以下专利申请中那样进行描述：(1)于2006年5月2日提交的美国专利申请11/381,313, “Multipoint Touch SurfaceController”；(2)于2004年5月6日提交的美国专利申请10/840,862,“MultipointTouchscreen”；(3)于2004年7月30日提交的美国专利申请10/903,964,“Gestures ForTouch Sensitive Input Devices”；(4)于2005年1月31日提交的美国专利申请11/048,264, “Gestures For Touch Sensitive Input Devices”；(5)于2005年1月18日提交的美国专利申请11/038,590,“Mode-Based Graphical User Interfaces For TouchSensitive Input Devices”；(6)于2005年9月16日提交的美国专利申请11/228,758,“Virtual Input Device Placement On A Touch Screen User Interface”；(7)于2005年9月16日提交的美国专利申请11/228,700, “Operation Of A Computer With A TouchScreen Interface”；(8)于2005年9 月16日提交的美国专利申请11/228,737,“ActivatingVirtual Keys Of A Touch-Screen Virtual Keyboard”；和(9)于2006年3月3日提交的美国专利申请11/367,749,“Multi-Functional Hand-Held Device”。所有这些专利申请全文以引用方式并入本文。

触摸屏212具有例如超过100dpi的视频分辨率。在一些实施方案中，触摸屏具有约160dpi的视频分辨率。用户使用任何合适的物体或附加物诸如触笔、手指等等来与触摸屏212接触。在一些实施方案中，将用户界面设计为主要通过基于手指的接触和手势工作，由于手指在触摸屏上的接触区域较大，因此这可能不如基于触笔的输入精确。在一些实施方案中，设备将基于手指的粗略输入翻译为精确的指针/光标位置或命令，以用于执行用户所期望的动作。

在一些实施方案中，除了触摸屏之外，设备200包括用于激活或去激活特定功能的触摸板(未示出)。在一些实施方案中，触摸板是设备的触敏区域，该触敏区域与触摸屏不同，其不显示视觉输出。触摸板是与触摸屏212分开的触敏表面，或者是由触摸屏形成的触敏表面的延伸。

设备200还包括用于为各种部件供电的电力系统262。电力系统262包括电力管理系统、一个或多个电源(例如，电池、交流电(AC))、再充电系统、电力故障检测电路、功率变换器或逆变器、电源状态指示器(例如，发光二极管(LED))和与便携式设备中的电力的生成、管理和分配相关联的任何其他部件。

设备200还包括一个或多个光学传感器264。图2A示出了耦接到I/O 子系统206中的光学传感器控制器258的光学传感器。光学传感器264可包括电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光电晶体管。光学传感器264从环境接收通过一个或多个透镜而投射的光，并且将光转换为表示图像的数据。结合成像模块243(也叫做相机模块)，光学传感器 264捕获静态图像或视频。在一些实施方案中，光学传感器位于设备200的与设备的前部的触摸屏显示器212相背对的后部，使得触摸屏显示器被用作用于静态图像和/或视频图像采集的取景器。在一些实施方案中，光学传感器位于设备的前部，使得在用户在触摸屏显示器上查看其他视频会议参与者的同时获取该用户的图像，以用于视频会议。在一些实施方案中，光学传感器264的位置可由用户改变(例如通过旋转设备外壳中的透镜和传感器)，使得单个光学传感器264与触摸屏显示器一起使用，以用于视频会议和静态图像和/或视频图像采集两者。

设备200任选地还包括一个或多个接触强度传感器265。图2A示出了耦接到I/O子系统206中的强度传感器控制器259的接触强度传感器。接触强度传感器265任选地包括一个或多个压阻应变仪、电容式力传感器、电气式力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传感器(例如，用于测量触敏表面上的接触的力(或压力)的传感器)。接触强度传感器265从环境接收接触强度信息(例如，压力信息或压力信息的代用物)。在一些实施方案中，至少一个接触强度传感器与触敏表面(例如，触敏显示器系统212)并置排列或邻近。在一些实施方案中，至少一个接触强度传感器位于设备200的与位于设备200的前部上的触摸屏显示器212相背对的后部上。

设备200还包括一个或多个接近传感器266。图2A示出了耦接到外围设备接口218的接近传感器266。另选地，接近传感器266耦接到I/O子系统206中的输入控制器260。接近传感器266如以下美国专利申请中所述的那样执行：11/241,839，标题为“ProximityDetector In Handheld Device”； 11/240,788，标题为“Proximity Detector InHandheld Device”； 11/620,702，标题为“Using Ambient Light Sensor To AugmentProximity Sensor Output”；11/586,862，标题为“Automated Response To And SensingOf User活动In Portable Devices”；和11/638,251，标题为“Methods And Systems ForAutomatic Configuration Of Peripherals”，这些美国专利申请据此全文以引用方式并入本文。在一些实施方案中，当多功能设备被置于用户的耳朵附近时(例如，当用户正在进行电话呼叫时)，接近传感器关闭并且禁用触摸屏212。

设备200任选地还包括一个或多个触觉输出发生器267。图2A示出了耦接到I/O子系统206中的触觉反馈控制器261的触觉输出发生器。触觉输出发生器267任选地包括一个或多个电声设备诸如扬声器或其他音频部件；和/或用于将能量转换成线性运动的机电设备诸如电机、螺线管、电活性聚合器、压电致动器、静电致动器或其他触觉输出生成部件(例如，用于将电信号转换成设备上的触觉输出的部件)。接触强度传感器265从触觉反馈模块233接收触觉反馈生成指令，并且在设备200上生成能够由设备200的用户感觉到的触觉输出。在一些实施方案中，至少一个触觉输出发生器与触敏表面(例如，触敏显示器系统212)并置排列或邻近，并且任选地通过垂直地(例如，向设备200的表面内/外)或侧向地(例如，在与设备200的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方案中，至少一个触觉输出发生器传感器位于设备200的与位于设备200的前部上的触摸屏显示器212相背对的后部上。

设备200还可包括一个或多个加速度计268。图2A示出了耦接至外围设备接口218的加速度计268。另选地，加速度计268耦接到I/O子系统 206中的输入控制器260。加速度计268如以下美国专利公开中所述的那样执行：20050190059，标题为“Acceleration-basedTheft Detection System for Portable Electronic Devices”；以及20060017692，标题为“Methods And Apparatuses For Operating A Portable Device Based On AnAccelerometer”，这两个美国专利公开均全文以引用方式并入本文。在一些实施方案中，信息基于对从一个或多个加速度计所接收的数据的分析而在触摸屏显示器上以纵向视图或横向视图被显示。设备200任选地除了加速度计268之外还包括磁力仪(未示出)和GPS(或GLONASS或其他全球导航系统)接收器(未示出)，以用于获取关于设备200的位置和取向(例如，纵向或横向)的信息。

在一些实施方案中，存储于存储器202中的软件部件包括操作系统 226、通信模块(或指令集)228、接触/运动模块(或指令集)230、图形模块(或指令集)232、文本输入模块(或指令集)234、全球定位系统(GPS) 模块(或指令集)235、数字助理客户端模块229以及应用程序(或指令集)236。另外，存储器202存储数据和模型，诸如用户数据和模型231。此外，在一些实施方案中，存储器202(图2A)或470(图4)存储设备/ 全局内部状态257，如图2A、和图4中所示的。设备/全局内部状态257包括以下各项中的一者或多者：活动应用程序状态，该活动应用程序状态用于指示哪些应用程序(如果有的话)当前是活动的；显示状态，该显示状态用于指示什么应用程序、视图或其他信息占据触摸屏显示器212的各个区域；传感器状态，该传感器状态包括从设备的各个传感器和输入控制设备216获取的信息；以及关于设备位置和/或姿态的位置信息。

操作系统226(例如，Darwin、RTXC、LINUX、UNIX、OS X、 iOS、WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、功率管理等)的各种软件部件和/或驱动程序，并且促进各种硬件部件和软件部件之间的通信。

通信模块228促进通过一个或多个外部端口224来与其他设备进行通信，并且还包括用于处理由RF电路208和/或外部端口224所接收的数据的各种软件部件。外部端口224(例如通用串行总线(USB)、火线等)适于直接耦接到其他设备，或间接地通过网络(例如互联网、无线LAN等)耦接。在一些实施方案中，外部端口是与(Apple Inc.的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如，30针) 连接器。

接触/运动模块230任选地检测与触摸屏212(结合显示控制器256) 和其他触敏设备(例如，触摸板或物理点击式转盘)的接触。接触/运动模块230包括各种软件部件以用于执行与接触检测相关的各种操作，诸如确定是否已发生接触(例如，检测手指按下事件)、确定接触的强度(例如，接触的力或压力，或者接触的力或压力的替代物)、确定是否存在接触的移动并跟踪在触敏表面上的移动(例如，检测一个或多个手指拖动事件)、以及确定接触是否已停止(例如，检测手指抬起事件或者接触断开)。接触/运动模块230从触敏表面接收接触数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加速度 (量值和/或方向的改变)，该接触点的移动由一系列接触数据来表示。这些操作任选地被应用于单点接触(例如，单指接触)或者多点同时接触 (例如，“多点触摸”/多个手指接触)。在一些实施方案中，接触/运动模块230和显示控制器256检测触摸板上的接触。

在一些实施方案中，接触/运动模块230使用一组一个或多个强度阈值来确定操作是否已由用户执行(例如，确定用户是否已“点击”图标)。在一些实施方案中，根据软件参数来确定强度阈值的至少一个子集(例如，强度阈值不是由特定物理致动器的激活阈值来确定的，并且可在不改变设备200的物理硬件的情况下被调节)。例如，在不改变触控板或触摸屏显示器硬件的情况下，触控板或触摸屏的鼠标“点击”阈值可被设定成预定义的阈值的大范围中的任一个阈值。另外，在一些具体实施中，向设备的用户提供用于调节一组强度阈值中的一个或多个强度阈值(例如，通过调节各个强度阈值和/或通过利用对“强度”参数的系统级点击来一次调节多个强度阈值)的软件设置。

接触/运动模块230任选地检测用户的手势输入。触敏表面上的不同手势具有不同的接触图案(例如，所检测到的接触的不同运动、定时和/或强度)。因此，任选地通过检测特定接触图案来检测手势。例如，检测手指轻击手势包括检测手指按下事件，然后在与手指按下事件相同的位置(或基本上相同的位置)处(例如，在图标的位置处)检测手指抬起(抬离)事件。作为另一个示例，在触敏表面上检测手指轻扫手势包括检测手指按下事件，然后检测一个或多个手指拖动事件，并且随后检测手指抬起(抬离)事件。

图形模块232包括用于在触摸屏212或其他显示器上呈现和显示图形的各种已知的软件部件，包括用于改变所显示的图形的视觉冲击(例如，亮度、透明度、饱和度、对比度或其他视觉特征)的部件。如本文所用，术语“图形”包括可被显示给用户的任何对象，包括但不限于文本、网页、图标(诸如包括软键的用户界面对象)、数字图像、视频、动画等。

在一些实施方案中，图形模块232存储用于表示待使用的图形的数据。每个图形任选地被分配有对应的代码。图形模块232从应用程序等接收用于指定待显示的图形的一个或多个代码，在必要的情况下还接收坐标数据和其他图形属性数据，然后生成屏幕图像数据，以输出至显示控制器 256。

触觉反馈模块233包括用于生成指令的各种软件部件，该指令由触觉输出发生器267使用，以便响应于用户与设备200的交互而在设备200上的一个或多个位置处产生触觉输出。

在一些示例中，作为图形模块232的部件的文本输入模块234提供用于在各种应用程序(例如，联系人237、电子邮件240、IM 241、浏览器 247和需要文本输入的任何其他应用程序)中输入文本的软键盘。

GPS模块235确定设备的位置并提供了在各种应用程序中使用的这种信息(例如，提供至用于基于位置的拨号的电话238，提供至相机243作为图片/视频元数据，以及提供至提供基于位置的服务诸如天气桌面小程序、当地黄页桌面小程序和地图/导航桌面小程序的应用程序)。

数字助理客户端模块229包括各种客户端侧数字助理指令，以提供数字助理的客户端侧功能。例如，数字助理客户端模块229能够通过便携式多功能设备200的各种用户接口(例如，麦克风213、一个或多个加速度计 268、触敏显示器系统212、一个或多个光学传感器229、其他输入控制设备216等)来接受声音输入(例如，语音输入)、文本输入、触摸输入和/ 或手势输入。数字助理客户端模块229还能够通过便携式多功能设备200 的各种输入接口(例如，扬声器211、触敏显示器系统212、一个或多个触觉输出发生器267等)提供音频(例如，语音输出)、视频和/或触觉形式的输出。例如，将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，数字助理客户端模块229使用RF电路208来与DA服务器106进行通信。

用户数据和模型231包括与用户相关联的各种数据(例如，特定于用户的词汇数据、用户偏好数据、特定于用户的名称发音、来自用户电子通讯录的数据、待办事项列表、购物清单等)，以提供数字助理的客户端侧功能。另外，用户数据和模型231包括用于处理用户输入和确定用户意图的各种模型(例如，语音识别模型、统计语言模型、自然语言处理模型、知识本体、任务流模型、服务模型等)。

在一些示例中，数字助理客户端模块229利用各种传感器、子系统和便携式多功能设备200的外围设备来从便携式多功能设备200的周围环境采集附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。在一些示例中，数字助理客户端模块229将上下文信息或其子集与用户输入一起提供至DA服务器106，以帮助推断用户的意图。在一些示例中，数字助理还使用上下文信息来确定如何准备输出并将其传送至用户。上下文信息被称为上下文数据。

在一些示例中，伴随用户输入的上下文信息包括传感器信息，例如照明、环境噪声、环境温度、周围环境的图像或视频等。在一些示例中，上下文信息还可包括设备的物理状态，例如设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等。在一些示例中，还将与DA服务器106的软件状态相关的信息例如便携式多功能设备200的运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等作为与用户输入相关联的上下文信息提供至DA服务器 106。

在一些示例中，数字助理客户端模块229响应于来自DA服务器106 的请求而选择性地提供被存储在便携式多功能设备200上的信息(例如，用户数据231)。在一些示例中，数字助理客户端模块229还在由DA服务器106进行请求时经由自然语言对话或其他用户界面引出来自用户的附加输入。数字助理客户端模块229将附加输入传送至DA服务器106，以帮助 DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。

下文参考图7A-C更详细地描述了数字助理。应当认识到，数字助理客户端模块229可包括任意数量的下文所述的数字助理模块726的子模块。

应用程序236包括以下模块(或指令集)或者其子集或超集：

·联系人模块237(有时也称为通讯录或联系人列表)；

·电话模块238；

·视频会议模块239；

·电子邮件客户端模块240；

·即时消息(IM)模块241；

·健身支持模块242；

·用于静态图像和/或视频图像的相机模块243；

·图像管理模块244；

·视频播放器模块；

·音乐播放器模块；

·浏览器模块247；

·日历模块248；

·桌面小程序模块249，其在一些示例中包括以下各项中的一者或多者：天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4、词典桌面小程序249-5和由用户获取的其他桌面小程序，以及用户创建的桌面小程序249- 6；

·用于生成用户创建的桌面小程序249-6的桌面小程序创建器模块 250；

·搜索模块251；

·视频和音乐播放器模块252，其合并视频播放器模块和音乐播放器模块；

·记事本模块253；

·地图模块254；和/或

·在线视频模块255。

被存储在存储器202中的其他应用程序236的示例包括其他文字处理应用程序、其他图像编辑应用程序、绘图应用程序、呈现应用程序、支持 JAVA的应用程序、加密、数字权益管理、语音识别、和语音复制。

结合触摸屏212、显示控制器256、接触模块230、图形模块232和文本输入模块234，联系人模块237用于管理通讯录或联系人列表(例如，被存储在存储器202或存储器470中的联系人模块237的应用程序内部状态 292中)，包括：将一个或多个姓名添加至通讯录；从通讯录中删除一个或多个姓名；使一个或多个电话号码、一个或多个电子邮件地址、一个或多个物理地址或其他信息与姓名关联；将图像与姓名关联；对姓名进行分类和排序；提供电话号码或电子邮件地址，以发起和/或促进通过电话238、视频会议239、电子邮件240或IM 241进行的通信等等。

结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏 212、显示控制器256、接触/运动模块230、图形模块232、和文本输入模块234，电话模块238用于输入与电话号码对应的字符序列、访问联系人模块237中的一个或多个电话号码、修改已输入的电话号码、拨打相应的电话号码、进行会话、以及当会话完成时断开或挂断。如上所述，无线通信使用多个通信标准、协议和技术中的任一者。

结合RF电路208、音频电路210、扬声器211、麦克风213、触摸屏 212、显示控制器256、光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232、文本输入模块234、联系人模块237和电话模块238，视频会议模块239包括根据用户指令来发起、进行和终止用户与一个或多个其他参与方之间的视频会议的可执行指令。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232和文本输入模块234，电子邮件客户端模块240包括响应于用户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理模块244，电子邮件客户端模块240使得非常容易创建和发送具有由相机模块243拍摄的静态图像或视频图像的电子邮件。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232和文本输入模块234，即时消息模块241包括用于以下操作的可执行指令：输入与即时消息对应的字符序列、修改先前输入的字符、传输相应即时消息(例如，使用短消息服务(SMS)或多媒体消息服务 (MMS)协议以用于基于电话的即时消息、或者使用XMPP、SIMPLE、或 IMPS以用于基于互联网的即时消息)、接收即时消息、以及查看所接收的即时消息。在一些实施方案中，所传输和/或接收的即时消息包括图形、照片、音频文件、视频文件和/或MMS和/或增强消息服务(EMS)中所支持的其他附件。如本文所用，“即时消息”是指基于电话的消息(例如，使用 SMS或MMS传输的消息)和基于互联网的消息(例如，使用XMPP、 SIMPLE、或IMPS传输的消息)两者。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232、文本输入模块234、GPS模块235、地图模块254和音乐播放器模块，健身支持模块242包括用于以下操作的可执行指令：创建健身(例如，具有时间、距离和/或卡路里燃烧目标)；与健身传感器(移动设备)进行通信；接收健身传感器数据；校准用于监测健身的传感器；选择健身音乐并进行播放；以及显示、存储和传输健身数据。

结合触摸屏212、显示控制器256、一个或多个光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232和图像管理模块 244，相机模块243包括用于以下操作的可执行指令：捕获静态图像或视频 (包括视频流)并且将它们存储到存储器202中、修改静态图像或视频的特征、或从存储器202删除静态图像或视频。

结合触摸屏212、显示控制器256、接触/运动模块230、图形模块 232、文本输入模块234、和相机模块243，图像管理模块244包括用于排列、修改(例如，编辑)、或以其他方式操控、加标签、删除、呈现(例如，在数字幻灯片或相册中)、以及存储静态图像和/或视频图像的可执行指令。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232和文本输入模块234，浏览器模块247包括用于根据用户指令来浏览互联网(包括搜索、链接至、接收、和显示网页或其部分、以及链接至网页的附件和其他文件)的可执行指令。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232、文本输入模块234、电子邮件客户端模块240和浏览器模块247，日历模块248包括用于根据用户指令来创建、显示、修改和存储日历以及与日历相关联的数据(例如，日历条目、待办事项列表等)的可执行指令。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232、文本输入模块234和浏览器模块247，桌面小程序模块249是可由用户下载并使用的微型应用程序(例如，天气桌面小程序 249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序 249-4和词典桌面小程序249-5)或由用户创建的微型应用程序(例如，用户创建的桌面小程序249-6)。在一些实施方案中，桌面小程序包括HTML (超文本标记语言)文件、CSS(层叠样式表)文件和JavaScript文件。在一些实施方案中，桌面小程序包括XML(可扩展标记语言)文件和 JavaScript文件(例如，Yahoo！桌面小程序)。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232、文本输入模块234和浏览器模块247，桌面小程序创建器模块250由用户用于创建桌面小程序(例如，将网页的用户指定部分转到桌面小程序中)。

结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232 和文本输入模块234，搜索模块251包括用于根据用户指令来搜索存储器 202中的匹配一个或多个搜索条件(例如，一个或多个用户指定的搜索词) 的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。

结合触摸屏212、显示控制器256、接触/运动模块230、图形模块 232、音频电路系统210、扬声器211、RF电路系统208和浏览器模块 247，视频和音乐播放器模块252包括允许用户下载和回放以一种或多种文件格式(诸如MP3或AAC文件)存储的所记录的音乐和其他声音文件的可执行指令，以及用于显示、呈现或以其他方式回放视频(例如，在触摸屏212上或在经由外部端口224连接的外部显示器上)的可执行指令。在一些实施方案中，设备200任选地包括MP3播放器，诸如iPod(Apple Inc. 的商标)的功能。

结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232 和文本输入模块234，记事本模块253包括根据用户指令来创建和管理记事本、待办事项等的可执行指令。

结合RF电路208、触摸屏212、显示控制器256、接触/运动模块 230、图形模块232、文本输入模块234、GPS模块235和浏览器模块247，地图模块254可用于根据用户指令接收、显示、修改和存储地图以及与地图相关联的数据(例如，驾驶方向、与特定位置处或附近的商店及其他兴趣点有关的数据、以及其他基于位置的数据)。

结合触摸屏212、显示控制器256、接触/运动模块230、图形模块 232、音频电路210、扬声器211、RF电路208、文本输入模块234、电子邮件客户端模块240和浏览器模块247，在线视频模块255包括以下指令：允许用户访问、浏览、接收(例如，通过流式传输和/或下载)、回放(例如在触摸屏上或在经由外部端口224所连接的外部显示器上)、发送具有至特定在线视频的链接的电子邮件、以及以其他方式管理一种或多种文件格式诸如H.264的在线视频。在一些实施方案中，使用即时消息模块241 而不是电子邮件客户端模块240发送至特定在线视频的链接。在线视频应用程序的附加描述可在于2007年6月20日提交的标题为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国临时专利申请60/936,562和于2007年12月31日提交的标题为“Portable Multifunction Device,Method,and Graphical User Interface forPlaying Online Videos”的美国专利申请11/968,067中找到，这两个专利申请的内容据此全文以引用方式并入本文。

上述每个模块和应用程序对应于用于执行上述一种或多种功能以及在本专利申请中所述的方法(例如，本文所述的计算机实现的方法和其他信息处理方法)的可执行指令集。这些模块(例如，指令集)不必被实现为独立的软件程序、过程或模块，因此这些模块的各种子集可在各种实施方案中加以组合或以其他方式重新布置。例如，视频播放器模块可与音乐播放器模块组合成单个模块(例如，图2A中的视频和音乐播放器模块252)。在一些实施方案中，存储器202存储上述模块和数据结构的子集。此外，存储器202存储上文没有描述的附加模块和数据结构。

在一些实施方案中，设备200是该设备上的预定义的一组功能的操作唯一地通过触摸屏和/或触摸板来执行的设备。通过使用触摸屏和/或触摸板作为用于设备200的操作的主要输入控制设备，任选地减少设备200上的物理输入控制设备(诸如下压按钮、拨盘等等)的数量。

唯一地通过触摸屏和/或触摸板来执行的预定义的一组功能任选地包括在用户界面之间的导航。在一些实施方案中，当用户触摸触摸板时，将设备200从设备200上显示的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中，使用触摸板来实现“菜单按钮”。在一些其他实施方案中，菜单按钮是物理下压按钮或者其他物理输入控制设备，而不是触摸板。

图2B是示出了根据一些实施方案的用于事件处理的示例性部件的框图。在一些实施方案中，存储器202(图2A)或存储器470(图4)包括事件分类器270(例如，在操作系统226中)以及相应的应用程序236-1(例如，前述应用程序237-251、255、480-490中的任一个应用程序)。

事件分类器270接收事件信息并确定要将事件信息递送到的应用程序 236-1和应用程序236-1的应用程序视图291。事件分类器270包括事件监视器271和事件分配器模块274。在一些实施方案中，应用程序236-1包括应用程序内部状态292，该应用程序内部状态指示当应用程序是活动的或正在执行时被显示在触敏显示器212上的一个或多个当前应用程序视图。在一些实施方案中，设备/全局内部状态257被事件分类器270用于确定哪个 (哪些)应用程序当前是活动的，并且应用程序内部状态292被事件分类器270用于确定要将事件信息递送到的应用程序视图291。

在一些实施方案中，应用程序内部状态292包括附加信息，诸如以下各项中的一者或多者：当应用程序236-1恢复执行时将被使用的恢复信息、指示正被应用程序236-1显示的信息或准备好用于被应用程序236-1显示的信息的用户界面状态信息、用于使得用户能够返回到应用程序236-1的前一状态或视图的状态队列、以及用户采取的先前动作的重复/撤销队列。

事件监视器271从外围设备接口218接收事件信息。事件信息包括关于子事件(例如，作为多点触摸手势的一部分的触敏显示器212上的用户触摸)的信息。外围设备接口218传输其从I/O子系统206或传感器(诸如接近传感器266、加速度计268和/或麦克风213(通过音频电路210))接收的信息。外围设备接口218从I/O子系统206接收的信息包括来自触敏显示器212或触敏表面的信息。

在一些实施方案中，事件监视器271以预先确定的间隔来将请求发送至外围设备接口218。作为响应，外围设备接口218传输事件信息。在其他实施方案中，外围设备接口218仅当存在显著事件(例如，接收到高于预先确定的噪声阈值的输入和/或接收到超过预先确定的持续时间的输入)时才传输事件信息。

在一些实施方案中，事件分类器270还包括命中视图确定模块272和/ 或活动事件识别器确定模块273。

当触敏显示器212显示多于一个视图时，命中视图确定模块272提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户可在显示器上查看的控件和其他元件构成。

与应用程序相关联的用户界面的另一方面是一组视图，本文中有时也称为应用程序视图或用户界面窗口，在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的(相应应用程序的)应用程序视图对应于应用程序的程序化或视图分级结构内的程序化水平。例如，在其中检测到触摸的最低水平视图被叫做命中视图，并且被识别为正确输入的那组事件至少部分地基于开始基于触摸的手势的初始触摸的命中视图来确定。

命中视图确定模块272接收与基于触摸的手势的子事件相关的信息。当应用程序具有在分级结构中组织的多个视图时，命中视图确定模块272 将命中视图识别为应对子事件进行处理的分级结构中的最低视图。在大多数情况下，命中视图是发起子事件(例如，形成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视图确定模块272识别，命中视图便通常接收与其被识别为命中视图所针对的同一触摸或输入源相关的所有子事件。

活动事件识别器确定模块273确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中，活动事件识别器确定模块273 确定仅命中视图才应接收特定子事件序列。在其他实施方案中，活动事件识别器确定模块273确定包括子事件的物理位置的所有视图是活跃参与的视图，因此确定所有活跃参与的视图应接收特定子事件序列。在其他实施方案中，即使触摸子事件完全被局限到与一个特定视图相关联的区域，但在分级结构中较高的视图将仍然保持为活跃参与的视图。

事件分配器模块274将事件信息分配到事件识别器(例如，事件识别器280)。在包括活动事件识别器确定模块273的实施方案中，事件分配器模块274将事件信息递送到由活动事件识别器确定模块273确定的事件识别器。在一些实施方案中，事件分配器模块274在事件队列中存储事件信息，该事件信息由相应事件接收器282进行检索。

在一些实施方案中，操作系统226包括事件分类器270。另选地，应用程序236-1包括事件分类器270。在又一个实施方案中，事件分类器270 是独立的模块，或者是被存储在存储器202中的另一个模块(诸如接触/运动模块230)的一部分。

在一些实施方案中，应用程序236-1包括多个事件处理程序290和一个或多个应用程序视图291，其中每个应用程序视图包括用于处理发生在应用程序的用户界面的相应视图内的触摸事件的指令。应用程序236-1的每个应用程序视图291包括一个或多个事件识别器280。通常，相应应用程序视图291包括多个事件识别器280。在其他实施方案中，事件识别器280中的一个或多个事件识别器是独立模块的一部分，该独立模块诸如用户界面工具包(未示出)或应用程序236-1从中继承方法和其他属性的更高水平的对象。在一些实施方案中，相应事件处理程序290包括以下各项中的一者或多者：数据更新器276、对象更新器277、GUI更新器278、和/或从事件分类器270所接收的事件数据279。事件处理程序290利用或调用数据更新器 276、对象更新器277或GUI更新器278，以更新应用程序内部状态292。另选地，应用程序视图291中的一个或多个应用程序视图包括一个或多个相应事件处理程序290。另外，在一些实施方案中，数据更新器276、对象更新器277和GUI更新器278中的一者或多者被包括在相应应用程序视图 291中。

相应事件识别器280从事件分类器270接收事件信息(例如，事件数据279)，并且从事件信息识别事件。事件识别器280包括事件接收器282 和事件比较器284。在一些实施方案中，事件识别器280还至少包括以下各项的子集：元数据283、以及事件递送指令288(其包括子事件递送指令)。

事件接收器282从事件分类器270接收事件信息。事件信息包括关于子事件例如触摸或触摸移动的信息。根据子事件，事件信息还包括附加信息诸如子事件的位置。当子事件涉及触摸的运动时，事件信息还包括子事件的速率和方向。在一些实施方案中，事件包括设备从一个取向旋转到另一取向(例如，从纵向取向旋转到横向取向，或反之亦然)，并且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。

事件比较器284将事件信息与预定义的事件或子事件定义进行比较，并且基于该比较来确定事件或子事件，或者确定或更新事件或子事件的状态。在一些实施方案中，事件比较器284包括事件定义286。事件定义286 包含事件的定义(例如，预定义的子事件序列)，例如事件1(287-1)、事件2(287-2)以及其他事件。在一些实施方案中，事件(287)中的子事件例如包括触摸开始、触摸结束、触摸移动、触摸取消、和多点触摸。在一个示例中，事件1(287-1)的定义是被显示对象上的双击。例如，双击包括被显示对象上的预先确定时长的第一次触摸(触摸开始)、预先确定时长的第一次抬起(触摸结束)、被显示对象上的预先确定时长的第二次触摸(触摸开始)、以及预先确定时长的第二次抬起(触摸结束)。在另一个示例中，事件2(287-2)的定义是被显示对象上的拖动。例如，拖动包括被显示对象上的预先确定时长的触摸(或接触)、触摸在触敏显示器212上的移动、以及触摸的抬起(触摸结束)。在一些实施方案中，事件还包括用于一个或多个相关联的事件处理程序290的信息。

在一些实施方案中，事件定义287包括用于相应用户界面对象的事件的定义。在一些实施方案中，事件比较器284执行命中测试，以确定哪个用户界面对象与子事件相关联。例如，在触摸显示器212上显示三个用户界面对象的应用程序视图中，当在触敏显示器212上检测到触摸时，事件比较器284执行命中测试以确定这三个用户界面对象中的哪一个用户界面对象与该触摸(子事件)相关联。如果每个被显示对象与相应的事件处理程序290相关联，则事件比较器使用该命中测试的结果来确定哪个事件处理程序290应当被激活。例如，事件比较器284选择与子事件和触发该命中测试的对象相关联的事件处理程序。

在一些实施方案中，相应事件(287)的定义还包括延迟动作，该延迟动作延迟事件信息的递送，直到已确定子事件序列是否确实对应于或不对应于事件识别器的事件类型。

当相应事件识别器280确定子事件序列不与事件定义286中的任何事件匹配时，该相应事件识别器280进入事件不可能、事件失败或事件结束状态，在此之后忽略基于触摸的手势的后续子事件。在这种情况下，对于命中视图保持活动的其他事件识别器(如果有的话)继续跟踪和处理持续的基于触摸的手势的子事件。

在一些实施方案中，相应事件识别器280包括具有指示事件递送系统应该如何执行对活跃参与的事件识别器的子事件递送的可配置属性、标志和/或列表的元数据283。在一些实施方案中，元数据283包括指示事件识别器彼此如何交互或如何能够交互的可配置属性、标志和/或列表。在一些实施方案中，元数据283包括指示子事件是否递送到视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。

在一些实施方案中，当识别事件的一个或多个特定子事件时，相应事件识别器280激活与事件相关联的事件处理程序290。在一些实施方案中，相应事件识别器280将与事件相关联的事件信息递送到事件处理程序290。激活事件处理程序290不同于将子事件发送(和延期发送)至相应命中视图。在一些实施方案中，事件识别器280抛出与所识别的事件相关联的标志，并且与该标志相关联的事件处理程序290获取该标志并执行预定义的过程。

在一些实施方案中，事件递送指令288包括递送关于子事件的事件信息而不激活事件处理程序的子事件递送指令。相反，子事件递送指令将事件信息递送到与子事件串相关联的事件处理程序或递送到活跃参与的视图。与子事件串或活跃参与的视图相关联的事件处理程序接收事件信息并执行预先确定的过程。

在一些实施方案中，数据更新器276创建和更新在应用程序236-1中使用的数据。例如，数据更新器276对在联系人模块237中所使用的电话号码进行更新，或者对视频播放器模块中所使用的视频文件进行存储。在一些实施方案中，对象更新器277创建和更新在应用程序236-1中使用的对象。例如，对象更新器277创建新用户界面对象或更新用户界面对象的位置。GUI更新器278更新GUI。例如，GUI更新器278准备显示信息并将其发送至图形模块232，以用于触敏显示器上的显示。

在一些实施方案中，一个或多个事件处理程序290包括数据更新器 276、对象更新器277和GUI更新器278或者具有对数据更新器276、对象更新器277和GUI更新器278的访问权限。在一些实施方案中，数据更新器276、对象更新器277和GUI更新器278被包括在相应应用程序236-1或应用程序视图291的单个模块中。在其他实施方案中，它们被包括在两个或更多个软件模块中。

应当理解，关于触敏显示器上的用户触摸的事件处理的上述讨论还适用于利用输入设备来操作多功能设备200的其他形式的用户输入，并不是所有用户输入都是在触摸屏上发起的。例如，任选地与单次或多次键盘按压或保持结合的鼠标移动和鼠标按钮按压；触摸板上的接触移动，诸如轻击、拖动、滚动等；触笔输入；设备的移动；口头指令；所检测到的眼睛移动；生物特征输入；和/或作为与子事件对应的输入的用于定义要识别的事件的其任意的组合。

图3示出了根据一些实施方案的具有触摸屏212的便携式多功能设备 200。触摸屏任选地在用户界面(UI)300内显示一个或多个图形。在本实施方案中以及在下文中描述的其他实施方案中，用户能够通过例如利用一个或多个手指302(在图中不按比例绘制)或一个或多个触笔303(在图中不按比例绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实施方案中，当用户中断与一个或多个图形的接触时，将发生对一个或多个图形的选择。在一些实施方案中，手势任选地包括一次或多次轻击、一次或多次轻扫(从左向右、从右向左、向上和/或向下)、和/或已与设备200发生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下，不经意地与图形接触不会选择图形。例如，当与选择对应的手势是轻击时，在应用程序图标上方扫动的轻扫手势任选地不会选择相应应用程序。

设备200还包括一个或多个物理按钮，诸如“home”按钮或菜单按钮 304。如前所述，菜单按钮304用于导航到在设备200上执行的一组应用程序中的任何应用程序236。另选地，在一些实施方案中，菜单按钮被实现为被显示在触摸屏212上的GUI中的软键。

在一些实施方案中，设备200包括触摸屏212、菜单按钮304、用于使设备通电/断电和用于锁定设备的下压按钮306、一个或多个音量调节按钮 308、用户身份模块(SIM)卡槽310、耳麦插孔312和对接/充电外部端口 224。下压按钮306被任选地用于：通过按下按钮并使按钮在下压状态保持预先确定的时间间隔来使设备通电/断电；通过按下按钮并在经过预先确定的时间间隔之前释放按钮来锁定设备；和/或对设备进行解锁或发起解锁过程。在另选的实施方案中，设备200还通过麦克风213来接受用于激活或去激活某些功能的语音输入。设备200还任选地包括用于检测触摸屏212 上的接触的强度的一个或多个接触强度传感器265，和/或用于为设备200 的用户生成触觉输出的一个或多个触觉输出发生器267。

图4是根据一些实施方案的具有显示器和触敏表面的示例性多功能设备的框图。设备400不必是便携式的。在一些实施方案中，设备400是膝上型电脑、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备(例如，家用控制器或工业用控制器)。设备400通常包括一个或多个处理单元(CPU)410、一个或多个网络或其他通信接口460、存储器470、和用于使这些部件互连的一个或多个通信总线420。通信总线420任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有时叫做芯片组)。设备400包括具有显示器440的输入/输出(I/O)接口430，该显示器通常是触摸屏显示器。I/O接口 430还任选地包括键盘和/或鼠标(或其他指向设备)450和触摸板455、用于在设备400上生成触觉输出的触觉输出发生器457(例如，类似于以上参考图2A所述的一个或多个触觉输出发生器267)、传感器459(例如，光学传感器、加速度传感器、接近传感器、触敏传感器、和/或类似于以上参考图2A所述的一个或多个接触强度传感器265的接触强度传感器)。存储器470包括高速随机存取存储器诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备，并且任选地包括非易失性存储器诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备、或其他非易失性固态存储设备。存储器470任选地包括远离一个或多个CPU 410定位的一个或多个存储设备。在一些实施方案中，存储器470存储与在便携式多功能设备200(图2A)的存储器202中所存储的程序、模块和数据结构类似的程序、模块和数据结构或它们的子集。此外，存储器470任选地存储在便携式多功能设备200的存储器202中不存在的附加程序、模块和数据结构。例如，设备400的存储器470任选地存储绘图模块480、呈现模块482、文字处理模块484、网站创建模块486、盘编辑模块488、和/或电子表格模块 490，而便携式多功能设备200(图2A)的存储器202任选地不存储这些模块。

在一些示例中，图4中的上述元件中的每个元件可被存储在一个或多个前面提到的存储器设备中。上述模块中的每个模块对应于用于执行上述功能的指令集。上述模块或程序(例如，指令集)不必被实现为单独的软件程序、过程或模块，并且因此这些模块的各种子集可在各种实施方案中被组合或以其他方式重新布置。在一些实施方案中，存储器470存储上述模块和数据结构的子集。此外，存储器470存储上文没有描述的附加模块和数据结构。

现在将注意力转到可在例如便携式多功能设备200上实现的用户界面的实施方案。

图5A示出了根据一些实施方案的便携式多功能设备200上的应用程序菜单的示例性用户界面。类似的用户界面在设备400上实现。在一些实施方案中，用户界面500包括以下元件或者其子集或超集：

用于一种或多种无线通信诸如蜂窝信号和Wi-Fi信号的一个或多个信号强度指示符502；

·时间504；

·蓝牙指示符505；

·电池状态指示符506；

·具有用于常用应用程序的图标的托盘508，诸如：

o电话模块238的被标记为“电话”的图标516，该图标516任选地包括未接来电或语音留言的数量的指示符514；

o电子邮件客户端模块240的标记“邮件”的图标518，该图标 518任选地包括未读电子邮件的数量的指示符510；

o浏览器模块247的被标记为“浏览器”的图标520；和

o视频和音乐播放器模块252(也称为iPod(Apple Inc.的商标) 模块252)的被标记为“iPod”的图标522；以及

·其他应用程序的图标，诸如：

o IM模块241的被标记为“消息”的图标524；

o日历模块248的被标记为“日历”的图标526；

o图像管理模块244的被标记为“照片”的图标528；

o相机模块243的被标记为“相机”的图标530；

o在线视频模块255的被标记为“在线视频”的图标532；

o股市桌面小程序249-2的被标记为“股市”的图标534；

o地图模块254的被标记为“地图”的图标536；

o天气桌面小程序249-1的被标记为“天气”的图标538；

o闹钟桌面小程序249-4的被标记为“时钟”的图标540；

o健身支持模块242的被标记为“健身支持”的图标542；

o记事本模块253的被标记为“记事本”的图标544；和

o用于设置应用程序或模块的被标记为“设置”的图标546，该图标546提供对设备200及其各种应用程序236的设置的访问。

应当指示的是，图5A中示出的图标标签仅是示例性的。例如，视频和音乐播放器模块252的图标522任选地被标记为“音乐”或“音乐播放器”。任选地针对各种应用程序图标使用其他标签。在一些实施方案中，相应应用程序图标的标签包括与该相应应用程序图标对应的应用程序的名称。在一些实施方案中，特定应用程序图标的标签不同于与该特定应用程序图标对应的应用程序的名称。

图5B示出了具有与显示器550(例如，触摸屏显示器212)分开的触敏表面551(例如，图4的平板电脑或触摸板455)的设备(例如，图4的设备400)上的示例性用户界面。设备400还任选地包括用于检测触敏表面 551上的接触的强度的一个或多个接触强度传感器(例如，传感器457中的一个或多个传感器)，和/或用于为设备400的用户生成触觉输出的一个或多个触觉输出发生器459。

尽管将参考触摸屏显示器212(其中组合了触敏表面和显示器)上的输入给出随后的示例中的一些示例，但是在一些实施方案中，设备检测与显示器分开的触敏表面上的输入，如图5B中所示。在一些实施方案中，触敏表面(例如，图5B中的551)具有与显示器(例如，550)上的主轴 (例如，图5B中的553)对应的主轴(例如，图5B中的552)。根据这些实施方案，设备检测在与显示器上的相应位置对应的位置(例如，在图5B 中，560对应于568并且562对应于570)处与触敏表面551的接触(例如，图5B中的560和562)。这样，在触敏表面(例如，图5B中的551) 与多功能设备的显示器(图5B中的550)分开时，由设备在触敏表面上检测到的用户输入(例如，接触560和562以及它们的移动)被该设备用于操控显示器上的用户界面。应当理解，类似的方法任选地用于本文所述的其他用户界面。

另外，虽然主要是参考手指输入(例如，手指接触、单指轻击手势、手指轻扫手势)来给出下面的示例，但是应当理解的是，在一些实施方案中，这些手指输入中的一个或多个手指输入由来自另一输入设备的输入 (例如，基于鼠标的输入或触笔输入)替代。例如，轻扫手势任选地由鼠标点击(例如，而不是接触)，之后是光标沿着轻扫的路径的移动(例如，而不是接触的移动)来替代。又如，轻击手势任选地由在光标位于轻击手势的位置上方时的鼠标点击(例如，而不是对接触的检测，之后是终止检测接触)来替代。类似地，当同时检测到多个用户输入时，应当理解的是，多个计算机鼠标任选地被同时使用，或鼠标和手指接触任选地被同时使用。

图6A示出了示例性个人电子设备600。设备600包括主体602。在一些实施方案中，设备600包括针对设备200和400(例如，图2A-4)所述的特征中的一些或全部特征。在一些实施方案中，设备600具有在下文中称为触摸屏604的触敏显示屏604。作为触摸屏604的替代或补充，设备 600具有显示器和触敏表面。与设备200和400的情况一样，在一些实施方案中，触摸屏604(或触敏表面)具有用于检测所施加的接触(例如，触摸)的强度的一个或多个强度传感器。触摸屏604(或触敏表面)的所述一个或多个强度传感器可提供用于表示触摸的强度的输出数据。设备600的用户界面基于触摸强度来对触摸作出响应，这意味着不同强度的触摸可调用设备600上的不同的用户界面操作。

用于检测和处理触摸强度的技术见于例如下列相关专利申请中：于 2013年5月8日提交的标题为“Device,Method,and Graphical User Interface for Displaying UserInterface Objects Corresponding to an Application”的国际专利申请序列号PCT/US2013/040061，以及于2013年11月11日提交的标题为“Device,Method,and GraphicalUser Interface for Transitioning Between Touch Input to Display OutputRelationships”的国际专利申请序列号 PCT/US2013/069483，这两个专利申请中的每个专利申请据此全文以引用方式并入本文。

在一些实施方案中，设备600具有一个或多个输入机构606和608。输入机构606和608(如果包括的话)为物理形式的。物理输入机构的示例包括下压按钮和可旋转机构。在一些实施方案中，设备600具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将设备600与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱包、背包等附接。这些附接机构允许用户穿戴设备600。

图6B示出了示例性个人电子设备600。在一些实施方案中，设备600 包括参考图2A、图2B和图4所述的部件中的一些或全部部件。设备600 具有总线612，该总线将I/O部分614与一个或多个计算机处理器616和存储器618操作性地耦接。I/O部分614连接到显示器604，该显示器604可具有触敏部件622并且任选地还具有触摸强度敏感部件624。此外，I/O部分614与通信单元630连接，以用于使用Wi-Fi、蓝牙、近场通信(NFC)、蜂窝和/或其他无线通信技术来接收应用程序并操作系统数据。设备600包括输入机构606和/或608。例如，输入机构606为可旋转输入设备、或者可按压输入设备以及可旋转输入设备。在一些示例中，输入机构608为按钮。

在一些示例中，输入机构608为麦克风。个人电子设备600包括例如各种传感器，诸如GPS传感器632、加速度计634、定向传感器640(例如，罗盘)、陀螺仪636、运动传感器638和/或其组合，所有这些设备均操作性地连接到I/O部分614。

个人电子设备600的存储器618为用于存储计算机可执行指令的非暂态计算机可读存储介质，该指令当由一个或多个计算机处理器616执行时，例如使得计算机处理器执行下文所述的技术和过程。该计算机可执行指令也例如在任何非暂态计算机可读存储介质内进行存储和/或传送，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其结合。个人电子设备600不限于图6B的部件和配置，而是可包括多种配置中的其他部件或附加部件。

如本文所用，术语“示能表示”是指可在例如设备200、400和/或600 (图2、图4和图6)的显示屏上显示的用户交互式图形用户界面对象。例如，图像(例如，图标)、按钮和文本(例如，超链接)各自构成示能表示。

如本文所用，术语“焦点选择器”是指用于指示用户正与其进行交互的用户界面的当前部分的输入元件。在包括光标或其他位置标记的一些具体实施中，光标充当“焦点选择器”，使得当光标在特定用户界面元素 (例如，按钮、窗口、滑块或其他用户界面元素)上方时在触敏表面(例如，图4中的触摸板455或图5B中的触敏表面551)上检测到输入(例如，按压输入)的情况下，该特定用户界面元素根据所检测到的输入而被调节。在包括能够实现与触摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如，图2A中的触敏显示器系统212或图5A中的触摸屏 212)的一些具体实施中，触摸屏上的所检测到的接触充当“焦点选择器”，使得当在触摸屏显示器上在特定用户界面元素(例如，按钮、窗口、滑块或其他用户界面元素)的位置处检测到输入(例如，由接触进行的按压输入)时，该特定用户界面元素根据所检测到的输入而被调节。在一些具体实施中，焦点从用户界面的一个区域移动到用户界面的另一个区域，而无需光标的对应移动或触摸屏显示器上的接触的移动(例如，通过使用制表键或箭头键将焦点从一个按钮移动到另一个按钮)；在这些具体实施中，焦点选择器根据用户界面的不同区域之间的焦点移动而移动。不考虑焦点选择器所采取的具体形式，焦点选择器通常是由用户控制的以便传送与用户界面的用户预期的交互(例如，通过向设备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的接触)。例如，在触敏表面(例如，触摸板或触摸屏)上检测到按压输入时，焦点选择器(例如，光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相应按钮(而不是设备显示器上示出的其他用户界面元素)。

如说明书和权利要求中所使用的，接触的“特性强度”该术语是指基于接触的一个或多个强度的接触的特性。在一些实施方案中，特性强度基于多个强度样本。特性强度任选地基于相对于预定义事件(例如，在检测到接触之后，在检测到接触抬起之前，在检测到接触开始移动之前或之后，在检测到接触结束之前，在检测到接触的强度增大之前或之后和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如，0.05 秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采集的预定义数量的强度样本或一组强度样本。接触的特性强度任选地基于以下各项中的一者或多者：接触强度的最大值、接触强度的均值、接触强度的平均值、接触强度的前10％处的值、接触强度的半最大值、接触强度的90％最大值等。在一些实施方案中，在确定特性强度时使用接触的持续时间(例如，在特性强度是接触的强度在时间上的平均值时)。在一些实施方案中，将特性强度与一组一个或多个强度阈值进行比较，以确定用户是否已执行操作。例如，该组一个或多个强度阈值包括第一强度阈值和第二强度阈值。在该示例中，特性强度未超过第一阈值的接触导致第一操作，特性强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作，并且特性强度超过第二阈值的接触导致第三操作。在一些实施方案中，使用特性强度与一个或多个阈值之间的比较来确定是否要执行一个或多个操作(例如，是执行相应操作还是放弃执行相应操作)，而不是用于确定执行第一操作还是第二操作。

在一些实施方案中，识别手势的一部分以用于确定特性强度。例如，触敏表面接收连续的轻扫接触，该连续的轻扫接触从起始位置过渡并到达结束位置，在该结束位置处，接触的强度增加。在该示例中，接触在结束位置处的特征强度仅基于连续轻扫接触的一部分，而不是整个轻扫接触 (例如，仅结束位置处的轻扫接触部分)。在一些实施方案中，在确定接触的特性强度之前向轻扫手势的强度应用平滑化算法。例如，该平滑化算法任选地包括以下各项中的一者或多者：不加权滑动平均平滑化算法、三角平滑化算法、中值滤波器平滑化算法和/或指数平滑化算法。在一些情况下，这些平滑化算法消除了轻扫接触的强度中的窄的尖峰或凹陷，以实现确定特性强度的目的。

相对于一个或多个强度阈值诸如接触检测强度阈值、轻按压强度阈值、深按压强度阈值和/或一个或多个其他强度阈值来表征触敏表面上的接触的强度。在一些实施方案中，轻按压强度阈值对应于这样的强度：在该强度下设备将执行通常与点击物理鼠标的按钮或触摸板相关联的操作。在一些实施方案中，深按压强度阈值对应于这样的强度：在该强度下设备将执行与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些实施方案中，当检测到特性强度低于轻按压强度阈值(例如，并且高于标称接触检测强度阈值，比标称接触检测强度阈值低的接触不再被检测到)的接触时，设备将根据接触在触敏表面上的移动来移动焦点选择器，而不执行与轻按压强度阈值或深按压强度阈值相关联的操作。一般来讲，除非另有陈述，否则这些强度阈值在不同组的用户界面附图之间是一致的。

接触特性强度从低于轻按压强度阈值的强度增大到介于轻按压强度阈值与深按压强度阈值之间的强度有时被称为“轻按压”输入。接触特性强度从低于深按压强度阈值的强度增大到高于深按压强度阈值的强度有时被称为“深按压”输入。接触特性强度从低于接触检测强度阈值的强度增大到介于接触检测强度阈值与轻按压强度阈值之间的强度有时被称为检测到触摸表面上的接触。接触特征强度从高于接触检测强度阈值的强度减小到低于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬起。在一些实施方案中，接触检测强度阈值为零。在一些实施方案中，接触检测强度阈值大于零。

在本文中所述的一些实施方案中，响应于检测到包括相应按压输入的手势或响应于检测到利用相应接触(或多个接触)执行的相应按压输入来执行一个或多个操作，其中至少部分地基于检测到该接触(或多个接触) 的强度增大到高于按压输入强度阈值而检测到相应按压输入。在一些实施方案中，响应于检测到相应接触的强度增大到高于按压输入强度阈值(例如，相应按压输入的“向下冲程”)来执行相应操作。在一些实施方案中，按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于按压输入强度阈值，并且响应于检测到相应接触的强度随后减小到低于按压输入阈值(例如，相应按压输入的“向上冲程”)来执行相应操作。

在一些实施方案中，设备采用强度滞后以避免有时被称为“抖动”的意外输入，其中设备限定或选择与按压输入强度阈值具有预定义关系的滞后强度阈值(例如，滞后强度阈值比按压输入强度阈值低X个强度单位，或滞后强度阈值是按压输入强度阈值的75％、90％或某个合理比例)。因此，在一些实施方案中，按压输入包括相应接触的强度增大到高于按压输入强度阈值以及该接触的强度随后减小到低于对应于按压输入强度阈值的滞后强度阈值，并且响应于检测到相应接触的强度随后减小到低于滞后强度阈值(例如，相应按压输入的“向上冲程”)来执行相应操作。类似地，在一些实施方案中，仅在设备检测到接触强度从等于或低于滞后强度阈值的强度增大到等于或高于按压输入强度阈值的强度并且任选地接触强度随后减小到等于或低于滞后强度的强度时才检测到按压输入，并且响应于检测到按压输入(例如，根据环境，接触强度增大或接触强度减小)来执行相应操作。

为了容易解释，任选地，响应于检测到以下各种情况中的任一种情况而触发对响应于与按压输入强度阈值相关联的按压输入或响应于包括按压输入的手势而执行的操作的描述：接触的强度增大到高于按压输入强度阈值、接触的强度从低于滞后强度阈值的强度增大到高于按压输入强度阈值的强度、接触的强度减小到低于按压输入强度阈值、和/或接触的强度减小到低于与按压输入强度阈值对应的滞后强度阈值。另外，在将操作描述为响应于检测到接触的强度减小到低于按压输入强度阈值而执行的示例中，任选地响应于检测到接触的强度减小到低于对应于并且小于按压输入强度阈值的滞后强度阈值来执行操作。

3、数字助理系统

图7A示出根据各种示例的数字助理系统700的框图。在一些示例中，数字助理系统700在独立式计算机系统上实现。在一些示例中，数字助理系统700跨多个计算机分布。在一些示例中，数字助理的模块和功能中的一些模块和功能被划分成服务器部分和客户端部分，其中客户端部分位于一个或多个用户设备(例如，设备104,122,200,400或600)上并且通过一个或多个网络与服务器部分(例如，服务器系统108)进行通信，如图1所示。在一些示例中，数字助理系统700为图1中所示的服务器系统108(和 /或DA服务器106)的具体实施。应当指出的是，数字助理系统700仅为数字助理系统的一个示例，并且数字助理系统700可具有比示出的更多或更少的部件、可组合两个或更多个部件、或可具有部件的不同配置或布置。图7A中所示的各种部件在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)、或它们的组合中实现。

数字助理系统700包括存储器702、一个或多个处理器704、输入/输出(I/O)接口706、以及网络通信接口708。这些部件可通过一条或多条通信总线或信号线710彼此通信。

在一些示例中，存储器702包括非暂态计算机可读介质，诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如，一个或多个磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备)。

在一些示例中，I/O接口706将数字助理系统700的输入/输出设备716 诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块722。与用户界面模块722结合的I/O接口706接收用户输入(例如，语音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中，例如当数字助理在独立式用户设备上实施时，数字助理系统700包括分别相对于图 2A、图4、图6A-B中的设备200、设备400或设备600所描述的部件和 I/O通信接口中的任一者。在一些示例中，数字助理系统700表示数字助理具体实施的服务器部分，并且可通过位于用户设备(例如，设备104、设备 200、设备400或设备600)上的客户端侧部分与用户进行交互。

在一些示例中，网络通信接口708包括一个或多个有线通信端口 712、和/或无线传输和接收电路714。一个或多个有线通信端口经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路714从通信网络及其他通信设备接收RF信号和/或光学信号以及将RF信号和/或光学信号发送至通信网络以及其他通信设备。无线通信使用多种通信标准、协议和技术中的任一种，诸如GSM、EDGE、 CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口708使数字助理系统700通过网络，诸如互联网、内联网和/或无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网 (MAN)与其他设备之间的通信成为可能。

在一些示例中，存储器702或存储器702的计算机可读存储介质存储包括以下内容中的全部或其子集的程序、模块、指令和数据结构：操作系统718、通信模块720、用户界面模块722、一个或多个应用程序724、和数字助理模块726。具体地，存储器702或存储器702的计算机可读存储介质存储用于执行下文所述的过程的指令。一个或多个处理器704执行这些程序、模块和指令，并从数据结构读取数据或将数据写到数据结构。

操作系统718(例如，Darwin、RTXC、LINUX、UNIX、iOS、OS X、WINDOWS、或嵌入式操作系统诸如VxWorks)包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、电源管理等)的各种软件部件和/或驱动器，并且有利于各种硬件、固件和软件部件之间的通信。

通信模块720促成数字助理系统700与其他设备之间通过网络通信接口708进行的通信。例如，通信模块720与电子设备诸如分别如图2A、图 4、图6A-B所示的设备200、设备400和设备600的RF电路208进行通信。通信模块720还包括用于处理由无线电路714和/或有线通信端口712 所接收的数据的各种部件。

用户界面模块722经由I/O接口706从用户(例如，来自键盘、触摸屏、指向设备、控制器和/或麦克风)接收命令和/或输入，并在显示器上生成用户界面对象。用户界面模块722还准备输出(例如，语音、声音、动画、文本、图标、振动、触觉反馈、光照等)并且将其经由I/O接口706 (例如，通过显示器、音频通道、扬声器、触摸板等)传送至用户。

应用程序724包括被配置为由所述一个或多个处理器704执行的程序和/或模块。例如，如果数字助理系统在独立式用户设备上实施，则应用程序724可包括用户应用程序，诸如游戏、日历应用程序、导航应用程序、或邮件应用程序。如果数字助理系统700在服务器上实施，则应用程序724 包括例如资源管理应用程序、诊断应用程序、或调度应用程序。

存储器702还存储数字助理模块726(或数字助理的服务器部分)。在一些示例中，数字助理模块726包括以下子模块或其子集或超集：输入/ 输出处理模块728、语音转文本(STT)处理模块730、自然语言处理模块 732、对话流处理模块734、任务流处理模块736、服务处理模块738、和语音合成模块740。这些模块中的每个模块均具有对以下系统或数字助理模块 726的数据和模型中的一者或多者或其子集或超集的访问权限：知识本体 760、词汇索引744、用户数据748、任务流模型754、服务模型756、和 ASR系统。

在一些示例中，使用在数字助理模块726上实施的处理模块、数据和模型，数字助理可执行以下操作中的至少一些操作：将语音输入转换为文本；识别从用户接收的自然语言输入中表达的用户的意图；积极地引出并获取用于充分推断用户的意图所需的信息(例如，通过消除字词、游戏、意向等的歧义)；确定用于实现推断出的意图的任务流；以及执行任务流以实现推断出的意图。

在一些示例中，如图7B所示，I/O处理模块728通过图7A中的I/O设备716与用户进行交互或通过图7A中的网络通信接口708与用户设备(例如，设备104、设备200、设备400或设备600)进行交互，以获取用户输入(例如，语音输入)以及提供对用户输入的响应(例如，作为语音输出)。I/O处理模块728随同接收到用户输入一起或在接收到用户输入之后不久任选地获取与来自用户设备的用户输入相关联的上下文信息。上下文信息包括特定于用户的数据、词汇、和/或与用户输入相关的偏好。在一些示例中，上下文信息还包括在接收到用户请求时用户设备的软件和硬件状态，和/或与在接收到用户请求时用户的周围环境相关的信息。在一些示例中，I/O处理模块728还向用户发送与用户请求有关的跟进问题，并从用户接收回答。在用户请求被I/O处理模块728接收并且用户请求包括语音输入时，I/O处理模块728将语音输入转发至STT处理模块730(或语音识别器)，以用于语音文本转换。

STT处理模块730包括一个或多个ASR系统。该一个或多个ASR系统可处理通过I/O处理模块728所接收到的语音输入，以产生识别结果。每个ASR系统包括前端语音预处理器。前端语音预处理器从语音输入中提取代表性特征。例如，前端语音预处理器对语音输入执行傅立叶变换以提取光谱特征，该光谱特征将语音输入表征为代表性多维向量序列。另外，每个ASR系统包括一个或多个语音识别模型(例如，声音模型和/或语言模型)并且实施一个或多个语音识别引擎。语音识别模型的示例包括隐马尔可夫模型、高斯混合模型、深度神经网络模型、n元语言模型、以及其他统计模型。语音识别引擎的示例包括基于动态时间规整的引擎和基于有限状态转换器(WFST)的引擎。一种或多种语音识别模型以及一种或多种语音识别引擎用于处理前端语音预处理器的所提取的代表性特征，以产生即时识别结果(例如，音素、音素串和子字)并最终产生文本识别结果(例如，字词、字词串或符号序列)。在一些示例中，语音输入至少部分地通过第三方服务或在用户设备(例如，设备104,200,400或600)进行处，以产生识别结果。一旦STT处理模块730产生了包含文本串(例如，字词、字词序列或符号序列)的识别结果，便将该识别结果传送至自然语言处理模块 732以用于意图推断。

有关语音转文本处理的更多细节在于2011年9月20日的提交标题为“Consolidating Speech Recognition Results”的美国实用新型专利申请序列号13/236,942中有所描述，其全部公开内容以引用方式并入本文。

在一些示例中，STT处理模块730经由音素字母表转换模块731包括和/或访问可识别字词的词汇。每个词汇字词与语音识别音素字母表中表示的字词的一个或多个候选发音相关联。具体地，可识别字词的词汇包括与多个候选发音相关联的字词。例如，词汇包括与候选发音和相关联的字词“tomato”。另外，词汇字词与基于用户先前的语音输入的自定义候选发音相关联。此类自定义候选发音被存储在STT处理模块730中并且经由设备上的用户配置文件与特定用户相关联。在一些示例中，基于字词的拼写和一个或多个语言和/或音素规则来确定字词的候选发音。在一些示例中，手动生成候选发音，例如基于已知的标准发音而生成。

在一些示例中，基于候选发音的常用性来对候选发音进行排序。例如，候选发音的排名高于因为前者是更常用的发音 (例如，在所有用户中更常用，对于特定地理区域的用户或对任何其他适当的用户的子集而言更常用)。在一些示例中，基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排序。例如，自定义候选发音的排名高于标准候选发音。这可用于识别具有偏离标准发音的独特发音的适当的名词。在一些示例中，候选发音与一种或多种语音特性诸如地理来源、民族或种族相关联。例如，候选发音与美国相关联，而候选发音与英国相关联。另外，候选发音的排名基于被存储在设备上的用户配置文件中的用户的一种或多种特性(例如，地理来源、民族、种族等)。例如，可由用户配置文件来确定用户与美国相关联。基于用户与美国相关联，候选发音(与美国相关联)的排名高于候选发音(与英国相关联)。在一些示例中，选择排序的候选发音中的一个候选发音作为预测的发音(例如，最可能的发音)。

在接收到语音输入时，STT处理模块730用于确定与语音输入对应的音素(例如，使用声音模型)，并且然后尝试确定匹配该音素的字词(例如，使用语言模型)。例如，如果STT处理模块730首先识别出音素序列/t 对应于语音输入的一部分，其然后基于词汇索引744确定该序列是否对应于字词“tomato”。

在一些示例中，STT处理模块730使用近似匹配技术来确定话语中的字词。因此，例如，STT处理模块730可确定音素序列对应于字词“tomato”，即时特定的音素序列并非该字词的候选音素序列中的一个候选音素。

数字助理的自然语言处理模块732(“自然语言处理器”)可取得由 STT处理模块730生成的字词或符号的序列(“符号序列”)，并尝试式该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”表示可由数字助理执行并且可具有在任务流模型754中实施的相关联任务流的任务。相关联任务流是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围取决于已在任务流模型754中实施并存储的任务流的数量和种类，或换言之，取决于数字助理所识别的“可执行意图”的数量和种类。然而，数字助理的有效性还取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。

在一些示例中，除从STT处理模块730获取的字词或符号的序列之外，自然语言处理模块732还接收与用户请求相关联的上下文信息，例如来自I/O处理模块728。自然语言处理模块732任选地使用上下文信息来明确、补充和/或进一步定义被包含在从STT处理模块730接收的符号序列中的信息。上下文信息包括例如用户偏好、用户设备的硬件和/或软件状态、在用户请求之前、期间或之后不久收集的传感器信息、数字助理与用户之间的先前交互(例如，对话)，等等。如本文所述，在一些示例中，上下文信息是动态的并且随对话的时间、位置、内容及其他因素而变化。

在一些示例中，自然语言处理基于例如知识本体760。知识本体760 为包含许多节点的分级结构，每个节点表示“可执行意图”或与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述，“可执行意图”表示数字助理能够执行的任务，即该任务为“可执行的”或可被进行的。“属性”代表与可执行意图或另一属性的子方面相关联的参数。知识本体760中的可执行意图节点与属性节点之间的链接限定由属性节点代表的参数如何从属于由可执行意图节点表示的任务。

在一些示例中，知识本体760由可执行意图节点和属性节点组成。在知识本体760内，每个可执行意图节点直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地，每个属性节点直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如，如图7C所示，知识本体760包括“餐厅预订”节点(即，可执行意图节点)。属性节点“餐厅”、“日期/时间”(针对预订)和“同行人数”均直接连接至可执行意图节点(即，“餐厅预订”节点)。

此外，属性节点“菜系”、“价格区间”、“电话号码”和“位置”是属性节点“餐厅”的子节点，并且均通过中间属性节点“餐厅”连接至“餐厅预订”节点(即，可执行意图节点)。又如，如图7C所示，知识本体 760还包括“设定提醒”节点(即，另一可执行意图节点)。属性节点“日期/时间”(针对设定提醒)和“主题”(针对提醒)各自连接至“设定提醒”节点。由于属性“日期/时间”与进行餐厅预订的任务和设定提醒的任务两者相关，因此属性节点“日期/时间”连接至知识本体760中的“餐厅预订”节点和“设定提醒”节点两者。

可执行意图节点连同其连接的概念节点一起被描述为“域”。在本讨论中，每个域与相应的可执行意图相关联，并涉及与特定可执行意图相关联的一组节点(以及它们之间的关系)。例如，图7C中示出的知识本体 760包括在知识本体760内的餐厅预订域762的示例、以及提醒域764的示例。餐厅预订域包括可执行意图节点“餐厅预订”、属性节点“餐厅”、“日期/时间”和“同行人数”以及子属性节点“菜系”、“价格区间”、“电话号码”和“位置”。提醒域764包括可执行意图节点“设置提醒”和属性节点“主题”和“日期/时间”。在一些示例中，知识本体760由多个域组成。每个域与一个或多个其他域共享一个或多个属性节点。例如，除了餐厅预订域762和提醒域764之外，“日期/时间”属性节点还与许多不同域(例如，行程安排域、旅行预订域、电影票域等)相关联。

尽管图7C示出知识本体760内的两个示例性域，但其他域包括例如“查找电影”、“发起电话呼叫”、“查找方向”、“安排会议”、“发送消息”以及“提供问题的回答”、“阅读列表”、“提供导航指令”、“提供针对任务的指令”等。“发送消息”域与“发送消息”可执行意图节点相关联，并且还包括属性节点诸如“一个或多个接收人”、“消息类型”和“消息正文”。属性节点“接收人”可进一步例如由子属性节点诸如“接收人姓名”和“消息地址”来定义。

在一些示例中，“查找媒体项”域包括超级域，该超级域包含与查找或获取媒体项相关联的许多可执行意图节点。例如，“查找媒体项”域包括可执行意图节点，诸如“获取具有最近发行数据的媒体项”、“获取个性化媒体项推荐”或“获取与媒体项相关联的信息”。

在一些示例中，知识本体760包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中，知识本体760诸如通过添加或移除整个域或节点，或者通过修改知识本体760内的节点之间的关系来修改。

在一些示例中，将与多个相关可执行意图相关联的节点群集在知识本体760中的“超级域”下。例如，“旅行”超级域可包括与旅行有关的属性节点和可执行意图节点的群集。与旅行有关的可执行意图节点包括“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”、“寻找兴趣点”等等。同一超级域(例如，“旅行”超级域)下的可执行意图节点具有多个共用的属性节点。例如，针对“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”、“寻找兴趣点”的可执行意图节点共享属性节点“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间”和“同行人数”中的一者或多者。

在一些示例中，知识本体760中的每个节点与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语是与节点相关联的所谓的“词汇”。与每个节点相关联的相应组的字词和/或短语被存储在与由节点表示的属性或可执行意图相关联的词汇索引744中。例如，返回图7B，与“餐厅”属性的节点相关联的词汇包括字词诸如“美食”、“酒水”、“菜系”、“饥饿”、“吃”、“披萨”、“快餐”、“膳食”等。又如，与“发起电话呼叫”的可执行意图的节点相关联的词汇包括字词和短语诸如“呼叫”、“打电话”、“拨打”、“与……通电话”、“呼叫该号码”、“打电话给”等。词汇索引744任选地包括不同语言的字词和短语。

自然语言处理模块732从STT处理模块730接收符号序列(例如，文本串)，并确定符号序列中的词牵涉哪些节点。在一些示例中，如果发现符号序列中的字词或短语与知识本体760中的一个或多个节点相关联(经由词汇索引744)，则字词或短语将“触发”或“激活”那些节点。基于已激活节点的数量和/或相对重要性，自然语言处理模块732将选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中，选择具有最多“已触发”节点的域。在一些示例中，选择具有最高置信度(例如，基于其各个已触发节点的相对重要性)的域。在一些示例中，基于已触发节点的数量和重要性的组合来选择域。在一些示例中，在选择节点的过程中还考虑附加因素，诸如数字助理先前是否已正确解释来自用户的类似请求。

用户数据748包括特定于用户的信息，诸如特定于用户的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表以及每位用户的其他短期或长期信息。在一些示例中，自然语言处理模块732使用特定于用户的信息来补充用户输入中所包含的信息，以进一步限定用户意图。例如，针对用户请求“邀请我的朋友参加我的生日派对”，自然语言处理模块732能够访问用户数据748以确定“朋友”是哪些人以及“生日派对”将于何时何地举行，而不需要用户在其请求中明确地提供此类信息。

基于符号串搜索知识本体的其他细节在提交于2008年12月22日的名为“Methodand Apparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述，其全部公开内容以引用方式并入本文。

在一些示例中，一旦自然语言处理模块732基于用户请求识别出可执行意图(或域)，自然语言处理模块732便生成结构化查询以表示所识别的可执行意图。在一些示例中，结构化查询包括针对可执行意图的域内的一个或多个节点的参数，并且所述参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如，用户说“帮我在寿司店预订晚上7点的座位”。在这种情况下，自然语言处理模块732能够基于用户输入将可执行意图正确地识别为“餐厅预订”。根据知识本体，“餐厅预订”域的结构化查询包括参数诸如{菜系}、{时间}、{日期}、{同行人数}等。在一些示例中，基于语音输入以及使用STT处理模块730从语音输入中得出的文本，自然语言处理模块732针对餐厅预订域生成部分结构化查询，其中部分结构化查询包括参数{菜系＝“寿司类”}以及{时间＝“晚上7点”}。然而，在该示例中，用户话语包含不足以完成与域相关联的结构化查询的信息。因此，基于当前可用信息，在结构化查询中未指定其他必要参数诸如{同行人数}和{日期}。在一些示例中，自然语言处理模块732利用接收的上下文信息填充结构化查询的一些参数。例如，在一些示例中，如果用户请求“附近的”寿司店，自然语言处理模块732用来自用户设备的GPS 坐标来填充结构化查询中的{位置}参数。

在一些示例中，自然语言处理模块732将生成的结构化查询(包括任何已完成的参数)传送至任务流处理模块736(“任务流处理器”)。任务流处理模块736被配置为从自然语言处理模块732接收结构化查询，完成结构化查询(必要时)，以及执行“完成”用户最终请求所需的动作。在一些示例中，完成这些任务所必需的各种过程在任务流模型754中提供。在一些示例中，任务流模型754包括用于获取来自用户的附加信息的过程，以及用于执行与可执行意图相关联的动作的任务流。

如上所述，为了完成结构化查询，任务流处理模块736需要发起与用户的附加对话，以便获取附加信息，和/或弄清可能有歧义的话语。考虑到此类交互的必要性，任务流处理模块736调用对话流处理器模块734来参与与用户的对话。在一些示例中，对话流处理器模块734确定如何(和/或何时)向用户请求附加信息，并且接收和处理用户响应。通过I/O处理模块 728将问题提供至用户并从用户接收回答。在一些示例中，对话流处理模块 734经由音频和/或视频输出向用户呈现对话输出，并且接收经由口头或物理(例如，点击)响应的来自用户的输入。继续上文的示例，当任务流处理模块736调用对话流处理模块734以针对与域“餐厅预订”相关联的结构化查询来确定“同行人数”和“日期”信息时，对话流处理模块734生成问题诸如“共有多少人用餐？”和“具体哪天用餐？”以传送至用户。一旦接收到来自用户的回答，对话流处理模块734则用缺失信息填充结构化查询，或将信息传送至任务流处理模块736以根据结构化查询完成缺失信息。

一旦任务流处理器736已针对可执行意图完成结构化查询，任务流处理模块736便着手执行与可执行意图相关联的最终任务。因此，任务流处理模块736根据结构化查询中包含的特定参数来执行任务流模型中的步骤和指令。例如，针对可执行意图“餐厅预订”的任务流模型包括用于联系餐厅并实际上请求在特定时间针对特定同行人数的预订的步骤和指令。例如，通过使用结构化查询诸如：{餐厅预订，餐厅＝ABC咖啡馆，日期＝2012/3/12，时间＝下午7点，同行人数＝5人}，任务流处理模块736执行如下步骤：(1)登录到ABC咖啡馆的服务器或餐厅预订系统诸如(2)在网站上的表格中输入日期、时间和同行人数信息，(3) 提交表格，以及(4)在用户日历中针对该预订制作日历条目。

在一些示例中，任务流处理模块736在服务处理模块738(“服务处理模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请求的信息性回答。例如，服务处理模块738可代表任务流处理模块736 发起电话呼叫、设置日历条目、调用地图搜索、调用用户设备上安装的其他用户应用程序或与所述其他应用程序交互，以及调用第三方服务(例如，餐厅预订门户网站、社交网站、银行门户网站等)或与第三方服务交互。在一些示例中，通过服务模型756中的相应服务模型指定每项服务所需的协议和应用程序编程接口(API)。服务处理模块738针对服务访问适当的服务模型，并依据服务模型根据该服务所需的协议和API生成针对该服务的请求。

例如，如果餐厅已启用在线预订服务，则餐厅提交服务模型，该服务模型指定进行预订的必要参数以及将必要参数的值传送至在线预订服务的 API。在被任务流处理器736请求时，服务处理模块738使用存储在服务模型中的网络地址来建立与在线预订服务的网络连接，并将预订的必要参数 (例如，时间、日期、同行人数)以根据在线预订服务的API的格式发送至在线预订接口。

在一些示例中，自然语言处理模块732、对话流处理模块734和任务流处理模块736共同且反复地使用以推断并限定用户的意图、获取信息以进一步明确并提炼用户意图、并最终生成响应(即，输出至用户，或完成任务)，以满足用户的意图。所生成的响应为至少部分地履行用户意图的对语音输入的对话响应。另外，在一些示例中，所生成的响应为作为语音输出的输出。在这些示例中，将所生成的响应发送至语音合成模块740(例如，语音合成器)，其中可处理该响应以合成语音形式的对话响应。在又一个示例中，所生成的响应是与满足语音输入中的用户请求相关的数据内容。

语音合成模块740被配置为合成用于呈现至用户的语音输出。语音合成模块740基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应为文本串的形式。语音合成模块740将文本串转换为可听的语音输出。语音合成模块740使用任何适当的语音合成技术以便从文本生成语音输出，该语音合成技术包括但不限于连续合成、单元选择合成、二元音合成、域特异性合成、共振峰合成、发音参数合成、基于隐马尔可夫模型 (HMM)的合成、以及正弦波合成。在一些示例中，语音合成模块740被配置为基于与字词对应的音素串来合成各个字词。例如，音素串与所生成的对话响应中的字词相关联。音素串被存储在与字词相关联的元数据中。语音合成模型740被配置为直接处理元数据中的音素串，以合成语音形式的字词。

在一些示例中，与使用语音合成模块740相反(或除使用语音合成模块740之外)，在远程设备(例如，服务器系统108)上执行语音合成，并且将合成的语音发送至用户设备以用于输出至用户。例如，这可发生在其中数字助理的输出在服务器系统上生成的一些具体实施中。并且由于服务器系统一般比用户设备具有更强的处理能力或资源，因此能够比利用客户端侧合成的实际结果获取更高质量的语音输出。

有关数字助理的更多细节可见于提交于2011年1月10日的标题为“IntelligentAutomated Assistant”的美国实用新型专利申请号12/987,982以及提交于2011年9月30日的标题为“Generating and Processing Task Items That Represent Tasks toPerform”的美国实用新型专利申请号13/251,088 中，其全部公开内容以引用方式并入本文。

4、操作用于媒体探究的数字助理的过程

图8A-C示出根据各种示例的操作用于媒体探究的数字助理的过程 800。图9A-B、图10和图11示出根据各种示例的用户901操作用于媒体探究的用户设备903上的数字助理的交互过程。例如，使用实现数字助理的一种或多种电子设备来执行过程800。在一些示例中，在实现数字助理的客户端-服务器系统(例如，系统100)上执行该过程。在一些示例中，在用户设备(例如，设备104,200,400或600)上执行该过程。在过程800 中，一些框任选地被合并，一些框的顺序任选地被修改，并且一些框任选地被省略。另外，应当认识到，在一些示例中，在过程800中仅进行下文参考图8A-C所述的特征的子集。

在框802中，从用户接收语音输入(例如，在I/O处理模块728处并且经由麦克风213)。该语音输入表示对一个或多个媒体项的请求。例如，参考图9A，语音输入为“嘿，Siri，播放一些我喜欢的嘻哈音乐”。在图 10所示的另一个示例中，语音输入为“嘿，Siri，播放一些适合烧烤的音乐”。在图11所示的又一个示例中，语音输入为“嘿，Siri，播放一些新出的音乐”。表示对一个或多个媒体项的请求的语音输入的其他示例包括：“我应该听什么”、“推荐一些音乐”，“今天提供什么内容”、“嘿，Siri，作为我的DJ”、“给我放一些美妙的节拍”、“查找推荐播放列表”、“播放任何好听的语料库”、“播放一些我喜欢的内容”、“任何推荐的健身音乐”、“查找最新发行的音乐”、“请播放热门的新摇滚曲目”等。

在框804处，确定(例如，使用自然语言处理模块732)关于框802的语音输入是否对应于获取针对媒体项的个性化推荐的用户意图。具体地，该确定包括确定与语音输入对应的用户意图(例如，可执行意图)。按照上文参考图7A-C所述的方式确定用户意图。具体地，对语音输入中的字词或短语进行解析并与词汇索引(例如，词汇索引744)的字词或短语进行比较。词汇索引的字词或短语与知识本体(例如，知识本体760)的各种节点 (例如，可执行意图或域)相关联，因此基于比较，与语音输入中对应的字词或短语被“触发”或“激活”。选择被激活的节点中的具有最高置信度的节点。因此，与框802的语音输入对应的所确定的用户意图为与所选择的节点对应的可执行意图。

基于所选择的可执行意图节点来确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图。如果所选择的节点具有获取针对媒体项的个性化推荐的对应的可执行意图，则确定语音输入对应于获取针对媒体项的个性化推荐的用户意图。相反地，如果所选择的节点具有获取针对媒体项的个性化推荐之外的对应的可执行意图，则确定语音输入不对应于获取针对媒体项的个性化推荐的用户意图。

在一些示例中，确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定语音输入是否包括多个预先确定的短语中的一个或多个预先确定的短语。具体地，词汇索引包括与获取针对媒体项的个性化推荐的可执行意图节点对应的多个预先确定的短语。所述多个预先确定的短语包括例如：“为我推荐……[音乐]”、“作为我的DJ”、“播放一些曲调/节拍”、“我应当播放什么内容”、“播放一些我喜欢的[音乐]”、“查找适合……的一些好[音乐]”等。基于语音输入包含这些短语中的一个或多个短语，将语音输入映射到获取针对媒体项的个性化推荐的可执行意图，并且确定该语音输入对应于获取针对媒体项的个性化推荐的用户意图。例如，在图9A中，语音输入902包含短语“播放一些我喜欢的[音乐]”，该短语是与获取针对媒体项的个性化推荐的可执行意图节点对应的多个预先确定的短语中的一个预先确定的短语。因此，在该示例中，确定语音输入902对应于获取针对媒体项的个性化推荐的用户意图。

在一些示例中，确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定在语音输入中限定的参数的数量是否小于预先确定的阈值。具体地，如果在语音输入中限定的参数(例如，媒体参数)的数量小于预先确定的阈值，则确定该语音输入对应于获取针对媒体项的个性化推荐的用户意图。例如，语音输入“我应该播放什么内容？”是与播放音乐相关的请求。然而，该请求宽泛而模糊，因为它并未限定任何媒体参数，诸如期望的艺术家、语料库、流派或、发行日期。在该示例中，确定该语音输入对应于获取针对媒体项的个性化推荐的用户意图，因为在该语音输入中限定的参数(例如，媒体参数)的数量小于预先确定的阈值(例如，一)。

在一些示例中，确定语音输入是否对应于获取个性化推荐媒体的用户意图包括确定该语音输入是否涉及用户。具体地，对语音输入进行解析以确定其是否包含涉及用户(例如，“我”、“适合我的”、“给我”、“我的”等)的字词或短语。例如，确定下列短语是否包含涉及用户的字词：“有什么可推荐给我的”、“给我一个惊喜”、“今天有什么推荐给我的内容？”在一些示例中，确定过程是基于确定语音输入中是否包含涉及用户的字词或短语以及与媒体相关的字词或短语(例如，“听”、“音乐”、“播放”、“曲调”、“DJ”等)。例如，确定下列短语包含涉及用户的字词以及与媒体相关的字词或短语：“给我推荐一些嘻哈音乐”、“作为我的DJ”、“我应该听什么”、“有什么可给推荐给我的”、或“为我播放一些曲调”。因此，基于语音输入包含涉及用户的字词或短语，确定该语音输入对应于获取个性化推荐媒体的用户意图。

响应于确定语音输入对应于获取个性化推荐媒体的用户意图，执行框 806。在框806处，从媒体项的特定于用户的语料库获取至少一个媒体项 (例如，使用自然语言处理模块732、任务流处理模块736、和/或服务处理模块738)。在一些示例中，该至少一个媒体项包括歌曲、语料库、视频、电影、或播放列表。媒体项的特定于用户的语料库为特定于用户的媒体项的个性化语料库。具体地，媒体项的特定于用户的语料库基于与用户相关联的数据而生成。下文参考框810提供了媒体项的特定于用户的语料库的更详细的描述。在框806处，从媒体项的特定于用户的语料库获取至少一个媒体项包括执行下文所述的框808-816中的一个或多个框。例如，使用自然语言处理模块732、任务流处理模块736和/或服务处理模块738中的一者或多者来执行框808-816。

在框808处，确定在语音输入中限定的媒体参数(例如，使用自然语言处理模块732)。然后利用限定的媒体参数来生成与获取针对媒体项的个性化推荐的可执行意图对应的结构化查询。具体地，词汇索引(例如，词汇索引744)包括与多个媒体参数中的每个媒体参数对应的字词或短语。因此，通过比较语音输入的字词或短语与词汇索引的字词或短语来确定在语音输入中限定的媒体参数。例如，词汇索引包括与媒体参数相关联的字词或短语{流派}。字词或短语包括例如：“嘻哈”、“R&B”、“爵士”、“朋克”、“摇滚”、“流行”、“古典”、“蓝草”等。在图9A所示的示例中，基于在语音输入902中检测到短语“嘻哈”来确定语音输入902 将媒体参数{流派}限定为“嘻哈”。因此，在该示例中，生成u获取针对媒体项的个性化推荐的可执行意图对应的结构化查询以包括媒体参数{流派}＝“嘻哈”。

可从语音输入中确定的另一个媒体参数是{发行日期}。媒体参数{发行日期}是指用户关注的媒体项的发行日期。发行日期为例如具体日期或日期范围。与媒体参数{发行日期}相关联的字词或短语包括例如：“七十年代”、“八十年代”、“九十年代”、“近十年”、“2008”、“2016年 3月份以后”等。在一个示例中，基于语音输入“为我播放一些八十年代的曲调”中的字词“八十年代”来确定该语音输入将媒体参数{发行日期}限定为“1980-1989”。因此，在该示例中，生成与获取针对媒体项的个性化推荐的可执行意图对应的结构化查询以包括媒体参数{发行日期}＝“1980- 1989”。

在一些示例中，基于语音输入的上下文来将语音输入中的日期或时间段解释为限定子流派而非限定发行日期。例如，基于语音输入“为我播放一些70年代朋克音乐”中的“70年代”来确定该语音输入将时间段限定为“1970-1979”。响应于确定语音输入限定该时间段，确定该语音输入是否限定与该一时间段相关联的流派。在本示例中，语音输入包括与媒体参数 {流派}对应的短语“朋克”。由于语音输入中的时间段“70年代”修饰流派“朋克”，因此确定该语音输入限定于与时间段“70年代”相关联的流派“朋克”。响应于确定语音输入限定与限定的时间段相关联的流派，基于限定的时间段或限定的流派来确定子流派。例如，基于限定的时间段“70年代”和限定的流派“朋克”来确定子流派“70年代朋克音乐”。因此，在该示例中，针对获取针对媒体项的个性化推荐的可执行意图生成的结构化查询包括媒体参数{流派}＝“70年代朋克音乐”。值得注意的是，与将限定的时间段解释为媒体参数{发行日期}相反，将该限定的时间段更准确地解释为媒体参数{流派}的一部分。通过这种方式，将语音输入解释为更准确地反映用户的实际意图，从而将更相关的媒体项提供至用户。例如，在框806处，基于确定的子流派“70年代朋克音乐”获取至少一个媒体项，其中包括发行日期在时间段1970-1979之外的媒体项。具体地，该至少一个媒体项中的每个媒体项包括指示子流派“70年代朋克音乐”的元数据。

被确定为在语音输入中限定的其他媒体参数包括例如{活动}、{情绪}、{场合}、{编辑列表}、{政治倾向}、或{技术熟练程度}。下文依次描述了这些媒体参数中的每个媒体参数。例如，媒体参数{活动}是指由用户执行的活动并且与字词或短语诸如“健身”、“自习”、“烧烤”、“睡觉”、“开车”、“学习”、“绘画”等相关联。在一个示例中，基于语音输入“查找一些适合学习的音乐”中的字词“学习”来确定该语音输入将媒体参数{活动}限定为“学习”。在图10示出的另一个示例中，在语音输入1002中检测到与媒体参数{活动}对应的短语“烧烤”。因此，在该示例中，确定语音输入1002将媒体参数{活动}限定为“烧烤”。

媒体参数{情绪}是指用户的感觉或心理状态并且与字词或短语诸如“欢快”、“悲伤”、“生气”、“放松”、“强大”、“兴奋”、“浪漫”等相关联。在一个示例中，基于语音输入“给我推荐一些欢快的音乐”中的字词“欢快”来确定该语音输入将媒体参数{情绪}限定为“欢快”。

媒体参数{场合}是指与特定时间段相关联的场合并且与字词或短语诸如“圣诞节”、“生日”、“夏天”、“冬天”、“万圣节”、“新年”、“复活节”等相关联。在一个示例中，基于语音输入“播放一些圣诞节音乐”中的字词“圣诞节”来确定该语音输入将媒体参数{场合}限定为“圣诞节”。

媒体参数{编辑列表}是指由媒体机构编译的预先确定的媒体项列表，诸如Rolling Stones杂志、Billboard杂志、Shazam等。示例性编辑列表包括例如：Billboard百大单曲榜、Billboard流行歌曲排行榜、Billboard二百大语料库榜、American top 40、Rolling Stones五百大歌曲、Rolling Stones五百大语料库、Rolling Stones百位最伟大的艺术家等。媒体参数{编辑列表} 与和这些列表对应的字词或短语相关联。例如，基于语音输入“从 Billboard百大单曲榜中为我播放歌曲”中的短语“Billboard百大单曲榜”，确定该语音输入将媒体参数{编辑列表}限定为“Billboard百大单曲榜”。

媒体参数{政治倾向}是指用户的政治倾向并且与字词或短语诸如“保守派”、“自由派”、“右翼”、“右倾”、“左翼”、“左倾”等相关联。在一个示例中，基于语音输入“为我查找保守派新闻”中的字词“保守派”来确定该语音输入将媒体参数{政治倾向}限定为“保守派”。在该示例中，框812中确定的候选媒体项更可能与保守派媒体来源(例如，Fox News、Drudge Report等)而非自由派媒体来源(例如，Huffington Post、 New York Times等)相关联。

媒体参数{技术熟练程度}是指用户对技术主题的精通程度。在请求讨论技术主题的纪录片时，该媒体参数是相关的。具体地，媒体参数{技术熟练程度}与字词或短语诸如“技术性非常强的”、“外行”、“科学的”、“易于理解”、“简单”、“高级”等相关联。在一个示例中，基于语音输入“为我查找一些技术性非常强的纪录片”中的字词“技术性非常强的”来确定该语音输入将媒体参数{技术熟练程度}限定为“高”。在一些示例中，基于用户对所请求的主题的熟悉程来度推断媒体参数{技术熟练程度}。具体地，如果用户经常请求有关宇宙飞船的纪录片(例如，基于用户请求日志)或者如果用户在他/她的个人媒体库中有大量有关宇宙飞船的纪录片，则可确定该用户对于宇宙飞船的主题非常熟悉，并因此在该示例中，推断出媒体参数{技术熟练程度}为“高”。

在框810处，确定媒体项的特定于用户的语料库。确定媒体项的特定于用户的语料库包括获取与用户相关联的用户识别信息。用户识别信息包含例如用于访问媒体项的对应的特定于用户的语料库的用户账户登录信息或用户密码信息。然后使用用户识别信息来识别和访问媒体项的多个特定于用户的语料库中的适当的媒体项的特定于用户的语料库以获取至少一个媒体项。

在一些示例中，其中接收框802的语音输入的用户设备与包含用户识别信息的唯一的用户配置文件(例如，被存储在用户数据748中)相关联。因此，在框810处基于与用户设备相关联的用户配置文件来检索用户识别信息。从而基于检索的用户识别信息来识别媒体项的特定于用户的语料库。

在一些示例中，在验证用户身份时检索用户识别信息。具体地，通过使用框802的语音输入来执行扬声器识别，以验证用户的身份。例如，通过比较由框802的语音输入生成的声纹以及与特定用户相关联的参考声纹来执行扬声器识别。如果确定由框802的语音输入生成的声纹在高于置信度阈值的条件下与参考声纹匹配，则用户的身份得到验证。应当认识到，可实施其他身份验证方法，诸如指纹认证、密码验证等。在成功验证用户的身份时，检索与用户的经验证的身份对应的用户识别信息(例如，从用户配置文件中进行检索)。然后利用用户识别信息来识别和访问媒体项的对应的特定于用户的语料库。基于用户的所确定的身份，从媒体项的多个特定于用户的语料库来确定媒体项的相应的特定于用户的语料库。

在一些示例中，媒体项的特定于用户的语料库被存储在与用户设备分开的远程服务器上。例如，媒体项的特定于用户的语料库作为提供媒体项的媒体服务(例如，一种或多种媒体服务120-1)的一部分被存储。需要用户识别信息以访问媒体项的特定于用户的语料库。在一些示例中，包含用户识别信息的加密令牌在用户设备中生成并且被发送至媒体服务。然后媒体服务对令牌进行解密并且利用来自解密令牌中的用户识别信息来访问媒体项的对应的特定于用户的语料库，以获取至少一个媒体项。

在一些示例中，根据特定用户的媒体偏好来定制媒体项的特定于用户的语料库。例如，利用先前与用户相关联的媒体相关数据来生成媒体项的特定于用户的语料库。具体地，基于先前用户所选择、请求或拒绝的媒体项而生成媒体项的特定于用户的语料库。例如，如果确定用户经常请求、浏览、选择或播放具有某些媒体参数(例如，{流派}＝“流行”或{艺术家}＝“Katy Perry”)的媒体项，则生成媒体项的特定于用户的语料库以有利于具有那些参数的媒体项。类似地，如果确定用户始终拒绝具有某些其他参(例如，{情绪}＝悲伤)的推荐媒体项，则生成媒体项的特定于用户的语料库以不利于具有那些其他参数的媒体项。

在一些示例中，基于来自用户配置文件的信息来生成媒体项的特定于用户的语料库。用户配置文件包含表征用户的信息，诸如与用户相关联的国家/地区、用户的口语、用户的年龄、或用户经常参加的活动。基于该信息，生成媒体项的特定于用户的语料库，以有利于具有补充该信息的媒体参数的媒体项。例如，如果用户配置文件指示用户主要讲英语并且为十二岁，则生成媒体项的特定于用户的语料库，以有利于讲或唱英语并且具有最近(例如，近5年来)发行日期的媒体项。

另外，在一些示例中，基于与用户相关联的媒体项的个人库来生成媒体项的特定于用户的语料库。媒体项的个人库包括由用户采集的媒体项 (例如，歌曲、电影等)。媒体项的个人库被存储在用户设备上和/或被存储在与用户账户关联的远程服务器上。生成媒体项的特定于用户的语料库，以有利于媒体项具有类似于用户的个人媒体项库中的那些媒体项的媒体参数的媒体项。例如，如果用户的个人媒体项库包含艺术家Katy Perry 的许多语料库，则生成特定于用户的语料库，以有利于与艺术家Katy Perry 或类似于与Katy Perry的艺术家诸如Avril Lavigne相关联的媒体项。

在一些示例中，生成媒体项的特定于用户的语料库，使得该媒体项的特定于用户的语料库中的媒体项包括指示与相应媒体项对应的多个媒体参数的元数据。具体地，每个媒体项的元数据限定上述媒体参数中的任一个媒体参数，诸如{艺术家}、{流派}、{子流派}、{发行日期}、{活动}、{情绪}、{场合}、{编辑列表}、{政治倾向}、或{技术熟练程度}。利用元数据基于在用户语音输入中限定的媒体参数来向用户推荐合适的媒体项。例如，媒体项的特定于用户的语料库包括具有指示下列媒体参数的元数据的器乐歌曲“Chariots ofFire”：{标题}＝“Chariots of Fire”、{流派}＝“原声音乐；器乐”、{作曲家}＝Vangelis、{发行日期}＝“1981年3月”、{活动}＝“跑步”并且{情绪}＝“励志”。因此，如果在框802处接收到语音输入“为我播放一些适合跑步的励志器乐”，则基于在语音输入中限定的媒体参数(即，{流派}＝“器乐”、{活动}＝“跑步”和{情绪}＝“励志”)，歌曲“Chariots of Fire”为媒体项的特定于用户的语料库中识别的并且推荐给用户的候选媒体项。

在一些示例中，媒体项的特定于用户的语料库中的媒体项的元数据基于分析与媒体项相关联的具体特性而被智能化生成。具体地，通过分析媒体项的音频数据来确定每个媒体项的音乐节奏(例如，每分钟节拍数)。基于所确定的音乐节奏来确定媒体项的特定于用户的语料库中的媒体项的 {活动}媒体参数。例如，具有较快的音乐节奏的媒体项与更活泼的活动诸如健身、徒步旅行等相关联。相反，具有较慢的音乐节奏的媒体项与更消极的活动诸如睡眠、冥想等相关联。因此，基于音乐节奏确定的相关{活动} 媒体参数被包括在相应的媒体项的元数据中。

另外，在一些示例中，基于每个媒体项的音乐音调来确定媒体项的特定于用户的语料库中的媒体项的{情绪}媒体参数。例如，分析每个媒体项的音乐音调，以确定与音频数据相关联的音乐音调(例如，C大调、G大调、A小调等)。具有主音乐音调的媒体项与更积极和欢快的情绪诸如“欢快”、“乐观”、“开朗”、“兴奋”等相关联，而具有次音乐音调的媒体项与更悲哀的情绪诸如“悲伤”、“悲哀”等相关联。

在框812处，基于所确定的框808的媒体参数来确定媒体项的特定于用户的语料库中的多个候选媒体项。例如，使用所确定的框808的媒体参数来执行搜索以识别媒体项的特定于用户的语料库中的具有包括所确定的框808的媒体参数的元数据的候选媒体项。例如，返回图9A，在框808处确定媒体参数{流派}＝“嘻哈”，以被限定在语音输入902中。响应于确定语音输入将媒体参数{流派}限定为“嘻哈”，可搜索媒体项的特定于用户的语料库，以识别具有包括媒体参数{流派}＝“嘻哈”的元数据的媒体项。例如，媒体项诸如J-Kwon的“Tipsy”、Jay-Z的“99Problems”和Drake 的“Over”各自具有包括媒体参数{流派}＝“嘻哈”的元数据。因此，在该示例中，从媒体项的特定于用户的语料库确定的多个候选媒体项包括这些媒体项。

在图10所示的另一个示例中，用户901提供语音输入1002“嘿，Siri，播放一些适合烧烤的音乐”。在该示例中，在框808处确定语音输入，以将媒体参数{活动}限定为“烧烤”。响应于确定语音输入将媒体参数{活动}限定为“烧烤”，搜索媒体项的特定于用户的语料库，以识别具有包括媒体参数{活动}＝“烧烤”的元数据的媒体项。例如，媒体项诸如 TheKooks的“She Moves in Her Own Way”、Katy Perry的“Hot n Cold”和The Beach Boys的“Fun Fun Fun”各自具有包括媒体参数{活动}＝“烧烤”的元数据。因此，在该示例中，从媒体项的特定于用户的语料库确定的多个候选媒体项包括这些媒体项。

尽管图9A-B和图10的示例相对于特定的媒体参数进行描述，但是应当认识到，基于在框902的语音输入中限定的任何媒体参数从媒体项的特定于用户的语料库确定多个候选媒体项。例如，除图9A-B和图10的示例中所述的媒体参数{流派}和{烧烤}之外，媒体参数包括{艺术家}、{媒体类型}、{流派}、{发行日期}、{情绪}、{场合}、{编辑列表}、{政治倾向}、 {技术熟练程度}等。

在框814处，使用特定于用户的媒体排序模型对框812的多个候选媒体项进行排序。特定于用户的媒体排序模型被存储在例如用户数据748或数据与模型116中。使用特定于用户的媒体排序模型来生成多个候选媒体项中的每个候选媒体项的特定于用户的排序得分。从而基于特定于用户的排序得分来对多个候选媒体项进行排序。特定于用户的排序得分表示用户在媒体参数与候选媒体项相关联的情况下接受候选媒体项的可能性。特定于用户的媒体排序模型为使用特定于用户的数据训练的统计机器学习模型 (例如，神经网络模型、贝叶斯模型等)，诸如来自用户配置文件的信息、来自用户的先前与媒体相关的输入、或与用户相关联的媒体项。另外，基于随后所接收的特定于用户的数据来持续更新特定于用户的媒体排序模型。例如，基于框802的语音输入或被包含在框824的音频输入中的任何语音来更新特定于用户的媒体排序模型，如下文所述。

来自用户配置文件的信息包括用户年龄、种族、位置、职业等。利用该信息来生成特定于用户的媒体排序模型。例如，如果来自用户配置文件的信息指示用户为生活在保守的爱达荷州的科学家，则训练特定于用户的媒体排序模型，以针对与更高技术熟练程度或更保守的政治倾向相关联的媒体项来生成更有利的得分。

利用来自用户的先前与媒体相关的输入来生成特定于用户的媒体排序模型。具体地，来自用户的先前与媒体相关的输入包括在接收框802的语音输入之前所接收的媒体相关请求、选择和拒绝。例如，如果来自用户的先前的媒体相关请求指示用户通常请求流行音乐并且拒绝说唱音乐，则基于该先前与媒体相关的输入来训练特定于用户的媒体排序模型，以生成更有利于流行音乐的排序得分和较不利于说唱音乐的排序得分。在另一个示例中，先前与媒体相关的输入指示当用户浏览在线音乐商店时，用户经常查看发行日期为20世纪70年代的音乐项。基于该确定，训练特定于用户的媒体排序模型，以生成更有利于发行日期为20世纪70年代的媒体项的排序得分。

与用户相关联的媒体项包括在用户的个人媒体库中发现的媒体项。在一些示例中，使用用户的个人媒体库中的媒体项来生成特定于用户的媒体排序模型。具体地，训练特定于用户的媒体排序模型，以有利于具有类似于用户的个人媒体库的媒体项的媒体参数的媒体项。例如，基于具有Jay-Z 的许多语料库的用户的个人媒体库来训练特定于用户的媒体排序模型，以生成更有利于与艺术家Jay-Z或类似于Jay-Z的艺术家相关的媒体项的得分。

在一些示例中，使用一般媒体排序模型来(另外地或另选地)执行框 814的排序。具体地，使用一般媒体排序模型来生成多个候选媒体项中的每个候选媒体项的一般排序得分。从而基于一般排序得分来对多个候选媒体项进行排序。一般媒体排序模型类似于特定于用户的媒体排序模型，不同的是一般媒体排序模型使用来自大量用户而非来自一位具体用户的媒体相关的数据进行训练。一般排序得分表示媒体项的一般支持率。具体地，一般媒体排序模型针对大量用户最经常请求、查看或选择的媒体项来生成更有利的排序得分。

应当认识到，在一些示例中，基于来自特定于用户的媒体排序模型的特定于用户的排序得分与来自一般媒体排序模型的一般排序得分的组合来执行框814的排序。例如，插入得分以生成每个候选媒体项的组合排序得分。然后基于组合的排序得分来对多个候选媒体项进行排序。另外，应当认识到，在一些示例中，将一般媒体排序模型与特定于用户的排序模型整合。例如，使用来自大量用户的媒体相关的数据来生成特定于用户的排序模型，但是将其调整为有利于特定于在用户的数据中指示的用户偏好。

在框816处，基于框814的排序来从多个候选媒体项选择至少一个媒体项。例如，该至少一个媒体项包括排名最高的候选媒体项或多个候选媒体项中排名最高的N个候选媒体项，其中N是大于零的整数。在框806处获取的至少一个媒体项为所选择的框816的至少一个媒体项。从媒体项的特定于用户的语料库中检索所选择的至少一个媒体项(例如，在一种或多种媒体服务120-1处)，并且在框818处将其提供至用户。

在一些示例中，基于用户对与至少一个媒体项相关联的一个或多个媒体参数的推断出的熟悉程度来选择至少一个媒体项。例如，在框802处接收的语音输入为“为我播放一些Michael Jackson的歌曲”。在该示例中，在框808处确定该语音输入，以将媒体参数{艺术家}限定为“Michael Jackson”。基于该确定，在框812处从媒体项的特定于用户的语料库中识别多个候选的Michael Jackson歌曲。在框814处基于一般人气(例如，根据一般媒体排序模型)和/或基于特定于用户的媒体排序模型来对多个候选的Michael Jackson歌曲进行排序。确定用户对艺术家“Michael Jackson”的熟悉程度。基于与艺术家“Michael Jackson”相关联的特定于用户的数据来进行确定。例如，基于来自用户的先前的媒体相关的输入指示用户经常浏览、购买、聆听和/或请求Michael Jackson的歌曲或基于用户的个人媒体库包含大量Jackson的歌曲来确定该用户对艺术家“Michael Jackson”的熟悉程度较高。相反，基于来自用户的媒体相关的输入指示用户不经常浏览、购买、聆听和/或请求MichaelJackson的歌曲或基于用户的个人媒体库包含非常少的Jackson的歌曲来确定该用户对艺术家“Michael Jackson”的熟悉程度较低。基于所确定的熟悉程度，在框816处从多首候选的Michael Jackson的歌曲选择歌曲。例如，如果确定用户对艺术家“Michael Jackson”的熟悉程度较低，则在框814处选择最流行或排名最高的候选的 Michael Jackson的歌曲。具体地，从多首候选的Michael Jackson的歌曲选择排名最高的N首候选的Michael Jackson的歌曲作为播放列表来进行播放。相比之下，如果确定用户对艺术家“Michael Jackson”的熟悉程度较高，则选择流行(例如，排名较高)和不太流行(例如，排名较低)的候选的Michael Jackson的歌曲的组合作为播放列表来进行播放。具体地，基于用户对艺术家“Michael Jackson”的熟悉程度较高，选择更大比例的不太流行的候选的Michael Jackson的歌曲。这是有利的，因为对艺术家Michael Jackson非常熟悉的用户可能已熟悉最流行的Michael Jackson的歌曲。此类用户将希望听到Michael Jackson的歌曲的组合，其中包括流行的高度商业化的歌曲和不太流行的商业化程度较低(例如，“deep cuts”)的歌曲。因此，在该示例中，在框816处基于所确定的用户对艺术家“Michael Jackson”的熟悉程度来选择Michael Jackson的歌曲的平均支持率。

应当认识到，在一些示例中，用户对与至少一个媒体项相关联的一个或多个媒体参数的熟悉程度直接被包含在特定于用户的媒体排序模型中。例如，基于确定用户对艺术家“Michael Jackson”非常熟悉，特定于用户的媒体排序模型被配置为对一些不太流行的Michael Jackson的歌曲生成较高的排序得分。通过这种方式，排名最高的N首候选的Michael Jackson的歌曲包括高度上商业化的流行的Michael Jackson的歌曲和知名度较低的 Michael Jackson的歌曲的组合。在这些示例中，所选择的至少一个媒体项包括排名最高的N首候选的Michael Jackson的歌曲。

尽管上述框806使用媒体项的特定于用户的语料库来执行，但是应当认识到并且在其他示例中，可使用媒体项的其他语料库来代替媒体项的特定于用户的语料库。例如，在一些示例中，该至少一个媒体项得自媒体项的一般(独立于用户的)语料库或基于一个或多个特定的媒体参数生成的媒体项的语料库。

在框818处，提供所述至少一个媒体项。具体地，在用户设备处提供至少一个媒体项。在一些示例中，该至少一个媒体项在用户设备上播放 (例如，使用扬声器211)。在其他示例中，该至少一个媒体项被显示在用户设备上(例如，在触摸屏212上)，以供用户查看和/或选择。在其他示例中，以语音响应的形式来将至少一个媒体项提供至用户(例如，使用扬声器211)。

重新参考如图9A所示的示例，在框814处使用特定于用户的媒体排序模型来对在框812处确定的候选嘻哈媒体项进行排序。具体地，对候选嘻哈媒体项进行排序，使得候选媒体项Jay-Z的“99Problems”在框812处确定的候选嘻哈媒体项中具有最高排名。因此，在该示例中，在框816处选择的至少一个媒体项包括媒体项Jay-Z的“99Problems”并且在用户设备 903上将该媒体项播放给用户901。

现在参考如图10所示的示例，在框814处使用特定于用户的媒体排序模型来对框812处确定的“烧烤”候选媒体项进行排序。在该示例中，候选媒体项The Kooks的“SheMoves in Her Own Way”在框812处确定的候选媒体项中具有最高排名。因此，在框816处选择的至少一个媒体项包括媒体项The Kooks的“She Moves in Her Own Way”，并且获取该媒体项并在用户设备903上将其播放给用户901。应当认识到，所选择的至少一个媒体项可包括其他媒体项。例如，候选媒体项Katy Perry的“Hot n Cold”和 The Beach Boys的“FunFun Fun”在框812处确定的候选媒体项中具有第二高和第三高的排名。在框816处选择的至少一个媒体项包括这些媒体项。因此，在这些示例中，在用户设备上在播放媒体项TheKooks的“She Moves in Her Own Way”后播放媒体项Katy Perry的“Hot n Cold”和TheBeach Boys的“Fun Fun Fun”。

在一些示例中，过程800使用户能够在框818处提供至少一个媒体项时提供跟进请求。例如，用户拒绝在框818处提供的至少一个媒体项或与至少一个媒体项相关的请求附加信息。框820-826描述了从用户接收跟进语音请求和提供对跟进语音请求的响应的方面。

在框820处，确定与语音输入对应的域是否为多个预先确定的域中的一个预先确定的域。具体地，仅某些预先确定的域可能引出来自用户的跟进请求。因此，为了提高效率，从用户接收跟进语音请求的能力仅针对某些预先确定的域实现。例如，多个预先确定的域包括与具有大量元数据的项目的域，诸如“查找媒体项”域或“查找餐厅”域。具有大量元数据的项目诸如媒体项和餐厅项经常引出来自用户的跟进请求。响应于确定与语音输入对应的域为多个预先确定的域中的一个预先确定的域，在框820处接收音频输入(例如，麦克风213被激活)。相反，响应于确定与语音输入对应的域并非多个预先确定的域中的一个预先确定的域，过程800在框 822处放弃接收音频输入(例如，麦克风213未激活)。

在框824处，接收音频输入。具体地，在框818处提供至少一个媒体项时接收音频输入。例如，参考图9A，一旦媒体项Jay-Z的“99 Problems”开始在用户设备903上播放，则用户设备903开始经由用户设备 903的麦克风来接收音频输入。

在框826处，确定音频输入是否包含语音。在接收音频输入时进行该确定。具体地，一旦接收到音频输入，则分析音频输入以确定其中是否包含与语音的那些特征对应的声音特征。具体地，从所接收的音频输入提取时域特征(例如，过零率、短时能量、频谱能量或频谱平坦度)和/或频域特征(例如，梅尔频率倒频谱系数、线性预测倒谱系数或梅尔频率离散小波系数)并且将其与人类语音模型进行比较，以确定音频输入包含语音的可能性。如果确定其可能性高于预先确定的值，则确定该音频输入包含语音。相反，如果其可能性低于预先确定的值，则确定该音频输入不包含语音。响应于确定音频输入不包含语音，过程800在预先确定的时间量之后停止在框828处接收音频输入。例如，参考图9A，用户设备903在接收被确定为不含任何语音的预先确定的持续时间的音频输入之后停止接收音频输入。

在一些示例中，预先确定的时间量基于在音频输入中检测到的环境噪声的程度。具体地，框826包括确定音频输入中的环境噪声(例如，背景噪音)的量。基于检测到音频输入中的环境噪声水平较高，在框824处接收到的不包含任何语音的音频输入的预先确定的时间量减少。例如，如果确定音频输入中的环境噪声的振幅未超出预先确定的阈值，则过程800在框828处在预先确定的时间量(例如，7秒)之后停止接收音频输入。然而，如果确定音频输入中的环境噪声的振幅超出预先确定的阈值，则过程800在框828处在小于预先确定的时间量的第二预先确定的时间量(例如， 4秒)之后停止接收音频输入。

响应于确定音频输入包含语音，执行框830。在框830处，确定音频输入的语音是否对应于与语音输入相同的域。该确定包括确定与音频输入的语音对应的用户意图。按照类似于如上所述框804的方式来确定用户意图。确定与音频输入的语音对应的用户意图包括确定与音频输入的语音对应的域。然后确定和音频输入的语音对应的域与和框802的语音输入对应的域是否相同。响应于确定音频输入的语音不对应于与语音输入相同的域，过程800在框832处放弃提供对音频输入的响应。这对于滤除多路重合噪声是可取的。例如，参考图9A，语音输入902对应于“查找媒体项”域。如果在播放Jay-Z的歌曲“99Problems”时接收到音频输入并且该音频输入包含与查找媒体项无关的多路重合噪声，则确定该多路重合噪声与语音输入902无关，并且将不向用户提供跟进响应(框832)。

响应于确定音频输入的语音对应于与语音输入相同的域，执行框 834。在框834处，根据与音频输入的语音对应的用户意图来提供响应。按照上文参考图7A-C所述的类似方式提供响应。具体地，基于与音频输入的语音对应的所确定的用户意图来生成结构化查询。然后根据所生成的结构化查询来执行与用户意图对应的一项或多项任务。基于一个或多个所执行的任务来提供响应。

参考图9A-B和图10的示例来进一步描述框820-834。在图9A中，在用户设备903播放所获取的至少一个媒体项Jay-Z的“99Problems”时(框 818)，从用户901接收包含第二语音输入904“除Jay-Z之外什么都行！”的音频输入(框824)。确定与第二语音输入904对应的用户意图(框 830)。基于第二语音输入904中的短语“Jay-Z”和播放Jay-Z的媒体项“99Problems”的用户设备903的上下文来确定第二语音输入904对应于与语音输入902相同的域。具体地，确定与语音输入904对应的域为“查找媒体项”域。另外，确定第二语音输入904是否对应于拒绝媒体项“99 Problems”。基于与第二语音输入904对应的用户意图来进行确定。在该示例中，基于在播放媒体项“99Problems”的上下文中解释短语“除……之外什么都行”来确定第二语音输入904对应于拒绝媒体项“99Problems”并且获取针对媒体项的另选推荐的用户意图。然后执行与该用户意图对应的一项或多项任务(框834)。具体地，响应于确定第二语音输入对应于对至少一个媒体项的拒绝，基于该拒绝来对先前确定和排序的候选的嘻哈媒体项(例如，在框812和框814处)进行重新排序。该重新排序类似于框 814的排序，不同的是对具有媒体参数{艺术家}＝Jay-Z的媒体项而生成不利的排序得分。例如，对候选的嘻哈媒体项进行重新排序，使得候选媒体项 J-Kwon的“Tipsy”成为候选的嘻哈媒体项中排名最高的媒体项，而候选媒体项Jay-Z的“99Problems”成为候选的嘻哈媒体项中排名最低的媒体项。基于该重新排序，如图9B所示，获取媒体项J-Kwon的“Tipsy”并且在用户设备903上播放。此外，如上文所述，基于接收自用户的任何随后的语音输入来对特定于用户的媒体排序模型进行持续更新。因此，响应于确定第二语音输入对应于对至少一个媒体项的拒绝，根据该拒绝来更新特定于用户的媒体排序模型。例如，更新特定于用户的媒体排序模型，以使具有媒体参数{艺术家}＝Jay-Z的候选媒体项随后生成较不利的排序得分。因此，在用户随后请求获取媒体项推荐时，数字助理将不太可能推荐与艺术家Jay-Z相关联的媒体项。

现在参见图10的示例，用户901提供第二语音输入1004“这是什么时间发行的？”具体地，在用户设备903播放媒体项The Kooks的“She Moves in Her Own Way”时，从用户901接收第二语音输入1004(框 824)。确定与第二语音输入1004对应的用户意图(框830)。基于第二语音输入1004中的字词“这”和用户设备903播放媒体项“She Moves in Her Own Way”的上下文来确定第二语音输入1004对应于与语音输入902相同的域。具体地，确定与语音输入904对应的域为“查找媒体项”域。另外，在该示例中，基于在播放媒体项“She Moves inHer Own Way”的上下文中解释字词“这”和“发行”来确定(框830)第二语音输入904对应于获取与媒体项“She Moves in Her Own Way”相关联的发行日期的用户意图。响应于该确定，执行与用户意图对应的一项或多项任务(框834)。具体地，检索歌曲“She Moves in HerOwn Way”的发行日期(例如，从一种或多种媒体服务120-1中)并且将其提供至用户(框834)。例如，如图10 所示，根据所确定的用户意图，在用户设备903处将语音响应1006提供至用户901。具体地，语音响应1006指示歌曲“She Moves in Her Own Way”的发行日期为“2006年6月”。在一些示例中，响应于第二语音输入 1004，发行数据另外或另选地被显示在用户设备903上。

返回框804，响应于确定框802的语音输入不对应于获取针对媒体项的个性化推荐的用户意图，执行图8C的框836。在框836处，确定框802 的语音输入是否对应于获取具有最近发行日期的媒体项的用户意图。如上文所述，在框804处确定与语音输入对应的用户意图。基于知识本体(例如，知识本体760)中所选择的可执行意图节点来确定框836。如果所选择的节点具有获取具有最近发行日期的媒体项的对应的可执行意图，则确定语音输入对应于获取具有最近发行日期的媒体项的用户意图。相反，如果该节点具有除获取具有最近发行日期的媒体项之外的对应的可执行意图，则确定语音输入不对应于获取具有最近发行日期的媒体项的用户意图。

在一些示例中，确定语音输入是否对应于获取具有最近发行日期的媒体项的用户意图包括确定语音输入是否包括第二多个预先确定的短语中的一个或多个预先确定的短语。具体地，与获取具有最近发行日期的媒体项对应的用户意图的可执行意图节点与第二多个预先确定的短语相关联。第二多个预先确定的短语被存储在与和获取媒体项的用户意图对应的可执行意图节点相关联的词汇索引(词汇索引744)中。第二多个预先确定的短语包括诸如“新音乐”、“最近发行的”、“最新发布”、“新出”等短语。基于框802的语音输入包含第二多个预先确定的短语中的一个或多个预先确定的短语，将语音输入映射到与获取具有最近发行日期的媒体项的用户意图对应的可执行意图节点。因此，确定框802的语音输入对应于获取具有最近发行日期的媒体项的用户意图。例如，参考图11，接收到来自用户901的语音输入1102“嘿，Siri，给我播放一些新出的流行音乐”。基于包含短语“新出”的语音输入1102，选择与获取具有最近发行日期的媒体项的用户意图对应的可执行意图节点。因此，确定语音输入1102对应于获取具有最近发行日期的媒体项的用户意图。

响应于确定语音输入对应于获取具有最近发行日期的媒体项的用户意图，执行框838。相反，响应于确定语音输入不对应于获取具有最近发行日期的媒体项的用户意图，过程800放弃执行框838。例如，如图8C所示，响应于确定语音输入不对应于获取具有最近发行日期的媒体项的用户意图，过程800结束。

在框838处，从媒体项的第二语料库获取至少一个第二媒体项。框 838类似于框806，不同的是使用媒体项的第二语料库而非媒体项的特定于用户的语料库来执行框838。另外，框838包括类似于框808-816的框，不同的仍然是，相对于媒体项的第二语料库而非媒体项的特定于用户的语料库来执行该框。媒体项的第二语料库为例如基于媒体项的发行日期而生成的媒体项的一般语料库。具体地，媒体项的第二语料库中的每个媒体项具有在当前日期的预先确定的时间范围内的发行日期。例如，媒体项的第二语料库仅包括具有在当前日期三个月内的发行日期的媒体项。在一些示例中，基于其他因素诸如每个媒体项的人气来生成媒体项的第二语料库。

在框840处，提供至少一个第二媒体项。框840类似于框818。具体地，在用户设备处提供至少一个第二媒体项。在一些示例中，在用户设备处播放至少一个媒体项。在其他示例中，该至少一个媒体项被显示在用户设备上(例如，在触摸屏212上)，以供用户查看和/或选择。在其他示例中，以语音响应的形式来将至少一个媒体项提供至用户。

参考图11来进一步描述框838-840。例如，响应于确定语音输入1102 对应于获取具有最近发行日期的媒体项的用户意图，在用户设备903上实现的数字助理从媒体项的第二语料库获取至少一个第二媒体项。媒体项的第二语料库仅包含具有在当前日期三个月内的发行日期的媒体项。在本示例中，如果当前日期为2016年6月1日，则媒体项的第二语料库中的每个媒体项具有不早于2016年3月1日的发行日期。因此，从媒体项的第二语料库获取的所述至少一个第二媒体项具有不早于2016年3月1日的发行数据。在该示例中，该至少一个第二媒体项包括Ariana Grande的歌曲“Dangerous Woman”，其发行日期为2016年3月11日。如图所示，响应于语音输入1102，获取歌曲“Dangerous Woman”(例如，从一种或多种媒体服务120-1中)并且在用户设备903上进行播放。

5、其他电子设备

图12示出了根据各种所述示例的原理进行配置的电子设备1200的功能框图。该设备的功能块任选地由进行各种所描述的示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图12中所述的功能框任选地被组合或被分离为子框，以实现各种所述示例的原理。因此，本文的描述任选地支持本文所述的功能框的任何可能的组合或分离或进一步限定。

如图12所示，电子设备1200包括被配置为显示图形用户界面并且从用户接收触摸输入的触摸屏显示器单元1202、被配置为接收音频输入(例如，语音输入)的音频输入单元1204、被配置为输出音频(例如，语音和/ 或媒体内容)的扬声器单元1205、以及被配置为传输和接收信息的通信单元1206。电子设备1200还包括耦接至触摸屏显示器单元1202的处理单元 1208、以及音频输入单元1204、和通信单元1206。在一些示例中，处理单元1208包括接收单元1210、确定单元1212、获取单元1214、提供单元 1216、排序单元1218、更新单元1220、停止单元1222、放弃单元1224、和选择单元1226。

根据一些实施方案，该处理单元1208被配置为从用户接收表示一个或多个媒体项的语音输入(例如，框802的语音输入)(例如，利用接收单元1210并且经由音频输入单元1204)。该处理单元1208还被配置为确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图(例如，利用确定单元1212)(例如，框804)。该处理单元1208还被配置为响应于确定语音输入对应于获取针对媒体项的个性化推荐的用户意图而从媒体项的特定于用户的语料库获取至少一个媒体项(例如，框806的至少一个媒体项)(例如，利用获取单元1214)。基于与用户相关联的数据而生成媒体项的特定于用户的语料库(例如，框806的媒体项的特定于用户的语料库)。处理单元1208还被配置为提供至少一个媒体项(例如，利用提供单元并且使用触摸屏显示器单元1202和/或扬声器单元1205)(例如，框 818)。

在一些示例中，确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定在语音输入中限定的参数的数量是否小于预先确定的阈值(例如，框804)。

在一些示例中，确定语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定语音输入是否包括与获取针对媒体项的个性化推荐的用户意图对应的多个短语中的一个短语(例如，框804)。

在一些示例中，确定语音输入是否对应于获取个性化推荐媒体的用户意图包括确定该语音输入是否涉及用户(例如，框804)。

在一些示例中，基于先前由用户选择或请求的媒体项而生成媒体项的特定于用户的语料库(例如，框806的媒体项的特定于用户的语料库)。

在一些示例中，基于先前由用户拒绝的媒体项而生成媒体项的特定于用户的语料库(例如，框806)。

在一些示例中，基于与用户相关联的媒体项的个人库而生成媒体项的特定于用户的语料库(例如，框806)。

在一些示例中，该处理单元1208还被配置为使用特定于用户的媒体排序模型(例如，框814)来对来自媒体项的特定于用户的语料库的多个候选媒体项进行排序(例如，利用排序单元1218进行排序)。基于来自用户的先前与媒体相关请求而生成特定于用户的媒体排序模型。获取少一个媒体项包括基于排序从多个候选媒体项来选择至少一个媒体项(例如，框 816)。

在一些示例中，该处理单元1208还被配置为从用户接收第二语音输入 (例如，利用接收单元1210和经由音频输入单元1204)。该处理单元 1208还被配置为确定第二语音输入是否对应于对至少一个媒体项的拒绝 (例如，利用确定单元1212)。该处理单元1208还被配置为响应于确定第二语音输入对应于对至少一个媒体项的拒绝，根据该拒绝来更新特定于用户的媒体排序模型(例如，利用更新单元1220)。

在一些示例中，该处理单元1208还被配置为基于对至少一个媒体项的拒绝来对来自媒体项的特定于用户的语料库的多个候选媒体项进行重新排序(例如，利用排序单元1218)。该处理单元1208还被配置为基于重新排序来从多个候选媒体项选择至少一个第二媒体项(例如，利用选择单元 1226)。

在一些示例中，基于多个候选媒体项中的每个媒体项的支持率来对多个候选媒体项进行排序(例如，框814)。

在一些示例中，媒体项的特定于用户的语料库中的每个媒体项包括指示与媒体项相关联的活动的元数据。活动基于媒体项的音乐节奏而与媒体项相关联。

在一些示例中，媒体项的特定于用户的语料库中的每个媒体项包括指示与媒体项相关联的情绪的元数据。情绪基于媒体项的音乐音调而与媒体项相关联。

在一些示例中，改处理单元1208还被配置为确定语音输入是否限定与时间段相关联的场合(例如，利用确定单元1212)(例如，框804)。该处理单元1208还被配置为响应于确定语音输入限定与时间段相关联的场合而基于该场合来获取至少一个媒体项(例如，利用获取单元1214)，其中该至少一个媒体项包括指示场合的元数据(例如，框806)。

在一些示例中，该处理单元1208还被配置为确定语音输入是否限定与媒体机构相关联的编辑列表(例如，利用确定单元1212)(例如，框 804)。该处理单元1208还被配置为响应于确定语音输入限定与媒体机构相关联的编辑列表而基于与媒体机构相关联的编辑列表来获取至少一个媒体项(例如，利用获取单元)(例如，框806)。该至少一个媒体项包括指示与媒体机构相关联的编辑列表的元数据。

在一些示例中，该处理单元1208还被配置为确定语音输入是否限定情绪(例如，利用确定单元1212)(例如，框804)。该处理单元1208还被配置为响应于确定语音输入限定情绪而基于该情绪来获取至少一个媒体项 (例如，利用获取单元1214)，其中至少一个媒体项包括指示情绪的元数据(例如，框806)。

在一些示例中，该处理单元1208还被配置为确定语音输入是否限定活动(例如，利用确定单元1212)(例如，框804)。该处理单元1208还被配置为响应于确定语音输入限定活动而基于该活动来获取至少一个媒体项 (例如，利用获取单元1214)，其中至少一个媒体项包括指示活动的元数据(例如，框806)。

在一些示例中，该处理单元1208还被配置为确定)语音输入是否限定时间段(例如，利用确定单元1212(例如，框804)。该处理单元1208还被配置为响应于确定语音输入限定时间段而确定语音输入是否限定与时间段相关联的流派(例如，利用确定单元1212)。该处理单元1208还被配置为响应于确定语音输入限定与时间段关联的流派而基于时间段和流派来确定子流派(例如，利用确定单元1212)。基于子流派来获取至少一个媒体项并且至少一个媒体项包括指示子流派的元数据(例如，框806)。

在一些示例中，语音输入限定媒体项的类别，并且获取至少一个媒体项包括获取与媒体项的类别相关联的多个媒体项。该处理单元1208还被配置为确定用户对媒体项的类别的熟悉程度(例如，框816的熟悉程度) (例如，利用确定单元1212)。该多个媒体项的平均支持率基于用户对媒体项的类别的熟悉程度。

在一些示例中，该处理单元1208还被配置为通过使用语音输入执行扬声器识别来确定用户的身份(例如，利用确定单元1212)。该处理单元 1208还被配置为基于所确定的用户的所确定的身份而从媒体项的多个特定于用户的语料库确定媒体项的特定于用户的语料库(例如，利用确定单元 1212)。

在一些示例中，获取至少一个媒体项包括将加密令牌发送至远程服务器。加密令牌包含用户识别信息。需要加密令牌以经由远程服务器来访问媒体项的特定于用户的语料库。

在一些示例中，该处理单元1208还被配置为确定与语音输入对应的域 (例如，框820的域)是否为多个预先确定的域中的一个预先确定的域 (例如，利用确定单元1212)。该处理单元1208还被配置为响应于确定与语音输入对应的域为多个预先确定的域中的一个预先确定的域，在提供至少一个媒体项时接收音频输入(例如，框824的音频输入)(例如，利用接收单元1210和通过音频输入单元1204)。该处理单元1208还被配置为确定音频输入是否包含语音(例如，框826)(例如，利用确定单元 1212)。该处理单元1208还被配置为响应于确定音频输入不包含语音而在预先确定的时间量之后停止接收音频输入(例如，利用停止单元1222) (例如，框828)。

在一些示例中，该处理单元1208还被配置为响应于确定音频输入包含语音而确定音频输入的语音是否对应于与语音输入相同的域(例如，利用确定单元1212)(例如，框830)。该处理单元1208还被配置为响应于确定音频输入的语音对应于与语音输入相同的域而确定与音频输入的语音对应的用户意图(例如，框820的用户意图)(例如，利用确定单元1212)。该处理单元1208还被配置为根据用户意图对应于音频输入的语音来提供)针对音频输入的响应(例如，框834的响应)(利用提供单元 1216。

在一些示例中，该处理单元1208还被配置为响应于确定音频输入的语音不对应于与语音输入相同的域而放弃提供对音频输入的响应(例如，利用放弃单元1224)(例如，框832)。

在一些示例中，预先确定的时间量基于在音频输入中检测到的环境噪声的程度。

在一些示例中，提供至少一个媒体项包括播放媒体项。该处理单元 1208还被配置为在播放媒体项时接收第三语音输入(例如，框824的音频输入中的语音输入)(例如，利用接收单元1210并且经由音频输入单元 1204)。该处理单元1208还被配置为基于正在播放媒体项和第三语音输入来确定用户意图(例如，框820的用户意图)对应于第三语音输入(例如，利用确定单元1212)。该处理单元1208还被配置为根据与第三语音输入对应的用户意图来提供响应(例如，框834的响应)(例如，利用提供单元1216)。

在一些示例中，该处理单元1208还被配置为响应于确定语音输入不对应于获取针对媒体项的个性化推荐的用户意图而确定语音输入是否对应于获取具有最近发行日期的媒体项的用户意图(例如，利用确定单元1212) (例如，框836)。该处理单元1208还被配置为响应于确定语音输入对应于获取具有最近发行日期的媒体项的用户意图而从媒体项的第二语料库获取至少一个第二媒体项(例如，框838的至少一个第二媒体项)(例如，利用获取单元1214)。媒体项的第二语料库中的每个媒体项具有在当前日期的预先确定的时间范围内的发行日期。该处理单元1208还被配置为提供至少一个第二媒体项(例如，利用提供单元1216)(例如，框840)。

在一些示例中，确定语音输入是否对应于获取具有最近发行日期的媒体项的用户意图包括确定语音输入是否包括与获取具有最近发行日期的媒体项的用户意图对应的第二多个短语中的一个短语(例如，框836)。

在一些示例中，该处理单元1208还被配置为确定与用户相关联的政治倾向(例如，利用确定单元1212)(例如，框814)。该确定基于用户先前请求或消费的媒体项。基于所确定的政治倾向而获取至少一个媒体项。

在一些示例中，该处理单元1208还被配置为确定与用户相关联的技术熟练程度(例如，利用确定单元1212)(例如，框814)。该确定基于用户先前请求或消费的媒体项。基于所确定的技术熟练程度而获取所述至少一个媒体项。

上文参考图8A-C所述的操作任选地由图1-4、图6A-B和图7A-C中所示的部件来实现。例如，过程800的操作可由操作系统718、应用程序模块724、I/O处理模块728、STT处理模块730、自然语言处理模块732、词汇索引744、任务流处理模块736、服务处理模块738、一种或多种媒体服务 120-1或一个或多个处理器220,410,704中的一者或多者来实现。本领域的普通技术人员会清楚地知道如何基于在图1-4、图6A-B和图7A-C中所描绘的部件来实现其他过程。

根据一些具体实施，提供一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质存储由电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文所述的方法或过程中的任一者的指令。

根据一些具体实施，提供一种电子设备(例如，便携式电子设备)，该电子设备包括用于执行本文所述的方法或过程中的任一者的装置。

根据一些具体实施，提供一种电子设备(例如，便携式电子设备)，该电子设备包括被配置为执行本文所述的方法或过程中的任一者的处理单元。

根据一些具体实施，提供一种电子设备(例如，便携式电子设备)，该电子设备包括一个或多个处理器和存储由所述一个或多个处理器执行的一个或多个程序的存储器，该一个或多个程序包括用于执行本文所述的方法或过程中的任一者的指令。

出于解释的目的，前面的描述是通过参考具体实施方案来描述的。然而，上面的例示性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。

虽然参照附图对本公开以及示例进行了全面的描述，但应当注意，各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解，此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。

如上所述，本发明技术的一个方面在于采集和使用得自各种来源的数据，以改进向用户递送其可能感兴趣的启发内容或任何其他内容。本公开预期，在一些实例中，这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，该个人信息数据可用于递送用户较感兴趣的目标内容。因此，使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外，本公开还预期个人信息数据有益于用户的其他用途。

本公开还设想到负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如，来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。另外，此类收集应当仅在用户知情同意之后进行。另外，此类实体应采取任何所需的步骤，以保障和保护对此类个人信息数据的访问，并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就广告递送服务而言，本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如，用户可选择不为目标内容递送服务提供位置信息。再如，用户可选择不提供精确的位置信息，但准许传输位置区域信息。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案，但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如，可通过基于非个人信息数据或绝对最低限度的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用信息来推断偏好，从而选择内容并递送给用户。

Claims

1.一种用于操作数字助理以探究媒体项的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

从用户接收用于表示对一个或多个媒体项的请求的语音输入；

确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图；以及

响应于确定所述语音输入对应于获取针对媒体项的个性化推荐的用户意图：

从媒体项的特定于用户的语料库获取至少一个媒体项，所述媒体项的特定于用户的语料库基于与所述用户相关联的数据而生成；以及

提供所述至少一个媒体项。

2.根据权利要求1所述的方法，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定在所述语音输入中限定的参数的数量是否小于阈值。

3.根据权利要求1所述的方法，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定所述语音输入是否包括与获取针对媒体项的个性化推荐的所述用户意图对应的多个短语中的一个短语。

4.根据权利要求1所述的方法，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定所述语音输入是否涉及所述用户。

5.根据权利要求1所述的方法，其中所述媒体项的特定于用户的语料库基于先前由所述用户选择或请求的媒体项而生成。

6.根据权利要求1所述的方法，其中所述媒体项的特定于用户的语料库基于先前由所述用户拒绝的媒体项而生成。

7.根据权利要求1所述的方法，其中所述媒体项的特定于用户的语料库基于与所述用户相关联的媒体项的个人库而生成。

8.根据权利要求1所述的方法，还包括：

使用特定于用户的媒体排序模型来对来自所述媒体项的特定于用户的语料库的多个候选媒体项进行排序，所述特定于用户的媒体排序模型基于来自所述用户的多个先前媒体相关请求而生成，其中获取所述至少一个媒体项包括基于所述排序来从所述多个候选媒体项选择所述至少一个媒体项。

9.根据权利要求8所述的方法，其中所述多个候选媒体项基于所述多个候选媒体项中的每个媒体项的支持率进行排序。

10.根据权利要求8所述的方法，还包括：

从所述用户接收第二语音输入；

确定所述第二语音输入是否对应于对所述至少一个媒体项的拒绝；以及

响应于确定所述第二语音输入对应于对所述至少一个媒体项的拒绝：

根据所述拒绝来更新所述特定于用户的媒体排序模型。

11.根据权利要求10所述的方法，还包括：

基于对所述至少一个媒体项的所述拒绝来对来自媒体项的特定于用户的语料库的所述多个候选媒体项进行重新排序；以及

基于所述重新排序来从所述多个候选媒体项选择至少一个第二媒体项。

12.根据权利要求1所述的方法，其中所述媒体项的特定于用户的语料库中的每个媒体项包括指示与所述媒体项相关联的活动的元数据，并且其中所述活动基于所述媒体项的音乐节奏而与所述媒体项相关联。

13.根据权利要求1所述的方法，其中所述媒体项的特定于用户的语料库中的每个媒体项包括指示与所述媒体项相关联的情绪的元数据，并且其中所述情绪基于所述媒体项的音乐音调而与所述媒体项相关联。

14.根据权利要求1所述的方法，还包括：

确定所述语音输入是否限定与时间段相关联的场合；以及

响应于确定所述语音输入限定与时间段相关联的场合，基于所述场合来获取所述至少一个媒体项，其中所述至少一个媒体项包括指示所述场合的元数据。

15.根据权利要求1所述的方法，还包括：

确定所述语音输入是否限定与媒体机构相关联的编辑列表；以及

响应于确定所述语音输入限定与媒体机构相关联的编辑列表，基于与所述媒体机构相关联的所述编辑列表来获取所述至少一个媒体项，其中所述至少一个媒体项包括指示与所述媒体机构相关联的所述编辑列表的元数据。

16.根据权利要求1所述的方法，还包括：

确定所述语音输入是否限定情绪；以及

响应于确定所述语音输入限定情绪，基于所述情绪来获取所述至少一个媒体项，其中所述至少一个媒体项包括指示所述情绪的元数据。

17.根据权利要求1所述的方法，还包括：

确定所述语音输入是否限定活动；以及

响应于确定所述语音输入限定活动，基于所述活动来获取所述至少一个媒体项，其中所述至少一个媒体项包括指示所述活动的元数据。

18.根据权利要求1所述的方法，还包括：

确定所述语音输入是否限定时间段；

响应于确定所述语音输入限定时间段，确定所述语音输入是否限定与所述时间段相关联的流派；以及

响应于确定所述语音输入限定与所述时间段相关联的流派，基于所述时间段和所述流派来确定子流派，其中所述至少一个媒体项基于所述子流派而被获取，并且其中所述至少一个媒体项包括指示所述子流派的元数据。

19.根据权利要求1所述的方法，其中所述语音输入限定媒体项的类别，其中获取所述至少一个媒体项包括获取与所述媒体项的所述类别相关联的多个媒体项，并且还包括：

确定所述用户对所述媒体项的所述类别的熟悉程度，其中所述多个媒体项的平均支持率基于所述用户对所述媒体项的类别的所述熟悉程度。

20.根据权利要求1所述的方法，还包括：

通过使用所述语音输入执行扬声器识别来确定所述用户的身份；以及

基于所述用户的所确定的身份，从媒体项的多个特定于用户的语料库确定所述媒体项的特定于用户的语料库。

21.根据权利要求1所述的方法，其中获取所述至少一个媒体项包括将加密令牌发送至远程服务器，所述加密令牌包含用户识别信息，并且其中需要所述加密令牌以经由所述远程服务器来访问所述媒体项的特定于用户的语料库。

22.根据权利要求1所述的方法，还包括：

确定与所述语音输入对应的域是否为多个预先确定的域中的一个预先确定的域；

响应于确定与所述语音输入对应的域为多个预先确定的域中的一个预先确定的域：

在提供所述至少一个媒体项时，接收音频输入；

确定所述音频输入是否包含语音；以及

响应于确定所述音频输入不包含语音，在预先确定的时间量之后停止接收音频输入。

23.根据权利要求22所述的方法，还包括：

响应于确定所述音频输入包含语音：

确定所述音频输入的所述语音是否对应于与所述语音输入相同的域；

响应于确定所述音频输入的所述语音对应于与所述语音输入相同的域：

确定与所述音频输入的所述语音对应的用户意图；以及

根据与所述音频输入的所述语音对应的所述用户意图来提供对所述音频输入的响应。

24.根据权利要求23所述的方法，还包括：

响应于确定所述音频输入的所述语音不对应于与所述语音输入相同的域：

放弃提供对所述音频输入的响应。

25.根据权利要求22所述的方法，其中所述预先确定的时间量基于在所述音频输入中检测到的环境噪声的程度。

26.根据权利要求1所述的方法，其中提供所述至少一个媒体项包括播放所述至少一个媒体项中的媒体项，并且还包括：

在播放所述媒体项时，接收第三语音输入；

基于正在播放的媒体项和所述第三语音输入来确定与所述第三语音输入对应的用户意图；以及

根据与所述第三语音输入对应的所述用户意图来提供响应。

27.根据权利要求1所述的方法，还包括：

响应于确定所述语音输入不对应于获取针对媒体项的个性化推荐的用户意图：

确定所述语音输入是否对应于获取具有最近发行日期的媒体项的用户意图；以及

响应于确定所述语音输入对应于获取具有最近发行日期的媒体项的用户意图：

从媒体项的第二语料库获取至少一个第二媒体项，其中所述媒体项的第二语料库中的每个媒体项具有在当前日期的预先确定的时间范围内的发行日期；以及

提供所述至少一个第二媒体项。

28.根据权利要求1所述的方法，其中确定所述语音输入是否对应于获取具有最近发行日期的媒体项的用户意图包括确定所述语音输入是否包括与获取具有最近发行日期的媒体项的用户意图对应的第二多个短语中的一个短语。

29.根据权利要求1所述的方法，还包括：

确定与用户相关联的政治倾向，所述确定基于由所述用户请求或消费的先前媒体项，其中所述至少一个媒体项基于所确定的政治倾向而被获取。

30.根据权利要求1所述的方法，还包括：

确定与用户相关联的技术熟练程度，所述确定基于由所述用户请求或消费的先前媒体项，其中所述至少一个媒体项基于所确定的技术熟练程度而被获取。

31.一种计算机可读存储介质，所述计算机可读存储介质存储被配置为由电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于进行以下操作的指令：

提供所述至少一个媒体项。

32.根据权利要求31所述的计算机可读介质，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定在所述语音输入中限定的参数的数量是否小于阈值。

33.根据权利要求31所述的计算机可读介质，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定所述语音输入是否包括与获取针对媒体项的个性化推荐的所述用户意图对应的多个短语中的一个短语。

34.根据权利要求31所述的计算机可读介质，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定所述语音输入是否涉及所述用户。

35.根据权利要求31所述的计算机可读介质，其中所述媒体项的特定于用户的语料库基于先前由所述用户选择或请求的媒体项而生成。

36.根据权利要求31所述的计算机可读介质，其中所述媒体项的特定于用户的语料库基于先前由所述用户拒绝的媒体项而生成。

37.根据权利要求31所述的计算机可读介质，其中所述媒体项的特定于用户的语料库基于与所述用户相关联的媒体项的个人库而生成。

38.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

39.根据权利要求38所述的计算机可读介质，其中所述多个候选媒体项基于所述多个候选媒体项中的每个媒体项的支持率进行排序。

40.根据权利要求38所述的计算机可读介质，还包括：

从所述用户接收第二语音输入；

根据所述拒绝来更新所述特定于用户的媒体排序模型。

41.根据权利要求40所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

42.根据权利要求31所述的计算机可读介质，其中所述媒体项的特定于用户的语料库中的每个媒体项包括指示与所述媒体项相关联的活动的元数据，并且其中所述活动基于所述媒体项的音乐节奏而与所述媒体项相关联。

43.根据权利要求31所述的计算机可读介质，其中所述媒体项的特定于用户的语料库中的每个媒体项包括指示与所述媒体项相关联的情绪的元数据，并且其中所述情绪基于所述媒体项的音乐音调而与所述媒体项相关联。

44.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定与时间段相关联的场合；以及

45.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于以下操作的指令：

46.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定情绪；以及

47.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定活动；以及

48.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定时间段；

49.根据权利要求31所述的计算机可读介质，其中所述语音输入限定媒体项的类别，其中获取所述至少一个媒体项包括获取与所述媒体项的所述类别相关联的多个媒体项，并且其中所述一个或多个程序进一步包括用于进行以下操作的指令：

50.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

51.根据权利要求31所述的计算机可读介质，其中获取所述至少一个媒体项包括将加密令牌发送至远程服务器，所述加密令牌包含用户识别信息，并且其中需要所述加密令牌以经由所述远程服务器来访问所述媒体项的特定于用户的语料库。

52.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

在提供所述至少一个媒体项时，接收音频输入；

确定所述音频输入是否包含语音；以及

53.根据权利要求52所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

响应于确定所述音频输入包含语音：

确定与所述音频输入的所述语音对应的用户意图；以及

54.根据权利要求53所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

放弃提供对所述音频输入的响应。

55.根据权利要求52所述的计算机可读介质，其中所述预先确定的时间量基于在所述音频输入中检测到的环境噪声的程度。

56.根据权利要求31所述的计算机可读介质，其中提供所述至少一个媒体项包括播放所述至少一个媒体项中的媒体项，并且其中所述一个或多个程序进一步包括用于进行以下操作的指令：

在播放所述媒体项时，接收第三语音输入；

根据与所述第三语音输入对应的所述用户意图来提供响应。

57.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

提供所述至少一个第二媒体项。

58.根据权利要求31所述的计算机可读介质，其中确定所述语音输入是否对应于获取具有最近发行日期的媒体项的用户意图包括确定所述语音输入是否包括与获取具有最近发行日期的媒体项的用户意图对应的第二多个短语中的一个短语。

59.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

60.根据权利要求31所述的计算机可读介质，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

61.一种用于操作数字助理以探究媒体项的电子设备，所述电子设备包括：

一个或多个处理器；和

存储器，所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序还包括用于进行以下操作的指令：

提供所述至少一个媒体项。

62.根据权利要求61所述的设备，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定在所述语音输入中限定的参数的数量是否小于阈值。

63.根据权利要求61所述的设备，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定所述语音输入是否包括与获取针对媒体项的个性化推荐的所述用户意图对应的多个短语中的一个短语。

64.根据权利要求61所述的设备，其中确定所述语音输入是否对应于获取针对媒体项的个性化推荐的用户意图包括确定所述语音输入是否涉及所述用户。

65.根据权利要求61所述的设备，其中所述媒体项的特定于用户的语料库基于先前由所述用户选择或请求的媒体项而生成。

66.根据权利要求61所述的设备，其中所述媒体项的特定于用户的语料库基于先前由所述用户拒绝的媒体项而生成。

67.根据权利要求61所述的设备，其中所述媒体项的特定于用户的语料库基于与所述用户相关联的媒体项的个人库而生成。

68.根据权利要求61所述的设备，还包括：

69.根据权利要求68所述的设备，其中所述多个候选媒体项基于所述多个候选媒体项中的每个媒体项的支持率进行排序。

70.根据权利要求68所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

从所述用户接收第二语音输入；

根据所述拒绝来更新所述特定于用户的媒体排序模型。

71.根据权利要求70所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

72.根据权利要求61所述的设备，其中所述媒体项的特定于用户的语料库中的每个媒体项包括指示与所述媒体项相关联的活动的元数据，并且其中所述活动基于所述媒体项的音乐节奏而与所述媒体项相关联。

73.根据权利要求61所述的设备，其中所述媒体项的特定于用户的语料库中的每个媒体项包括指示与所述媒体项相关联的情绪的元数据，并且其中所述情绪基于所述媒体项的音乐音调而与所述媒体项相关联。

74.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定与时间段相关联的场合；以及

75.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

76.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定情绪；以及

77.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定活动；以及

78.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

确定所述语音输入是否限定时间段；

79.根据权利要求61所述的设备，其中所述语音输入限定媒体项的类别，其中获取所述至少一个媒体项包括获取与所述媒体项的所述类别相关联的多个媒体项，并且其中所述一个或多个程序进一步包括用于进行以下操作的指令：

80.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

基于所确定的所述用户的身份，从多个媒体项的特定于用户的语料库中确定所述媒体项的特定于用户的语料库。

81.根据权利要求61所述的设备，其中获取所述至少一个媒体项包括将加密令牌发送至远程服务器，所述加密令牌包含用户识别信息，并且其中需要所述加密令牌以经由所述远程服务器来访问所述媒体项的特定于用户的语料库。

82.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

在提供所述至少一个媒体项时，接收音频输入；

确定所述音频输入是否包含语音；以及

83.根据权利要求82所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

响应于确定所述音频输入包含语音：

确定与所述音频输入的所述语音对应的用户意图；以及

84.根据权利要求83所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

放弃提供对所述音频输入的响应。

85.根据权利要求82所述的设备，其中所述预先确定的时间量基于在所述音频输入中检测到的环境噪声的程度。

86.根据权利要求61所述的设备，其中提供所述至少一个媒体项包括播放所述至少一个媒体项中的媒体项，并且其中所述一个或多个程序进一步包括用于进行以下操作的指令：

在播放所述媒体项时，接收第三语音输入；

根据与所述第三语音输入对应的所述用户意图来提供响应。

87.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

提供所述至少一个第二媒体项。

88.根据权利要求61所述的设备，其中确定所述语音输入是否对应于获取具有最近发行日期的媒体项的用户意图包括确定所述语音输入是否包括与获取具有最近发行日期的媒体项的用户意图对应的第二多个短语中的一个短语。

89.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

90.根据权利要求61所述的设备，其中所述一个或多个程序进一步包括用于进行以下操作的指令：

所述确定基于由所述用户请求或消费的先前媒体项，其中所述至少一个媒体项基于所确定的技术熟练程度而被获取。

91.一种设备，所述设备包括用于执行根据权利要求1-30中任一项所述的方法的装置。