CN101872349B

CN101872349B - 处理自然语言问题的方法和装置

Info

Publication number: CN101872349B
Application number: CN2009101353688A
Authority: CN
Inventors: 王晨; 张雷; 潘越; 马力; 裘照明; 克里斯托弗·韦尔蒂; 大卫·费鲁奇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-04-23
Filing date: 2009-04-23
Publication date: 2013-06-19
Anticipated expiration: 2029-04-23
Also published as: US8301438B2; US20100299139A1; CN101872349A

Abstract

本发明公开了一种处理自然语言问题的方法和装置。根据本发明的处理自然语言问题的方法包括：检测自然语言问题中的命名实体；提取自然语言问题中与答案相关的信息；根据检测到的命名实体在链接数据中进行检索；根据检索结果生成候选答案；根据与答案相关的信息对候选答案进行解析，获取候选答案的特征的值；以及通过对候选答案的特征的值进行综合，评估每一个候选答案。

Description

处理自然语言问题的方法和装置

技术领域

本发明一般地涉及处理自然语言问题的方法和装置。更具体地说，本发明涉及一种能够使用开放链接的结构化信息回答自然语言问题的处理自然语言问题的方法和装置。

背景技术

在最近几十年，问题回答(Question Answering，QA)在人工智能领域已经是经典问题，同时也是很难解决的问题之一。假定一个自然语言问题，例如，“一部电影，其中Justin Henry作为其第一个电影角色扮演Dustin Hoffman和Meryl Streep的儿子，这部影片为其赢得了Oscar提名”，计算机系统将针对该问题尝试返回用自然语言表达的正确答案，例如“Kramer vs.Kramer”，正如一个人所做的那样。

针对计算机系统处理自然语言问题的要求，已经广泛开发了自然语言处理(natural language processing，NLP)技术，以利用非结构化的数据解决大多数的QA问题。毫无疑问，有充分的理由发展NLP技术，因为世界上超过80％的数据是非结构化的。

图1示出现有QA系统的总体架构。如图1所示，一般的QA系统均包括问题处理模块101、文档/段落检索模块103、以及回答处理模块105三大模块。针对用户提出的自然语言问题，在问题处理模块101中进行问题解析和焦点检测，从中选择出对于该问题的关键字。接着，文档/段落检索模块103根据问题处理模块101所选择的关键字，从数据库中进行关键字搜索并进行文档过滤，在包括关键字的文档中进一步进行段落的后过滤处理，以便生成候选答案。然后，在回答处理模块105中，对文档/段落检索模块103所生成的候选答案进行候选标识和回答排名，并最终形成针对所提出的自然语言问题的回答，以最后向用户输出简短的用自然语言表述的回答。

另外，还针对QA系统开发了QA评估系统，用于对QA系统进行性能评估。TREC QA track作为一种用于QA的评估平台，是世界上已知的用于QA的最好评估平台，其中提供各种数据集和问题集以评估不同QA系统的准确性和性能。

然而，随着数据库和语义网的发展，结构化数据逐步增加，并且相比于NLP所针对的非结构化数据，由于其非歧义的特性而变得更加重要。此外，大多数大型商业公司在其经营中也总是处理结构化数据并且将它们存储在数据库中，而不会转换为非结构化数据。为了使得在企业内部的结构化数据上支持QA，必须开发一些新技术，例如NLDB(natural languagedatabase，自然语言数据库)技术，将NLP与数据库技术结合，在数据库上提供自然语言界面以方便用户提出问题。总的来说，NLDB技术取决于数据库元数据模式的句法，将自然语言问题翻译成能够在数据库中执行的一些SQL语句。因此，其限制了用户提出一些具有特定自然语言语法的问题，而且仅能返回数据库范围内的答案。

除了数据库之外，随着实现语义网愿景的不断发展和进步，已经出现了许多新的结构化数据，例如作为一种形式的链接数据的RDF(ResourceDescription Framework，资源描述框架)数据。针对RDF数据，已经提出了语义查询语言，例如SPARQL语言，能够不依靠句法而是根据语义来查询数据。

但是，迄今为止尚没有完善的技术来针对链接数据进行自然语言问题的处理，而不受自然语言语法的限制。

发明内容

鉴于上述情况，本发明提出一种处理自然语言问题的方法和装置，能够使用开放链接的结构化信息回答开放域和自由语法的自然语言问题。

在下文中首先给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供一种处理自然语言问题的方法，包括：检测自然语言问题中的命名实体；提取自然语言问题中与答案相关的信息；根据检测到的命名实体在链接数据中进行检索；根据检索结果生成候选答案；根据与答案相关的信息对候选答案进行解析，获取候选答案的特征的值；以及通过对候选答案的特征的值进行综合，评估每一个候选答案。

根据本发明的一个优选实施例，根据检测到的命名实体在链接数据中进行检索包括：基于相似度在链接数据中搜索与命名实体相匹配的通用资源标识符；以及利用通用资源标识符之间的链接关系，扩展搜索与命名实体相匹配的通用资源标识符所链接的通用资源标识符。此外，根据链接的通用资源标识符生成候选答案。

优选地，在对候选答案的特征的值进行综合以评估每一个候选答案之前，根据候选答案的特征对从不同链接数据中检索得到的候选答案进行合并。

根据本发明的一个优选实施例的处理自然语言问题的方法还包括根据候选答案的特征进行机器学习以训练出计分模型，并且在对候选答案的特征的值进行综合以评估每一个候选答案时，按照所述计分模型计算出每一个候选答案的分数。

根据本发明的另一个方面，提供一种处理自然语言问题的装置，包括：问题分析模块，配置为检测自然语言问题中的命名实体并提取自然语言问题中与答案相关的信息；候选答案生成模块，配置为根据检测到的命名实体在链接数据中进行检索，并根据检索结果生成候选答案；特征值生成模块，配置为根据与答案相关的信息对候选答案进行解析，获取候选答案的特征的值；以及候选答案评估模块，配置为对候选答案的特征的值进行综合来评估每一个候选答案。

另外，本发明还提供用于实现上述处理自然语言问题的方法的计算机程序。

此外，本发明也提供至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述处理自然语言问题的方法的计算机程序代码。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1示出现有QA系统的总体架构；

图2示出RDF三元组数据的链接图结构；

图3示出根据本发明的实施例的处理自然语言问题的方法的总体流程图；

图4示出根据本发明的实施例的检索链接数据库及候选答案生成步骤的处理流程；

图5示出根据本发明的实施例的处理自然语言问题的装置的示意结构方框图；

图6示出根据本发明的实施例的候选答案生成模块的示意结构方框图；以及

图7示出用于实施根据本发明的处理自然语言问题的方法的信息处理设备的结构方块图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于该实际实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

为了便于说明本发明的原理，在下文中将以RDF数据作为链接数据的示例来对本发明的实施例进行描述，这是因为RDF数据作为一种类型的链接数据在网络上盛行，涵盖各种数据和知识。尤其是迄今为止，W3C链接开放数据(Linking Open Data，LOD)计划已经链接了由超过20亿个RDF三元组数据组成的超过30个开放许可数据集。

除了物理RDF数据之外，虚拟RDF数据集也在不断增长。很多大型企业一直在其各个商业系统内部管理和处理结构化数据，因此，它们也需要集成其结构化数据。通过利用例如Virtuso、D2R、以及SeDA的语义网工具可以方便地以这些企业的结构化数据库为基础建立虚拟RDF视图(view)。

但是本领域技术人员应当明白，本发明并不仅仅局限于RDF数据，而是可以应用到各种链接数据，比如通过映射微格式(Micro-format)的数据所获得的链接数据等等。

接下来将以Dbpedia作为RDF数据的具体实例并以如何得到下面的自然语言问题“In this 1992 Robert Altman film，Tim Robbins gets angrymessages from a screenwriter he’s snubbed”的自然语言答案为例来详细说明本发明的原理。

这里首先列出与上面的自然语言问题有关的Dbpedia中的一些RDF三元组数据，并且在图2中给出这些RDF三元组数据的链接图结构。

●<http://dbpedia.org/resource/The_Player>

<http://dbpedia.org/property/director>

<http://dbpedia.org/resource/Robert_Altman>.

●<http://dbpedia.org/resource/The_Player>

<http://www.w3.org/2000/01/rdf-schema％23label>

“The Player”en.

●<http://dbpedia.org/resource/Gosford_Park>

<http://dbpedia.orgg/roperty/director>

<http://dbpedia.org/resource/Robert_Altman>.

●<http://dbpedia.org/resource/Robert_Altman>

<http://dbpedia.org/property/birthPlace>

<http://dbpedia.org/resource/Kansas_City％2C_Missouri>.

●<http://dbpedia.org/resource/The_Player>

<http://dbpedia.org/property/starring>

<http://dbpedia.org/resource/Tim_Robbins>.

●<http://dbpedia.org/resource/Tim_Robbins>

<http://dbpedia.org/property/spouse>

<http://dbpedia.org/resource/Susan_Sarandon>.

●<http://dbpedia.org/resource/The_Player>

<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>

<http://dbpedia.org/class/yago/MotionPictureFilm103789400>.

●<http://dbpedia.org/class/yago/MotionPictureFilm103789400>

<http://www.w3.org/2000/01/rdf-schema％23subClassOf>

<http://dbpedia.org/class/yago/Film103435300>.

●<http://dbpedia.org/class/yago/Film103435300>

<http://www.w3.org/2000/01/rdf-schema％23label>

“Film”en.

在图2中，圆圈代表与命名实体相关的URI(Universal ResourceIdentifier，通用资源标识符)，也就是RDF三元组数据中的主语和宾语。两个圆圈之间的连线表示命名实体之间的关系，也就是RDF三元组数据中的谓词。以上面所示的第一个RDF三元组数据“<http://dbpedia.org/resource/The_Player><http://dbpedia.org/property/director><http://dbpedia.org/resource/Robert_Altman>”为例，其中“The_Player”和“Robert_Altman”二者为命名实体，“<http://dbpedia.org/resource/The_Player>”为与命名实体“The_Player”相关的URI，而“<http://dbpedia.org/resource/Robert_Altman>”为与命名实体“Robert_Altman”相关的URI，因此在图2所示的链接图中用圆圈表示。另外，“<http://dbpedia.org/property/director>”为RDF三元组数据中的谓词，表明了命名实体“The_Player”和“Robert_Altman”之间的关系，即“Robert_Altman”为影片“The_Player”的“director(导演)”。其他的RDF三元组数据可以以相同的方式进行解析，这里不再一一详细列出。

图3示出根据本发明的实施例的处理自然语言问题的方法的总体流程图。如图3所示，根据本发明实施例的处理自然语言问题的方法包括命名实体检测步骤S301、答案相关信息提取步骤S303、链接数据库检索步骤S305、候选答案生成步骤S307、特征值获取步骤S309、以及候选答案评估步骤S311。

首先，在命名实体检测步骤S301中，对用户输入的自然语言问题进行分析，从中检测命名实体。接着，在答案相关信息提取步骤S303提取自然语言问题中与答案相关的信息。

例如，对于上面提到的自然语言问题“In this 1992 Robert Altmanfilm，Tim Robbins gets angry messages from a screenwriter he’ssnubbed”，从中可以检测到命名实体“Robert_Altman”和“Tim Robbins”，而且还能够提取出与答案类型相关的信息“film”以及与答案相关的时间验证信息“1992”等。

然后，在链接数据库检索步骤S305中，根据在命名实体检测步骤S301中检测得到的命名实体，在不同的数据源，比如DBpedia和IMDb的链接数据中进行检索。接着，在候选答案生成步骤S307，根据链接数据库检索步骤S305中的检索结果生成候选答案。

图4示出了根据本发明的一种优选实施方式的候选答案生成方法的处理流程。如图4所示，首先在匹配步骤S401中，基于相似度在链接数据中搜索与命名实体相匹配的URI。对于作为实例的上述自然语言问题，可以根据在命名实体检测步骤S301中检测所得到的命名实体“Robert_Altman”以及“Tim Robbins”，分别从DBpedia中搜索到与之相匹配的URI“<http://dbpedia.org/resource/Robert_Altman>”以及“<http://dbpedia.org/resource/Tim_Robbins>”。

接着，在扩展搜索步骤S403中，利用URI之间的链接关系，扩展搜索与命名实体相匹配的URI所直接链接的URI。在上述示例中，对于与命名实体“Robert_Altman”相匹配的URI“<http://dbpedia.org/resource/Robert_Altman>”，可以通过扩展搜索从图2所示的链接图中非常容易地得到与之直接链接的URI，例如“<http://dbpedia.org/resource/The_Player>”、“<http://dbpedia.org/resource/Gosford_Park>”和“<http://dbpedia.org/resource/Kansas_City％2C_Missouri>”。对于与命名实体“Tim Robbins”相匹配的URI“<http://dbpedia.org/resource/Tim_Robbins>”，也可以通过扩展搜索从图2所示的链接图中非常容易地得到与之直接链接的URI，例如“<http://dbpedia.org/resource/The_Player>”和“<http://dbpedia.org/resource/Susan_Sarandon>”。

在扩展获得了上述各个URI之后，在候选生成步骤S405中就可以从各个直接链接的URI中提取得出候选答案。这里，候选答案可以为URI中所包含的标签。对于上述示例，比如可以从扩展搜索步骤S403中得到的各个直接链接的URI中提取出候选答案“The_Player”、“Gosford_Park”、“Kansas_City”、以及“Susan_Sarandon”。这里虽然只描述了扩展搜索与命名实体相匹配的URI所直接链接的通用资源标识符；以及根据直接链接的URI生成候选答案。本领域技术人员知道，在扩展搜索及生成候选答案时可以不限于直接链接的URI。

在根据图4所示的处理过程生成候选答案之后，接着在图3所示的特征值获取步骤S309中，根据在答案相关信息提取步骤S303中提取的与答案相关的信息对候选答案进行解析，以获取候选答案的特征的值。

这里，候选答案的特征包括与答案相关的信息以及与候选答案相关联的直接链接的通用资源标识符的数量。与答案相关的信息比如是在答案相关信息提取步骤S303中提取的与答案类型相关的信息“film”以及与答案相关的时间验证信息“1992”等等。答案类型信息可以用“tycor”来表示，时间验证信息可以直接用“year”来表示。与候选答案相关联的直接链接的通用资源标识符的数量例如是图2中与各个候选答案所属的URI直接链接的URI的数量，在此用“triple”来表示该特征。据此，下表1给出了针对上面所述具体示例的各个候选答案的特征的值。

表1 候选答案的特征的值

从表1中可以看出，对于特征“tycor”，由于候选答案“The_Player”和“Gosford_Park”均为影片名称，与在答案相关信息提取步骤S303中提取的与答案类型相关的信息“film”一致，因此其tycor＝1。候选答案“Kansas_City”为城市名，而“Susan_Sarandon”为人名，均与答案类型信息“film”不一致，因此其tycor＝0。对于特征“triple”，从图2中可以直观地看出与候选答案“The_Player”、“Gosford_Park”、“Kansas_City”和“Susan_Sarandon”直接链接的和命名实体“Robert_Altman”及“TimRobbins”相关的URI分别为2、1、1和1，因此其特征“triple”分别被赋予2、1、1和1的值。对于特征“year”，由于只有与候选答案“The_Player”相链接的URI“<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>”中出现了在答案相关信息提取步骤S303中提取的时间验证信息“1992”，因此将候选答案“The_Player”的特征“year”赋予值1，而其他候选答案的特征“year”均赋予值0。

在此需要指出的是，候选答案的特征不仅限于上面示例中提到的与答案类型相关的信息、与候选答案相关联的直接链接的通用资源标识符的数量、以及与答案相关的时间验证信息，而是可以包括各种涉及答案、命名实体、URI等等的信息，比如与命名实体相匹配的通用资源标识符之间的关联信息。

在特征值获取步骤S309中获取各个候选答案的特征的值之后，就可以在候选答案评估步骤S311中对候选答案的特征的值进行综合，以便对每一个候选答案进行评估，从中选出最佳答案提供给用户。

根据本发明的一个优选实施例，事先根据选定的候选答案的特征进行机器学习，由此训练出满意的计分模型。这样，在候选答案评估步骤S311中对候选答案的特征的值进行综合时，可以按照训练好的计分模型计算出每一个候选答案的分数，并从中选择分数最高的候选答案作为最终答案提供给用户。下表2示出了针对上面所述的示例，对各个候选答案进行评估后得到的评分结果。

表2 候选答案的评估

在表2中，对于候选答案“The_Player”，不仅其答案类型与想要的答案的类型匹配，与时间相关的验证信息也吻合，而且与候选答案相关联的直接链接的URI的数量最多，因此给出最高100的评分并作为最佳答案提供给用户。对于候选答案“Gosford_Park”，由于其特征“year＝0”，而且与候选答案相关联的直接链接的URI的数量仅为1，因此虽然其答案类型与想要的答案的类型匹配，但不能作为最佳答案，给出了60分的评分。另外，对于候选答案“Kansas_City”和“Susan_Sarandon”，由于其答案类型的值均为0，与想要的答案的类型不匹配，因此其最后的评估分数为0。

当然，表2中给出的评分结果仅仅作为示例给出，在实际应用中，可以根据不同的情况对各个特征赋予不同的权重值，从而对候选答案进行相应的评估。

另外，这里还要指出的是，候选答案不一定必须从同一个链接数据，比如上面示例中所用的DBpedia中进行查找，而是可以从不同的链接数据中检索得到。这样，在从不同的链接数据中分别得到候选答案时，在候选答案评估步骤S311中对候选答案进行评估之前，可以根据候选答案的特征对从不同链接数据中检索得到的候选答案进行合并，从而避免出现重复的候选答案。

以上描述了根据本发明实施例的处理自然语言问题的方法的处理流程，下面将结合图5和图6描述根据本发明实施例的处理自然语言问题的装置的工作原理。

图5示出根据本发明实施例的处理自然语言问题的装置500的结构方框图。如图5所示，根据该实施例的处理自然语言问题的装置500包括问题分析模块501、候选答案生成模块503、特征值生成模块505、以及候选答案评估模块507。

首先，问题分析模块501分析自然语言问题，从中检测命名实体并提取与答案相关的信息。然后，候选答案生成模块503根据问题分析模块501检测到的命名实体在比如DBpedia和IMDb等的链接数据中进行检索，由此生成候选答案。接着，特征值生成模块505根据与答案相关的信息对候选答案生成模块503所生成的候选答案进行解析，从而获取候选答案的特征的值。最后，候选答案评估模块507对特征值生成模块505获取的候选答案的特征的值进行综合以评估每一个候选答案，并将最佳的候选答案作为最终结果提供给用户。

图6示出根据本发明的一个优选实施例的候选答案生成模块600的示意结构方框图。如图6所示，根据该实施例的候选答案生成模块600包括匹配单元601、扩展搜索单元603和候选生成单元605。

匹配单元601基于相似度在链接数据中搜索与命名实体相匹配的通用资源标识符，扩展搜索单元603则利用通用资源标识符之间的链接关系，通过扩展搜索匹配单元601获得的与命名实体相匹配的通用资源标识符所直接链接的通用资源标识符，然后由候选生成单元605从扩展搜索单元603搜索得到的直接链接的通用资源标识符生成候选答案。

候选生成单元605可以将通用资源标识符中所包含的标签作为候选答案。候选答案的特征应当至少包括与答案相关的信息、以及与候选答案相关联的直接链接的通用资源标识符的数量，与答案相关的信息至少包括答案类型。

根据本发明的一个优选实施例，与答案相关的信息还包括从自然语言问题中提取的与答案相关的时间验证信息，候选答案的特征还包括与命名实体相匹配的通用资源标识符之间的关联信息。

在此值得指出的是，候选答案不一定必须从同一个链接数据，而是可以从不同的链接数据中检索得到。为此，根据本发明的一个优选实施例还包括合并模块(图中未示出)，用以在从不同的链接数据中分别得到候选答案时，在候选答案评估模块507中对候选答案进行评估之前，根据候选答案的特征对从不同链接数据中检索得到的候选答案进行合并，从而避免出现重复的候选答案。

另外，根据本发明的一个优选实施例的处理自然语言问题的装置还包括训练模块(图中未示出)，用以事先根据选定的候选答案的特征进行机器学习，由此训练出满意的计分模型。这样，在候选答案评估模块507中对候选答案的特征的值进行综合时，可以按照训练好的计分模型计算出每一个候选答案的分数，并从中选择分数最高的候选答案作为最终答案提供给用户。

这里还要指出的是，在根据本发明的处理自然语言问题的装置中的问题分析模块501、候选答案生成模块503、特征值生成模块505、以及候选答案评估模块507等各个模块中的具体处理过程分别与参照图3描述的处理自然语言问题的方法中的命名实体检测步骤S301和答案相关信息提取步骤S303、链接数据库检索步骤S305和候选答案生成步骤S307、特征值获取步骤S309、以及候选答案评估步骤S311等各个步骤中的处理类似，而在候选答案生成模块600中的匹配单元601、扩展搜索单元603和候选生成单元605等各个单元中的具体处理过程则分别与参照图4描述的候选答案生成方法中的匹配步骤S401、扩展搜索步骤S403、以及候选生成步骤S405等各个步骤中的处理类似，因此在此略去进一步的详细描述。

从以上对本发明的具体实施例的描述以及对现有技术的分析中可以看出，当使用NLP技术分析文件/句子/单词时，由于自然语言很难进行完善的解析，因此针对非结构化数据进行处理的现有QA系统必须处理许多模糊的问题。而根据本发明实施例的处理自然语言问题的方法和装置则是针对结构化数据进行处理的QA系统，能够基于当前业已存在的大量链接数据，很好地改善QA系统的精度。

另外，根据本发明实施例的处理自然语言问题的方法和装置，还可以帮助企业在虚拟RDF视图实现QA系统，而无需对现有的QA系统进行改造以适用企业业已大量生成的RDF数据和虚拟RDF数据。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图7所示的通用个人计算机700安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，包括键盘、鼠标等等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分708，包括硬盘等等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。

根据需要，驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与装置相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的装置一起被分发给用户。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

Claims

1.一种处理自然语言问题的方法，包括：

检测自然语言问题中的命名实体；

提取自然语言问题中与答案相关的信息；

根据检测到的命名实体在链接数据中进行检索；

根据检索结果生成候选答案；

根据与答案相关的信息对候选答案进行解析，获取候选答案的特征的值；以及

通过对候选答案的特征的值进行综合，评估每一个候选答案，并将最佳的候选答案作为最终结果提供给用户。

2.根据权利要求1所述的处理自然语言问题的方法，其中

根据检测到的命名实体在链接数据中进行检索包括：基于相似度在链接数据中搜索与命名实体相匹配的通用资源标识符；利用通用资源标识符之间的链接关系，扩展搜索与命名实体相匹配的通用资源标识符所链接的通用资源标识符；以及

根据链接的通用资源标识符生成候选答案。

3.根据权利要求2所述的处理自然语言问题的方法，其中候选答案为通用资源标识符中所包含的标签。

4.根据权利要求3所述的处理自然语言问题的方法，其中候选答案的特征至少包括与答案相关的信息、以及与候选答案相关联的直接链接的通用资源标识符的数量。

5.根据权利要求4所述的处理自然语言问题的方法，其中与答案相关的信息至少包括答案类型。

6.根据权利要求5所述的处理自然语言问题的方法，其中与答案相关的信息还包括从自然语言问题中提取的与答案相关的时间验证信息，候选答案的特征还包括与命名实体相匹配的通用资源标识符之间的关联信息。

7.根据权利要求1至6之任一所述的处理自然语言问题的方法，还包括：响应于根据检索结果生成候选答案，根据候选答案的特征对从不同链接数据中检索得到的候选答案进行合并。

8.根据权利要求1至6之任一所述的处理自然语言问题的方法，还包括根据候选答案的特征进行机器学习以训练出计分模型；以及

其中，在评估每一个候选答案时，按照所述计分模型计算出每一个候选答案的分数。

9.根据权利要求1至6之任一所述的处理自然语言问题的方法，其中所述链接数据为资源描述框架数据。

10.根据权利要求1至6之任一所述的处理自然语言问题的方法，其中链接数据是通过映射微格式的数据来获得的。

11.一种处理自然语言问题的装置，包括：

问题分析模块，配置为检测自然语言问题中的命名实体并提取自然语言问题中与答案相关的信息；

候选答案生成模块，配置为根据检测到的命名实体在链接数据中进行检索，并根据检索结果生成候选答案；

特征值生成模块，配置为根据与答案相关的信息对候选答案进行解析，获取候选答案的特征的值；以及

候选答案评估模块，配置为通过对候选答案的特征的值进行综合来评估每一个候选答案。

12.根据权利要求11所述的处理自然语言问题的装置，其中候选答案生成模块包括：

匹配单元，配置为基于相似度在链接数据中搜索与命名实体相匹配的通用资源标识符；

扩展搜索单元，配置为利用通用资源标识符之间的链接关系，扩展搜索与命名实体相匹配的通用资源标识符所链接的通用资源标识符；以及

候选生成单元，配置为根据链接的通用资源标识符生成候选答案并将最佳的候选答案作为最终结果提供给用户。

13.根据权利要求12所述的处理自然语言问题的装置，其中候选生成单元将通用资源标识符中所包含的标签作为候选答案。

14.根据权利要求13所述的处理自然语言问题的装置，其中候选答案的特征至少包括与答案相关的信息、以及与候选答案相关联的直接链接的通用资源标识符的数量。

15.根据权利要求14所述的处理自然语言问题的装置，其中与答案相关的信息至少包括答案类型。

16.根据权利要求15所述的处理自然语言问题的装置，其中与答案相关的信息还包括从自然语言问题中提取的与答案相关的时间验证信息，候选答案的特征还包括与命名实体相匹配的通用资源标识符之间的关联信息。

17.根据权利要求11至16之任一所述的处理自然语言问题的装置，还包括合并模块，配置为响应于根据检索结果生成候选答案，根据候选答案的特征对从不同链接数据中检索得到的候选答案进行合并。

18.根据权利要求11至16之任一所述的处理自然语言问题的装置，还包括训练模块，配置为根据候选答案的特征进行机器学习以训练出计分模型；以及

其中，候选答案评估模块在评估每一个候选答案时，按照所述计分模型计算出每一个候选答案的分数。

19.根据权利要求11至16之任一所述的处理自然语言问题的装置，其中所述链接数据为资源描述框架数据。

20.根据权利要求11至16之任一所述的处理自然语言问题的装置，其中链接数据是通过映射微格式的数据来获得的。