CN102289523A

CN102289523A - 一种文本智能提取标签的方法

Info

Publication number: CN102289523A
Application number: CN2011102796322A
Authority: CN
Inventors: 李军锋; 吕福军; 李跃海
Original assignee: Beijing Jinher Software Co Ltd
Current assignee: Beijing Jinher Software Co Ltd
Priority date: 2011-09-20
Filing date: 2011-09-20
Publication date: 2011-12-21

Abstract

本发明公开了一种文本智能提取标签的方法。该方法通过在内存中对文本字符串使用中文分词算法进行关键词拆分，然后根据词频、词长、词性等计算出词的权重，按词的权重进行倒序排序，取出指定数量的词作为结果输出。该方法的特点是，所有算法全部在内存中处理，算法设计简明、高效，在分析速度上得到了有效的保证。对于一段文本经过了分词、权重、组词、过滤、排序等一系列过程的加工后，在标签的准确性上达到了一定的效果。本发明可以进行算法的独立封装也可以进行组件封装，具有一定的通用性，可以应用于一切需求进行文本标签提取的产品中，在使用方面有一定的广泛性。

Description

一种文本智能提取标签的方法

技术领域

本发明涉及人工智能领域的文本挖掘技术，特别涉及应用于互联网产品中对于文本的标签提取的文本挖掘技术。

背景技术

随着因特网的迅猛发展，网络上的信息与日俱增，互联网已成为人们获取信息的重要来源。因特网和信息技术的发展使我们正面临着一个信息过量而知识贫乏的困境。如何在海量信息中快速有效地发掘有价值和可利用的信息，准确地定位所需信息和作好信息过滤，已成为信息领域的主流技术。目前在互联网产品中很多地方都会通过使用标签来对该段文本所表达的核心思想进行描述，比如博客、微博等，这些产品中基本上都是采用文本提取技术，但是目前的这些产品中都会存在标签的提取不够准确，而且不能够表达核心思想的问题。因此如何快捷、准确地识别和获取有用信息显得越来越重要。

发明内容

本发明的目的在于提供一个对于文本进行标签精确提取的一种方法，不但能够使所提出的标签内容准确、合理、而且通过组合能够充分表达一段文本的核心思想。

本发明的另一个目的在于解决标签提取不够准确的问题，使文本的标签提取更加准确，而且可以较精确的表达本文的核心思想。公开了一种文本智能标签的方法。其步骤如下：

步骤一、接收待提取标签的文本字符串；

步骤二、对所述文本字符串使用中文分词算法进行关键词拆分；

步骤三、定义一个保存关键词的数据结构，里面包含词的多个特征属性，将步骤二中的每个关键词的各特征属性信息抽取出来，并进行数值化，形成属性值；

步骤四、对词的各特征属性分别赋予权重值，通过权重值与属性值的乘积求和，计算出各关键词的权重值，排列权重值，建立一个临时的一级关键词字典；

步骤五、将一级关键词字典里的每个关键词进行词间组合，对形成的组合词进行中文语法算法判断，如果符合中文语法，则存储到建立起的组合词字典中，如果不符合中文语法，则跳转到对下一个组合词进行判断，重复这一过程，直到完成所有关键词之间的组合方式；

步骤六、将存储到组合词字典中的组合词的权重值设定为形成该组合词的关键词的权重值之和；

步骤七、将组合词和关键词根据权重值的大小，联合排序；

步骤八、按照权重值从大到小的顺序，取指定数量的组合词和/或关键词作为标签。

优选的是，所述的文本智能提取标签的方法中，所述多个特征属性包括词频、词性和词长。

优选的是，所述的文本智能提取标签的方法中，每个关键词的权重值计算如下：关键词权重值＝1.5*词频+1.1*词性+0.9*词长，其中*代表乘号。

优选的是，所述的文本智能提取标签的方法中，将步骤四中的权重值进行升序排列，取排序前5％的关键词放入一级关键词字典。

优选的是，所述的文本智能提取标签的方法是，如果排序前5％的关键词的个数大于20，则取20个关键词；如果小于20，则选取所有的关键词。

优选的是，所述的文本智能提取标签的方法中，所述关键词的数据结构和所述组合词字典均保存在计算机内存中。

优选的是，所述的文本智能提取标签的方法中，在步骤五中还要建立一个容器链表，存储所有的满足中文语法的组合词。

优选的是，所述的文本智能提取标签的方法中，在步骤五和步骤六之间还包括遍历组合词容器链表，对于里面出现一次的词和重复词就行排除。

优选的是，所述的文本智能提取标签的方法中，在步骤四中还要建立一个一级关键词字典，其存储计算机内存中。

本发明的有益效果是：提供了一个对于文本进行标签精确提取的一种方法，使所提出的标签内容准确、合理、而且通过组合能够充分表达一段文本的核心思想。另外本发明可以进行算法的独立封装也可以进行组件封装，具有一定的通用性。同时本发明可以应用于一切需求进行文本标签提取的产品中，在使用方面有一定的广泛性。

附图说明

附图1为该方法的流程图。

具体实施方式

下面结合附图对本发明做进一步说明，以使本领域普通技术人员参照本说明书后能够据以实施。

如图1所示，本发明的一种文本智能提取标签的方法，包括如下步骤：

步骤一、系统接收用户输入的文本字符串，并且保存在内存。

步骤二、对所述的文本字符串使用中文分词算法进行关键词拆分。

步骤三、定义一个保存关键词的数据结构，里面包含词频、词长、词性等属性，通过中文分词算法拆解出来的每个词都要将里面的词长、词频、词性等属性信息抽取出来，并进行数值化，形成属性值。假如一篇文件的总词语数是100个，而词语“手机”出现了3次，那么“手机”一词在该文件中的词频就是0.03(3/100)。根据词长的不同，表述的内容的明确度不同，词长越长的属性值越高。例如1个字的词，定义词长属性值为1；2个字的词，定义词长属性值为2，等等。词性根据词在文本中的重要性进行设定属性值。例如名词为1.1，动词为1.2，助词为0.5等等。同时建立一个关键词存储的数据链表，把拆解出来的每个关键词都按词频、词长和词性的属性值的数据结构进行存储，保存在内存中。例如：“手机”就是词频0.03，词长2，词性1.1，将此数值保存在建立好的关键词存储的数据链表中。

步骤四、遍历步骤三所述的关键词链表，分别取出每一个关键词对象，通过公式：权重＝1.5*词频+1.1*词性+0.9*词长，计算出每个关键词的权重，其中*代表乘号。例如“手机”的权重＝1.5*0.03+1.1*1.1+0.9*2。将每个关键词的权重值计算出来后，按照从大到小的顺序排列。取权重排列在前5％的关键词建立一个临时的一级关键词字典Dictionary<WordInfo，double>，保存在内存里。如果权重值排列前5％的关键词的数量大于20个那么就取20个，如果小于20个那么就全部选为一级关键词存储在一级关键词字典里。

步骤五、遍历一级关键词字典，取出每个关键词进行词间组合，对形成的组合词进行中文语法算法判断，同时建立一个组合词字典Dictionary<string，double[]>，将符合中文语法的组合词存储到组合词字典中，不符合的直接跳转，重复这一过程，直到遍历一级关键词字典，完成所有一级关键词的此间组合。

步骤六、建立一个容器链表List<string>bestKeyWordList，遍历组合词字典，将所有的符合中文语法的组合词存储在容器链表里，其中组合词的权重是进入一级关键词的单个词的权重之和。

步骤七、遍历组合词容器链表，将其中只出现一次的词和重复词排除。

步骤八、对组合容器链表和关键词字典进行联合排序，以权重值为依据进行升序排序。从内存中取指定数量的组合词和/或关键词作为标签。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种文本智能提取标签的方法，其特征在于，包括以下步骤：

步骤一、接收待提取标签的文本字符串；

步骤七、将组合词和关键词根据权重值的大小，联合排序；

2.如权利要求1所述的文本智能提取标签的方法，其特征在于，所述多个特征属性包括词频、词性和词长。

3.如权利要求2所述的文本智能提取标签的方法，其特征在于，每个关键词的权重值计算如下：关键词权重值＝1.5*词频+1.1*词性+0.9*词长，其中*代表乘号。

4.如权利要求3所述的文本智能提取标签的方法，其特征在于，将步骤四中的权重值进行升序排列，取排序前5％的关键词放入一级关键词字典。

5.如权利要求4所述的文本智能提取标签的方法，其特征在于，如果排序前5％的关键词的个数大于20，则取20个关键词；如果小于20，则选取所有的关键词。

6.如权利要求1所述的文本智能提取标签的方法，其特征在于，所述关键词的数据结构和所述组合词字典均保存在计算机内存中。

7.如权利要求1所述的文本智能提取标签的方法，其特征在于，在步骤五中还要建立一个容器链表，存储所有的满足中文语法的组合词。

8.如权利要求1所述的文本智能提取标签的方法，其特征在于，在步骤五和步骤六之间还包括遍历组合词容器链表，对于里面出现一次的词和重复词就行排除。

9.如权利要求1所述的文本智能提取标签的方法，其特征在于，在步骤四中还要建立一个一级关键词字典，其存储计算机内存中。