CN102289523A - 一种文本智能提取标签的方法 - Google Patents
一种文本智能提取标签的方法 Download PDFInfo
- Publication number
- CN102289523A CN102289523A CN2011102796322A CN201110279632A CN102289523A CN 102289523 A CN102289523 A CN 102289523A CN 2011102796322 A CN2011102796322 A CN 2011102796322A CN 201110279632 A CN201110279632 A CN 201110279632A CN 102289523 A CN102289523 A CN 102289523A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- speech
- weighted value
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 26
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract 2
- 238000005303 weighing Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本智能提取标签的方法。该方法通过在内存中对文本字符串使用中文分词算法进行关键词拆分,然后根据词频、词长、词性等计算出词的权重,按词的权重进行倒序排序,取出指定数量的词作为结果输出。该方法的特点是,所有算法全部在内存中处理,算法设计简明、高效,在分析速度上得到了有效的保证。对于一段文本经过了分词、权重、组词、过滤、排序等一系列过程的加工后,在标签的准确性上达到了一定的效果。本发明可以进行算法的独立封装也可以进行组件封装,具有一定的通用性,可以应用于一切需求进行文本标签提取的产品中,在使用方面有一定的广泛性。
Description
技术领域
本发明涉及人工智能领域的文本挖掘技术,特别涉及应用于互联网产品中对于文本的标签提取的文本挖掘技术。
背景技术
随着因特网的迅猛发展,网络上的信息与日俱增,互联网已成为人们获取信息的重要来源。因特网和信息技术的发展使我们正面临着一个信息过量而知识贫乏的困境。如何在海量信息中快速有效地发掘有价值和可利用的信息,准确地定位所需信息和作好信息过滤,已成为信息领域的主流技术。目前在互联网产品中很多地方都会通过使用标签来对该段文本所表达的核心思想进行描述,比如博客、微博等,这些产品中基本上都是采用文本提取技术,但是目前的这些产品中都会存在标签的提取不够准确,而且不能够表达核心思想的问题。因此如何快捷、准确地识别和获取有用信息显得越来越重要。
发明内容
本发明的目的在于提供一个对于文本进行标签精确提取的一种方法,不但能够使所提出的标签内容准确、合理、而且通过组合能够充分表达一段文本的核心思想。
本发明的另一个目的在于解决标签提取不够准确的问题,使文本的标签提取更加准确,而且可以较精确的表达本文的核心思想。公开了一种文本智能标签的方法。其步骤如下:
步骤一、接收待提取标签的文本字符串;
步骤二、对所述文本字符串使用中文分词算法进行关键词拆分;
步骤三、定义一个保存关键词的数据结构,里面包含词的多个特征属性,将步骤二中的每个关键词的各特征属性信息抽取出来,并进行数值化,形成属性值;
步骤四、对词的各特征属性分别赋予权重值,通过权重值与属性值的乘积求和,计算出各关键词的权重值,排列权重值,建立一个临时的一级关键词字典;
步骤五、将一级关键词字典里的每个关键词进行词间组合,对形成的组合词进行中文语法算法判断,如果符合中文语法,则存储到建立起的组合词字典中,如果不符合中文语法,则跳转到对下一个组合词进行判断,重复这一过程,直到完成所有关键词之间的组合方式;
步骤六、将存储到组合词字典中的组合词的权重值设定为形成该组合词的关键词的权重值之和;
步骤七、将组合词和关键词根据权重值的大小,联合排序;
步骤八、按照权重值从大到小的顺序,取指定数量的组合词和/或关键词作为标签。
优选的是,所述的文本智能提取标签的方法中,所述多个特征属性包括词频、词性和词长。
优选的是,所述的文本智能提取标签的方法中,每个关键词的权重值计算如下:关键词权重值=1.5*词频+1.1*词性+0.9*词长,其中*代表乘号。
优选的是,所述的文本智能提取标签的方法中,将步骤四中的权重值进行升序排列,取排序前5%的关键词放入一级关键词字典。
优选的是,所述的文本智能提取标签的方法是,如果排序前5%的关键词的个数大于20,则取20个关键词;如果小于20,则选取所有的关键词。
优选的是,所述的文本智能提取标签的方法中,所述关键词的数据结构和所述组合词字典均保存在计算机内存中。
优选的是,所述的文本智能提取标签的方法中,在步骤五中还要建立一个容器链表,存储所有的满足中文语法的组合词。
优选的是,所述的文本智能提取标签的方法中,在步骤五和步骤六之间还包括遍历组合词容器链表,对于里面出现一次的词和重复词就行排除。
优选的是,所述的文本智能提取标签的方法中,在步骤四中还要建立一个一级关键词字典,其存储计算机内存中。
本发明的有益效果是:提供了一个对于文本进行标签精确提取的一种方法,使所提出的标签内容准确、合理、而且通过组合能够充分表达一段文本的核心思想。另外本发明可以进行算法的独立封装也可以进行组件封装,具有一定的通用性。同时本发明可以应用于一切需求进行文本标签提取的产品中,在使用方面有一定的广泛性。
附图说明
附图1为该方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明,以使本领域普通技术人员参照本说明书后能够据以实施。
如图1所示,本发明的一种文本智能提取标签的方法,包括如下步骤:
步骤一、系统接收用户输入的文本字符串,并且保存在内存。
步骤二、对所述的文本字符串使用中文分词算法进行关键词拆分。
步骤三、定义一个保存关键词的数据结构,里面包含词频、词长、词性等属性,通过中文分词算法拆解出来的每个词都要将里面的词长、词频、词性等属性信息抽取出来,并进行数值化,形成属性值。假如一篇文件的总词语数是100个,而词语“手机”出现了3次,那么“手机”一词在该文件中的词频就是0.03(3/100)。根据词长的不同,表述的内容的明确度不同,词长越长的属性值越高。例如1个字的词,定义词长属性值为1;2个字的词,定义词长属性值为2,等等。词性根据词在文本中的重要性进行设定属性值。例如名词为1.1,动词为1.2,助词为0.5等等。同时建立一个关键词存储的数据链表,把拆解出来的每个关键词都按词频、词长和词性的属性值的数据结构进行存储,保存在内存中。例如:“手机”就是词频0.03,词长2,词性1.1,将此数值保存在建立好的关键词存储的数据链表中。
步骤四、遍历步骤三所述的关键词链表,分别取出每一个关键词对象,通过公式:权重=1.5*词频+1.1*词性+0.9*词长,计算出每个关键词的权重,其中*代表乘号。例如“手机”的权重=1.5*0.03+1.1*1.1+0.9*2。将每个关键词的权重值计算出来后,按照从大到小的顺序排列。取权重排列在前5%的关键词建立一个临时的一级关键词字典Dictionary<WordInfo,double>,保存在内存里。如果权重值排列前5%的关键词的数量大于20个那么就取20个,如果小于20个那么就全部选为一级关键词存储在一级关键词字典里。
步骤五、遍历一级关键词字典,取出每个关键词进行词间组合,对形成的组合词进行中文语法算法判断,同时建立一个组合词字典Dictionary<string,double[]>,将符合中文语法的组合词存储到组合词字典中,不符合的直接跳转,重复这一过程,直到遍历一级关键词字典,完成所有一级关键词的此间组合。
步骤六、建立一个容器链表List<string>bestKeyWordList,遍历组合词字典,将所有的符合中文语法的组合词存储在容器链表里,其中组合词的权重是进入一级关键词的单个词的权重之和。
步骤七、遍历组合词容器链表,将其中只出现一次的词和重复词排除。
步骤八、对组合容器链表和关键词字典进行联合排序,以权重值为依据进行升序排序。从内存中取指定数量的组合词和/或关键词作为标签。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (9)
1.一种文本智能提取标签的方法,其特征在于,包括以下步骤:
步骤一、接收待提取标签的文本字符串;
步骤二、对所述文本字符串使用中文分词算法进行关键词拆分;
步骤三、定义一个保存关键词的数据结构,里面包含词的多个特征属性,将步骤二中的每个关键词的各特征属性信息抽取出来,并进行数值化,形成属性值;
步骤四、对词的各特征属性分别赋予权重值,通过权重值与属性值的乘积求和,计算出各关键词的权重值,排列权重值,建立一个临时的一级关键词字典;
步骤五、将一级关键词字典里的每个关键词进行词间组合,对形成的组合词进行中文语法算法判断,如果符合中文语法,则存储到建立起的组合词字典中,如果不符合中文语法,则跳转到对下一个组合词进行判断,重复这一过程,直到完成所有关键词之间的组合方式;
步骤六、将存储到组合词字典中的组合词的权重值设定为形成该组合词的关键词的权重值之和;
步骤七、将组合词和关键词根据权重值的大小,联合排序;
步骤八、按照权重值从大到小的顺序,取指定数量的组合词和/或关键词作为标签。
2.如权利要求1所述的文本智能提取标签的方法,其特征在于,所述多个特征属性包括词频、词性和词长。
3.如权利要求2所述的文本智能提取标签的方法,其特征在于,每个关键词的权重值计算如下:关键词权重值=1.5*词频+1.1*词性+0.9*词长,其中*代表乘号。
4.如权利要求3所述的文本智能提取标签的方法,其特征在于,将步骤四中的权重值进行升序排列,取排序前5%的关键词放入一级关键词字典。
5.如权利要求4所述的文本智能提取标签的方法,其特征在于,如果排序前5%的关键词的个数大于20,则取20个关键词;如果小于20,则选取所有的关键词。
6.如权利要求1所述的文本智能提取标签的方法,其特征在于,所述关键词的数据结构和所述组合词字典均保存在计算机内存中。
7.如权利要求1所述的文本智能提取标签的方法,其特征在于,在步骤五中还要建立一个容器链表,存储所有的满足中文语法的组合词。
8.如权利要求1所述的文本智能提取标签的方法,其特征在于,在步骤五和步骤六之间还包括遍历组合词容器链表,对于里面出现一次的词和重复词就行排除。
9.如权利要求1所述的文本智能提取标签的方法,其特征在于,在步骤四中还要建立一个一级关键词字典,其存储计算机内存中。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2011102796322A CN102289523A (zh) | 2011-09-20 | 2011-09-20 | 一种文本智能提取标签的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2011102796322A CN102289523A (zh) | 2011-09-20 | 2011-09-20 | 一种文本智能提取标签的方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN102289523A true CN102289523A (zh) | 2011-12-21 |
Family
ID=45335949
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN2011102796322A Pending CN102289523A (zh) | 2011-09-20 | 2011-09-20 | 一种文本智能提取标签的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN102289523A (zh) |
Cited By (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
| CN103186662A (zh) * | 2012-12-28 | 2013-07-03 | 中联竞成(北京)科技有限公司 | 一种动态舆情关键词抽取系统和方法 |
| CN103235773A (zh) * | 2013-04-26 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 基于关键词的文本的标签提取方法及装置 |
| CN103377185A (zh) * | 2012-04-24 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种为短文本自动添加标签的方法及装置 |
| CN103440256A (zh) * | 2013-07-26 | 2013-12-11 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
| CN103533144A (zh) * | 2013-09-26 | 2014-01-22 | 华为技术有限公司 | 在移动通信设备的通话记录中保存关键字的方法及设备 |
| CN103678355A (zh) * | 2012-09-11 | 2014-03-26 | 富士通株式会社 | 文本挖掘方法和文本挖掘装置 |
| CN105159927A (zh) * | 2015-08-04 | 2015-12-16 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
| CN105630769A (zh) * | 2015-12-24 | 2016-06-01 | 东软集团股份有限公司 | 文档主题词提取方法及装置 |
| CN105740231A (zh) * | 2016-01-28 | 2016-07-06 | 浪潮软件股份有限公司 | 一种关联数据内容的方法及装置 |
| CN105893478A (zh) * | 2016-03-29 | 2016-08-24 | 广州华多网络科技有限公司 | 一种标签提取方法及设备 |
| CN103440256B (zh) * | 2013-07-26 | 2016-11-30 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
| CN106569989A (zh) * | 2016-10-20 | 2017-04-19 | 北京智能管家科技有限公司 | 一种用于短文本的去重方法及装置 |
| CN106610933A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 关键词标签的配置方法及装置 |
| CN106980667A (zh) * | 2017-03-22 | 2017-07-25 | 广州优视网络科技有限公司 | 一种给文章标注标签的方法和装置 |
| CN107704500A (zh) * | 2017-08-28 | 2018-02-16 | 昆明理工大学 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
| CN107748745A (zh) * | 2017-11-08 | 2018-03-02 | 厦门美亚商鼎信息科技有限公司 | 一种企业名称关键字提取方法 |
| CN108256024A (zh) * | 2018-01-10 | 2018-07-06 | 链家网(北京)科技有限公司 | 一种房源推荐方法 |
| CN110874534A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
| CN113918759A (zh) * | 2021-09-28 | 2022-01-11 | 湖北美和易思教育科技有限公司 | 基于bs架构的音频数据识别结果显示方法、系统及介质 |
| CN114417840A (zh) * | 2022-01-19 | 2022-04-29 | 上海待兔科技有限责任公司 | 从编程文章中提取文章标签的方法、设备以及存储介质 |
| CN115269842A (zh) * | 2022-07-29 | 2022-11-01 | 宁波深擎信息科技有限公司 | 一种智能标签生成方法、装置、计算机设备和存储介质 |
-
2011
- 2011-09-20 CN CN2011102796322A patent/CN102289523A/zh active Pending
Cited By (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103377185B (zh) * | 2012-04-24 | 2017-09-22 | 深圳市世纪光速信息技术有限公司 | 一种为短文本自动添加标签的方法及装置 |
| CN103377185A (zh) * | 2012-04-24 | 2013-10-30 | 腾讯科技(深圳)有限公司 | 一种为短文本自动添加标签的方法及装置 |
| CN103678355A (zh) * | 2012-09-11 | 2014-03-26 | 富士通株式会社 | 文本挖掘方法和文本挖掘装置 |
| CN103678355B (zh) * | 2012-09-11 | 2017-03-01 | 富士通株式会社 | 文本挖掘方法和文本挖掘装置 |
| CN102945290A (zh) * | 2012-12-03 | 2013-02-27 | 北京奇虎科技有限公司 | 微博热点话题挖掘装置及方法 |
| CN103186662A (zh) * | 2012-12-28 | 2013-07-03 | 中联竞成(北京)科技有限公司 | 一种动态舆情关键词抽取系统和方法 |
| CN103186662B (zh) * | 2012-12-28 | 2016-08-03 | 北京中油网资讯技术有限公司 | 一种动态舆情关键词抽取系统和方法 |
| CN103235773A (zh) * | 2013-04-26 | 2013-08-07 | 百度在线网络技术(北京)有限公司 | 基于关键词的文本的标签提取方法及装置 |
| CN103235773B (zh) * | 2013-04-26 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 基于关键词的文本的标签提取方法及装置 |
| CN103440256A (zh) * | 2013-07-26 | 2013-12-11 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
| CN103440256B (zh) * | 2013-07-26 | 2016-11-30 | 中国科学院深圳先进技术研究院 | 一种中文文字标签云自动生成方法及装置 |
| CN103533144A (zh) * | 2013-09-26 | 2014-01-22 | 华为技术有限公司 | 在移动通信设备的通话记录中保存关键字的方法及设备 |
| CN103533144B (zh) * | 2013-09-26 | 2017-06-06 | 华为技术有限公司 | 在移动通信设备的通话记录中保存关键字的方法及设备 |
| CN105159927B (zh) * | 2015-08-04 | 2019-03-15 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
| CN105159927A (zh) * | 2015-08-04 | 2015-12-16 | 北京金山安全软件有限公司 | 目标文本主题词的选取方法、装置及终端 |
| CN106610933A (zh) * | 2015-10-27 | 2017-05-03 | 北京国双科技有限公司 | 关键词标签的配置方法及装置 |
| CN105630769B (zh) * | 2015-12-24 | 2019-04-12 | 东软集团股份有限公司 | 文档主题词提取方法及装置 |
| CN105630769A (zh) * | 2015-12-24 | 2016-06-01 | 东软集团股份有限公司 | 文档主题词提取方法及装置 |
| CN105740231A (zh) * | 2016-01-28 | 2016-07-06 | 浪潮软件股份有限公司 | 一种关联数据内容的方法及装置 |
| CN105893478A (zh) * | 2016-03-29 | 2016-08-24 | 广州华多网络科技有限公司 | 一种标签提取方法及设备 |
| CN105893478B (zh) * | 2016-03-29 | 2019-10-29 | 广州华多网络科技有限公司 | 一种标签提取方法及设备 |
| CN106569989A (zh) * | 2016-10-20 | 2017-04-19 | 北京智能管家科技有限公司 | 一种用于短文本的去重方法及装置 |
| CN106980667A (zh) * | 2017-03-22 | 2017-07-25 | 广州优视网络科技有限公司 | 一种给文章标注标签的方法和装置 |
| WO2018171295A1 (zh) * | 2017-03-22 | 2018-09-27 | 广州优视网络科技有限公司 | 一种给文章标注标签的方法、装置、终端及计算机可读存储介质 |
| CN107704500A (zh) * | 2017-08-28 | 2018-02-16 | 昆明理工大学 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
| CN107704500B (zh) * | 2017-08-28 | 2021-05-14 | 昆明理工大学 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
| CN107748745A (zh) * | 2017-11-08 | 2018-03-02 | 厦门美亚商鼎信息科技有限公司 | 一种企业名称关键字提取方法 |
| CN108256024A (zh) * | 2018-01-10 | 2018-07-06 | 链家网(北京)科技有限公司 | 一种房源推荐方法 |
| CN110874534A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
| CN110874534B (zh) * | 2018-08-31 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
| CN113918759A (zh) * | 2021-09-28 | 2022-01-11 | 湖北美和易思教育科技有限公司 | 基于bs架构的音频数据识别结果显示方法、系统及介质 |
| CN114417840A (zh) * | 2022-01-19 | 2022-04-29 | 上海待兔科技有限责任公司 | 从编程文章中提取文章标签的方法、设备以及存储介质 |
| CN115269842A (zh) * | 2022-07-29 | 2022-11-01 | 宁波深擎信息科技有限公司 | 一种智能标签生成方法、装置、计算机设备和存储介质 |
| CN115269842B (zh) * | 2022-07-29 | 2025-10-10 | 宁波深擎信息科技有限公司 | 一种智能标签生成方法、装置、计算机设备和存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102289523A (zh) | 一种文本智能提取标签的方法 | |
| CN109885691B (zh) | 知识图谱补全方法、装置、计算机设备及存储介质 | |
| CN107204184B (zh) | 语音识别方法及系统 | |
| CN110807091B (zh) | 一种酒店智能问答推荐与决策支持分析方法及系统 | |
| CN107704503A (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
| CN104008106B (zh) | 一种获取热点话题的方法及装置 | |
| CN109086303A (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
| CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
| CN103679462A (zh) | 一种评论数据处理方法和装置、一种搜索方法和系统 | |
| CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
| CN103425691A (zh) | 一种搜索方法和系统 | |
| CN103823893A (zh) | 一种基于用户评论的产品检索方法及产品检索系统 | |
| CN109726298A (zh) | 适用于科技文献的知识图谱构建方法、系统、终端及介质 | |
| CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
| CN110516033A (zh) | 一种计算用户偏好的方法和装置 | |
| TW202001620A (zh) | 自動化網站資料蒐集方法 | |
| CN106484829A (zh) | 一种微博排序模型的建立及微博多样性检索方法 | |
| CN107798387A (zh) | 一种适用于高端装备全生命周期的知识服务系统及方法 | |
| CN108228676A (zh) | 信息抽取方法和系统 | |
| CN104484374A (zh) | 一种创建网络百科词条的方法及装置 | |
| CN106997341A (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
| CN103678336A (zh) | 实体词识别方法及装置 | |
| CN107463592A (zh) | 用于将内容项目与图像匹配的方法、设备和数据处理系统 | |
| CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
| CN105488136A (zh) | 选购热点标签的挖掘方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C12 | Rejection of a patent application after its publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111221 |