CN113239696A - 一种基于树状事件扁平化的文档级别多事件抽取方法 - Google Patents
一种基于树状事件扁平化的文档级别多事件抽取方法 Download PDFInfo
- Publication number
- CN113239696A CN113239696A CN202110571387.6A CN202110571387A CN113239696A CN 113239696 A CN113239696 A CN 113239696A CN 202110571387 A CN202110571387 A CN 202110571387A CN 113239696 A CN113239696 A CN 113239696A
- Authority
- CN
- China
- Prior art keywords
- event
- lps
- document
- ldf
- argument
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于树状事件扁平化的文档级别多事件抽取方法。该方法具体如下:1)将滑动窗口切分后的文档片段集合通过训练好的NER模型抽取出所有的论元实体;2)将平均置信度高于阈值的论元实体通过回溯算法生成所有语义合法的事件论元组合,把每个表示事件实例的事件论元组合填充到相应事件类型的句子模板中构造成相应的LPS;3)LPS通过递进式学习的方式构造成LDF,输入到训练好的AAM中预测包含的事件实例的真实性;4)选择分类类别为真且置信度高于阈值的事件实例作为预测的事件实例结果。本发明能够处理文档级别的多事件抽取任务,从较长的文本序列中抽取出多个事件实例,且性能优于现有的基线模型。
Description
技术领域
本发明属于文档级别事件抽取的技术领域,具体涉及一种基于扁平化树状事件结构并对序列化的事件实例进行真实性判别的方法。
背景技术
事件抽取(Event Extraction,EE)技术是构建结构化知识的一种关键技术,它的目标是快速地从生文本中抽取出事件实例,这些事件实例通常由一个事件类型和相应的论元参数(如参与者、时间、地点等)组成,因此一个事件实例可以表示为多叉树的数据结构,它有一个根结点(事件类型)和多个子节点(论元实体)。该技术可以应用于生物医疗语料库理解、风险分析和金融领域事件检索。
由于自然语言的特点是语义模糊性和不同的描述风格,加上事件实例存在不同的结构和成分,使得事件抽取依然是一个极具挑战性的任务。此外,事件抽取还和其他的自然语言处理任务息息相关,例如句法解析任务、词性标记(POS)任务和命名实体识别(NER)任务等,这些任务能够提升事件抽取的性能,也能够反过来降低事件抽取的性能,这都取决于这些相关任务的性能以及如何利用它们的输出。
目前大多数研究主要集中在句子级别的单事件抽取任务,这种任务相对简单,已有的语言模型对于句子级别的编码已经具备很好的效果,加上单事件的抽取任务本身比较单一,只需要确定句子中事件类型以及相应的事件论元即可。当延伸到文档级别的任务时,情况就有所不同了,首先文档序列普遍长度超过语言模型能编码的最大长度,这就使得编码序列的硬件成本变高、编码序列的准确度变低。倘若对文档进行切分,又会带来序列之间语义分割的问题,这便需要文档级别事件抽取算法的后续改进。其次文档中的论元会分散在不同句子当中,如何结合不同的句子中抽取出的论元也是一个问题,这又给任务添加了难度和挑战。
再往深度考虑的话,涉及到文档级别多事件抽取任务时,挑战和难度又更大了。一个文档中存在的多个事件可以是不同的事件类型,分散在不同的地方,而多个事件也存在共享论元的情况,引入论元实体嵌套问题。这些都是文档级别事件抽取存在的挑战,相比于句子级别的任务,需要更多的技术探究。
发明内容
为了解决技术背景的文档级别多事件抽取相关问题,本发明提供了一种基于扁平化事件结构的文档级别多事件抽取方法。该方法能够让模型处理序列长度过长的文档,避开事件论元共享问题,克服多个事件元素分散问题,从实体的角度序列化事件实例,提升文档级别的多事件抽取性能。该方法能被运用于中文金融领域文档的场景中。
为了达到上述目的,本方法的训练过程具体步骤如下:
一种基于树状事件扁平化的文档级别多事件抽取方法,其包括如下步骤:
S1、使用滑动窗口将文档切分为片段集合,且每两个相邻滑动窗口之间均具有保证相邻文档片段连续性的重叠部分;
S2、利用经过训练的命名实体识别(NER)模型,从切分后的文档片段集合中抽取出事件论元实体;
S3、对抽取出的事件论元实体进行筛选,筛选出实体平均置信度高于第一阈值的事件论元实体,随后对筛选出的事件论元实体使用回溯算法生成所有语义合法的事件论元组合,每个事件论元组合作为一个事件实例,把每个事件论元组合填充到相应事件类型的句子模板中构造成语言模板句子LPS;
S4、将每个LPS通过递进式学习方法与上下文文档片段依次拼接成LPS和文档片段的组合LDF,每一个LPS均对应一个LDF,且依次拼接的过程中,需要逐步增加历史的LPS以降低文档片段的影响,增强当前LPS与历史LPS之间的交互;然后利用经过训练的真实性判别模型,对每个LDF表示的事件实例进行真实性判别,将被判别结果为真且置信度高于第二阈值的事件实例作为最终抽取的事件实例结果。
作为优选,所述语言模板句子LPS是一个描述事件实例的完整句子,其句子模板是预先构建的,句子模板中的每个论元部分都是挖空的空槽,并且每个论元实体只能填充到相同论元类型的空槽中,不同的事件类型对应着不同描述内容的句子模板。
作为优选,所述真实性判别模型包含输入层、编码层、向量表示层和二元分类层;
其中,在输入层中,以所述LDF作为输入;在编码层中,基于预训练语言模型BERT对当前输入的LDF中的所有句子序列进行编码,形成LDF的句向量序列;在向量表示层中,将句向量序列输入Bi-GRU模型中获得LDF的表示向量,用于表示当前LPS、历史LPS以及文档上下文片段的交互信息;在二元分类层中,将LDF的表示向量进行二分类,输出代表LDF对应事件实例真实性的分类结果以及置信度。
作为优选,将每个LPS通过递进式学习方法与文档片段依次拼接成LDF的具体方法为:
首先,按序取第一个LPS,将其与所述片段集合中的前N-1个文档片段进行拼接,组成第一个LDF;其中N为LDF所能容纳的最大句子数目;
然后,对于后续任意一个新的LPS,在前一个LDF基础上进行构建:若前一个LDF中的LPS数量低于最大LPS桶大小,则引入新的LPS并保留已有的历史LPS,同时去掉排序靠后的一个文档片段;若前一个LDF中的LPS数量已达到最大LPS桶大小,则引入新的LPS并按照先进先出的原则去掉一个历史LPS,同时保留上一个LDF的文档片段。
作为优选,所述真实性判别模型预先利用带有正负标签的LPS样本进行训练。
进一步的,通过计算二元分类的交叉熵对真实性判别模型进行反向传播,从而训练模型的权重参数。
进一步的,所述带有正负标签的LPS样本构建方法为:对从文档中筛选出的事件论元实体使用回溯算法生成所有语义合法的事件论元组合,当一个事件论元组合全部包含在文档的事件标签中时,它被定义为正样本,否则就是负样本,将这些正负样本的事件论元组合填充到对应事件类型的句子模板中,获得带有正负标签的LPS样本。
作为优选,所述命名实体识别(NER)模型为预训练的语言模型BERT。
本发明相对于现有技术而言,具有以下有益效果:
1)本发明能够处理文档级别的多事件抽取任务,从较长的文本序列中抽取出多个事件实例;2)本发明能够解决文档中多个事件分散导致事件语义分散的问题,提高多事件抽取的性能;3)本发明从论元实体的角度将树状事件结构扁平化为序列,可以避免多个事件共享论元的问题。
附图说明
图1是本发明的整体流程示意图;
图2是使用回溯算法生成事件论元组合的示例;
图3是把事件论元组合构造成LPS的示例;
图4是递进式学习方法构造LDF示例。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例和附图对技术方案进行描述。值得注意的是,所描述的实施例仅仅是本申请中的一部分实施例,而不是全部的实施例。
如图1所示,为一种基于树状事件扁平化的文档级别多事件抽取方法的流程示意图,该方法抽取文档中事件的具体步骤如下:
S1、使用滑动窗口将文档切分为片段集合,且每两个相邻滑动窗口之间均具有保证相邻文档片段连续性的重叠部分。由此,整个文档被滑动窗口切分为按序排列的片段,其滑动窗口的顺序记为文档的先后顺序。
S2、利用经过训练的命名实体识别(NER)模型,从切分后的文档片段集合中抽取出事件论元实体。NER模型的具体形式不限,只要能够实现命名实体识别即可,本发明中可基于预训练的语言模型BERT。抽取出的事件论元实体均带有其实体平均置信度(实体得分)。
S3、对抽取出的事件论元实体进行筛选,筛选出实体平均置信度高于第一阈值的事件论元实体,置信度过低的实体则进行筛除。第一阈值的具体取值可根据实际进行调整优化。随后对筛选出的事件论元实体使用回溯算法生成所有语义合法的事件论元组合,每个事件论元组合作为一个事件实例,把每个事件论元组合填充到相应事件类型的句子模板中构造成语言模板句子LPS。
所谓语言模板句子LPS是一个描述事件实例的完整句子,它具备完整的语义表述,构造的每个LPS表示一个序列结构的事件实例,构造方法是将抽取的事件论元组合填充到对应事件类型的句子模板中。其中所采用的句子模板是预先构建的,而且不同的事件类型对应着不同描述内容的句子模板。句子模板中的每个论元部分都是挖空的空槽,并且每个论元实体只能填充到相同论元类型的空槽中。举例而言,对于事件类型为股东增持的语言模板句子,其采用的句子模板可以为:_______于_______通过上海证券交易所集中竞价交易系统增持_______股票。该句子模板中,第1个空槽填写股东姓名,第2个空槽填写增持时间,第三个空槽填写增持的金额。其中一个LPS举例为:张斌先生于2020年2月3日通过上海证券交易所集中竞价交易系统增持27,000股股票。当然,具体的句子模板可以根据每一种事件类型进行确定,不作限制。本发明中,用于构造LPS的句子模板可根据原始数据集的句法分析和先验知识构建。
S4、将每个LPS通过递进式学习方法与上下文文档片段依次拼接成LPS和文档片段的组合LDF,每一个LPS均对应一个LDF,且所谓递进式学习方法,即在依次拼接的过程中,需要逐步加入历史的LPS以降低文档片段的影响,增强当前LPS与历史LPS之间的交互;然后利用经过训练的真实性判别模型 (AAM),对每个LDF表示的事件实例进行真实性判别,将被判别结果为真且置信度高于第二阈值的事件实例作为最终抽取的事件实例结果。
在本发明中,每一个LPS和每一个文档片段均可视为是一个句子。因此,将每个LPS通过递进式学习方法与文档片段依次拼接成LDF的具体方法可表述如下:
首先,按序取第一个LPS,将其与前述片段集合中的前N-1个文档片段进行拼接,组成第一个LDF;其中N为LDF所能容纳的最大句子数目。
然后,对于后续任意一个新的LPS,在前一个LDF基础上进行构建:若前一个LDF中的LPS数量低于最大LPS桶大小M,则引入新的LPS并保留已有的历史LPS,同时去掉排序靠后的一个文档片段;若前一个LDF中的LPS数量已达到最大LPS桶大小M,则引入新的LPS并按照先进先出的原则去掉一个历史LPS,同时保留上一个LDF的文档片段。
但是需要注意的是,如果片段集合中的文档片段数量本身不足N-1,那么在构建第一个LDF时实际仅需要将所有的文档片段与第一个LPS进行组合,即可得到第一个LDF。该过程亦可将剩余不足的文档片段视为是在LDF末尾用空文档片段补足。
举例而言,如图4所示,假设N=4,M=3,LPS按序记为LPS-0、LPS-1、 LPS-2、LPS-3。那么,第一个LDF即LDF-0是由第一个LPS和前3个文档片段F-0、F-1和F-2组成的。构建第二个LDF时,LDF-0中的LPS仅有1个,数量低于M,因此引入新的第二个LPS-1,保留历史LPS即LPS-0,去掉一个末尾的文档片段F-2,形成LDF-1。构建第三个LDF时,LDF-1中的LPS仅有2个,数量低于M,因此引入新的第三个LPS-2,保留历史LPS即LPS-0、LPS-1,去掉一个末尾的文档片段F-1,形成LDF-2。而构建第四个LDF时,LDF-2中的 LPS已有3个,达到了M,因此引入新的第四个LPS-3时应当对LPS序列按照先进先出的原则去掉最早进入的一个历史LPS即LPS-0,保留其余历史LPS即 LPS-1、LPS-2,剩余文档片段F-0保持不动,形成LDF-3。
这种递进式学习方法构建LDF过程中,随着递进式学习构造LDF的进行,后续构造的LDF对文档片段的依赖性逐渐降低,而与历史的LPS的交互性逐渐增强,可以提高最终的事件抽取性能。
另外,真实性判别模型可采用多种形式,在本发明中,真实性判别模型包含输入层、编码层、向量表示层和二元分类层。其中,在输入层中,以前述的LDF 作为输入,逐个输入编码层中进行事件实例真实性判别。而在编码层中,基于预训练语言模型BERT对当前输入的LDF中的所有句子序列进行编码,形成LDF 的句向量序列。在向量表示层中,将句向量序列输入Bi-GRU模型中获得LDF 的表示向量,用于表示当前LPS、历史LPS以及文档上下文片段的交互信息。最后,在二元分类层中,将LDF的表示向量进行二分类,输出代表LDF对应事件实例真实性的分类结果以及置信度。本发明中,分类结果可以是一个二维向量,以1代表LDF对应事件实例示真实的,0代表LDF对应事件实例不是真实的。
需注意的是,上述真实性判别模型预先利用带有正负标签的LPS样本进行训练。训练方法属于现有技术,可通过计算二元分类的交叉熵对真实性判别模型进行反向传播,从而训练模型的权重参数。
LPS包含正负样本,其中正样本主要来源于事件标签,负样本来源于训练好的NER模型的推理过程。具体而言,带有正负标签的LPS样本构建方法为:利用NER模型对从文档中筛选出置信度满足要求的事件论元实体,然后使用回溯算法生成所有语义合法的事件论元组合,当一个事件论元组合全部包含在文档的事件标签中时,它被定义为正样本,否则就是负样本,将这些正负样本的事件论元组合填充到对应事件类型的句子模板中,获得带有正负标签的LPS样本。
因此,基于上述训练后的真实性判别模型,就可以准确根据LDF判断其对应的事件实例是否真实,但即使判定为真实依然还需要核实其置信度,如果置信度过低依然需要筛除。只有被判别结果为真且置信度高于第二阈值的事件实例,才可以作为最终抽取的事件实例结果。需说明的是,一个文档中可能存在多个最终抽取的事件实例结果。
下面将上述图1所示的基于树状事件扁平化的文档级别多事件抽取方法,应用于一个具体实施例中,以展示其具体实现及效果。
实施例
1.事件论元抽取模块的构建及训练
事件实例在文档中表示为论元实体的组合,通过识别文档中出现的论元的属性,可以确定是什么样的事件,因此需要尽量抽取出文档中所有正确的论元实体,然后把相同事件类型的论元组合成对应的事件实例。这里把论元实体抽取任务看作序列标注任务,并且训练一个命名实体识别(NER)模型抽取文档中的论元实体,主要有以下步骤:
1)采用固定长度L1的滑动窗口对文档数据集T0中的文档进行切分,并且为了保持连续文本片段之间的连续性,每两个相邻的滑动窗口都有固定长度为L2 (L2<L1)的重叠部分,这样切分后的文本片段会保留相邻片段的部分信息,保证在抽取实体的过程中减少分割实体的数量。
2)将事件类型标签与论元类型标签进行拼接,形成新的NER标签“事件类型—论元类型”。给定这些文档片段和标签,采用BIO标签方案,将这些片段转化为带有BIO标签的序列,然后将这些带有BIO标签的序列构造成数据集T1。
3)使用一个简单的NER模型来训练语料,它由两部分组成:一个BERT用于编码文档片段序列,一个全连接层用于预测BIO标签。使用数据集T1来训练和评估NER模型,本实施例中文档数据集T0按照7:2:1的比例划分为训练集、验证集和测试集,使用训练集来训练NER模型,使用验证集和测试集来评估模型,最后得到一个性能最好的NER模型用于后续进行实体抽取。
2.LPS的构造
语言模板句子(LPS)是一个描述事件实例的完整句子,它具备完整的语义表述,训练模型需要构造正负标签的LPS,主要有以下步骤:
1)将文档的事件标签的论元填充到对应事件类型的句子模板中,可以获得正标签的LPS样本。
2)使用训练好的NER模型抽取出“事件类型—论元类型”的所有实体并且获得相应的实体平均置信度(实体得分),选择实体平均置信度高于阈值TS1的论元实体。
3)按照不同的事件类型把筛选后的论元实体分成不同的集合{E1,E2,…,Ek},然后对于每个事件类型集合Ei,再按照论元类型把这些论元实体分成不同的集合这样便可以获取一个最终的集合在每个Ei中使用回溯算法生成所有的事件论元组合,具体样例如图2所示;
4)当一个事件论元组合全部包含在文档的事件标签中时,它被定义为正样本,否则就是负样本,将这些正负样本的事件论元组合填充到对应事件类型的句子模板中,获得带有正负标签的LPS样本,针对前后两个文档片段S(j)和S (j+1)构造LPS的具体样例如图3所示。
3.AAM的训练
AAM的输入是LDF,构造LDF以及训练AAM的步骤如下:
1)通过前述的递进式学习方法将LPS、历史的LPS以及文档片段拼接起来,构造成每一个LPS对应的LDF,构造LDF的具体样例如图4所示。
2)在LDF的输入后,首先使用BERT获取句子向量的序列,然后将序列输入Bi-GRU获取LDF的表示向量,最后将LDF的表示向量输入到二元分类层,输出一个二维向量的分类结果,通过计算二元分类的交叉熵对AAM进行反向传播训练模型的权重参数。
当完成上述AAM的训练后,即可用于目标文档的事件抽取。本实施例的具体推理过程具体步骤如下:
1.用滑动窗口对目标文档进行切分,将滑动窗口切分的文档片段集合通过训练好的NER模型抽取出所有的论元实体。
2.将平均置信度高于阈值TS1的论元实体通过回溯算法生成所有语义合法的事件论元组合,把每个表示事件实例的事件论元组合填充到相应事件类型的句子模板中构造成相应的LPS。
3.LPS通过“递进式学习”的方式构造成LDF,输入到训练好的AAM中预测包含的事件实例的真实性,若真实则分类类别为1,否则为0。
4.选择分类类别为1且置信度高于阈值TS2的事件实例作为预测的事件实例结果。
本实施例采用的CCKS-2020(https://www.biendata.xyz/competition/ccks_2020_4_2/data/)金融领域事件抽取数据集作为一个事件抽取任务,由3956个文档组成,这些文档主要来自中文金融领域的新闻和公告文本,一共有9种事件类型,分别是:高层死亡、破产清算、重大资产损失、重大安全事故、重大对外赔付、股权冻结、股权质押、股东增持和股东减持。为了更好地验证低资源数据集对模型性能的影响,本实施例按照相同的分布从原始数据集中随机抽取10%的样本构造为CCKS-10%数据集和50%的样本构造为CCKS-50%数据集,以及单独取出多事件类型文档构建CCKS-Multi数据集。对于每个数据集,本实施例按照7:2: 1的比例将其分成训练集、验证集和测试集。需要注意的是,多事件类型文档占原始数据集的18.5%。
文档级别事件抽取的最终目标是尽可能正确地抽取出事件实例。因此,本实施例通过直接比较抽取出的事件实例和事件标签来评估文档级别事件抽取任务,具体来说,对于每个文档,选择一个抽取的事件实例和一个最相似的事件标签,在不替换的情况下,统计并计算真阳性(TP)、假阳性(FP)和假阴性(FN),直到没有事件实例剩余。汇总所有评估过的文档后,可以计算精确度、召回率和F1分数。由于一个文档会包含多个事件实例,本实施例计算微平均F1值作为最后的评价指标,以体现本发明方法(为叙述方便,下面将本实施例中的方法记为FTE)的性能。
为了验证LPS和AAM的重要性,本实施例在FTE方法的基础上去除LPS 和AAM模块,构造成基于NER的事件抽取模型—NBEE。NBEE模型抽取“事件类型—论元类型”实体后,不需要构造LPS和训练AAM,直接对实体进行阈值TS1筛选,然后将筛选后的实体组合成事件集合,构造出所有的事件实例组合。可以看出,NBEE是FTE的一个消融模型。
Doc2EDAG是一种非常创新的方法(Shun Zheng,Wei Cao,Wei Xu,and JiangBian.2019.Doc2edag:An end-to-end document-level framework for chinesefinancial event extraction.In Proceedings of the 2019 Conference on EmpiricalMethods in Natural Language Processing and the 9th International JointConference on Natural Language Processing,EMNLP-IJCNLP 2019,Hong Kong,China,November 3-7,2019,pages 337–346.Association for Computational Linguistics.),它将事件的抽取过程构造为一个基于实体的有向无环图,该端到端的方法很适合处理文档级别的多事件抽取任务,并且模型结构和FTE大相径庭,因此在本实施例中用来和FTE方法进行对比。
综上所述,本实施例选择了两种基线模型与FTE方法进行比较,分别是 NBEE和Doc2EDAG。
FTE超参数设置:在NER训练步骤中,本实施例选择对中文任务适应性较好的BERT-wwm-ext(Yiming Cui,Wanxiang Che,Ting Liu,Bing Qin,Ziqing Yang, Shijin Wang,and Guoping Hu.2019.Pre-training with whole word masking for chinesebert.arXiv preprint arXiv:1906.08101.)作为编码器,并将最大序列长度和滑动窗口回退分别设置为512和32。在训练过程中,本实施例采用Adam优化器,学习率为1-5,批处理量为16,最多训练30轮,通过验证集上的微平均 F1值选出最佳性能的模型权重。在LPS构造步骤中,本实施例设置论元实体过滤阈值TS1、滑动窗口回退、最大序列长度、最大句子数目和LDF的最大LPS 桶大小分别为0.7、32、256、64,来构建LPS和LDF。在训练AAM时,本实施例选择与NER步骤相同的编码器。在AAM推理步骤中,本实施例设置分类置信度阈值TS2为0.9,以获得高置信度的事件实例。
Doc2EDAG超参数设置:本实施例设置最大句子数目为64,学习率为1e-4,训练批处理大小为4,训练轮次为20和适当的序列长度256对上述数据集进行实验,以尽可能在有限的显卡配置上获得最好的结果。
NBEE超参数设置:由于NBEE是基于NER模型的方法,因此本实施例选择最大序列长度为512以获取其最佳性能,训练过程中批处理大小为16,学习率为1e-5,训练轮次为30,推理过程中论元实体筛选阈值选择最佳性能对应的阈值。
将对FTE方法和基线方法在CCKS数据集的若干个衍生数据集上的性能比较做一个详细分析,并且附上实验数据表格以供参考。实验数据为数据集总体的评测指标结果,M-表示多事件类型性能指标,S-表示单事件类型性能指标。具体结果参见表1,可以明显发现本发明的FTE方法优于两种基线方法。
表1 两种基线方法和FTE在四个不同数据集上的结果
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (8)
1.一种基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,包括如下步骤:
S1、使用滑动窗口将文档切分为片段集合,且每两个相邻滑动窗口之间均具有保证相邻文档片段连续性的重叠部分;
S2、利用经过训练的命名实体识别(NER)模型,从切分后的文档片段集合中抽取出事件论元实体;
S3、对抽取出的事件论元实体进行筛选,筛选出实体平均置信度高于第一阈值的事件论元实体,随后对筛选出的事件论元实体使用回溯算法生成所有语义合法的事件论元组合,每个事件论元组合作为一个事件实例,把每个事件论元组合填充到相应事件类型的句子模板中构造成语言模板句子LPS;
S4、将每个LPS通过递进式学习方法与上下文文档片段依次拼接成LPS和文档片段的组合LDF,每一个LPS均对应一个LDF,且依次拼接的过程中,需要逐步增加历史的LPS以降低文档片段的影响,增强当前LPS与历史LPS之间的交互;然后利用经过训练的真实性判别模型,对每个LDF表示的事件实例进行真实性判别,将被判别结果为真且置信度高于第二阈值的事件实例作为最终抽取的事件实例结果。
2.如权利要求1所述的基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,所述语言模板句子LPS是一个描述事件实例的完整句子,其句子模板是预先构建的,句子模板中的每个论元部分都是挖空的空槽,并且每个论元实体只能填充到相同论元类型的空槽中,不同的事件类型对应着不同描述内容的句子模板。
3.如权利要求1所述的基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,所述真实性判别模型包含输入层、编码层、向量表示层和二元分类层;
其中,在输入层中,以所述LDF作为输入;在编码层中,基于预训练语言模型BERT对当前输入的LDF中的所有句子序列进行编码,形成LDF的句向量序列;在向量表示层中,将句向量序列输入Bi-GRU模型中获得LDF的表示向量,用于表示当前LPS、历史LPS以及文档上下文片段的交互信息;在二元分类层中,将LDF的表示向量进行二分类,输出代表LDF对应事件实例真实性的分类结果以及置信度。
4.如权利要求1所述的基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,将每个LPS通过递进式学习方法与文档片段依次拼接成LDF的具体方法为:
首先,按序取第一个LPS,将其与所述片段集合中的前N-1个文档片段进行拼接,组成第一个LDF;其中N为LDF所能容纳的最大句子数目;
然后,对于后续任意一个新的LPS,在前一个LDF基础上进行构建:若前一个LDF中的LPS数量低于最大LPS桶大小,则引入新的LPS并保留已有的历史LPS,同时去掉排序靠后的一个文档片段;若前一个LDF中的LPS数量已达到最大LPS桶大小,则引入新的LPS并按照先进先出的原则去掉一个历史LPS,同时保留上一个LDF的文档片段。
5.如权利要求1所述的基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,所述真实性判别模型预先利用带有正负标签的LPS样本进行训练。
6.如权利要求5所述的基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,通过计算二元分类的交叉熵对真实性判别模型进行反向传播,从而训练模型的权重参数。
7.如权利要求5所述的基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,所述带有正负标签的LPS样本构建方法为:对从文档中筛选出的事件论元实体使用回溯算法生成所有语义合法的事件论元组合,当一个事件论元组合全部包含在文档的事件标签中时,它被定义为正样本,否则就是负样本,将这些正负样本的事件论元组合填充到对应事件类型的句子模板中,获得带有正负标签的LPS样本。
8.如权利要求1所述的基于树状事件扁平化的文档级别多事件抽取方法,其特征在于,所述命名实体识别(NER)模型为预训练的语言模型BERT。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110571387.6A CN113239696B (zh) | 2021-05-25 | 2021-05-25 | 一种基于树状事件扁平化的文档级别多事件抽取方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202110571387.6A CN113239696B (zh) | 2021-05-25 | 2021-05-25 | 一种基于树状事件扁平化的文档级别多事件抽取方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN113239696A true CN113239696A (zh) | 2021-08-10 |
| CN113239696B CN113239696B (zh) | 2024-01-05 |
Family
ID=77138675
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202110571387.6A Active CN113239696B (zh) | 2021-05-25 | 2021-05-25 | 一种基于树状事件扁平化的文档级别多事件抽取方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN113239696B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114817553A (zh) * | 2021-11-23 | 2022-07-29 | 科大讯飞股份有限公司 | 知识图谱构建方法、知识图谱构建系统和计算设备 |
| CN115422935A (zh) * | 2022-08-19 | 2022-12-02 | 达而观信息科技(上海)有限公司 | 一种航空发动机故障模式提取方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050049852A1 (en) * | 2003-09-03 | 2005-03-03 | Chao Gerald Cheshun | Adaptive and scalable method for resolving natural language ambiguities |
| WO2008031625A2 (en) * | 2006-09-15 | 2008-03-20 | Exbiblio B.V. | Capture and display of annotations in paper and electronic documents |
| CN107371040A (zh) * | 2017-08-28 | 2017-11-21 | 荆门程远电子科技有限公司 | 一种无人机影像高效处理系统 |
| CN112446224A (zh) * | 2020-12-07 | 2021-03-05 | 北京彩云环太平洋科技有限公司 | 平行语料处理方法、装置、设备及计算机可读存储介质 |
| CN112528676A (zh) * | 2020-12-18 | 2021-03-19 | 南开大学 | 文档级别的事件论元抽取方法 |
-
2021
- 2021-05-25 CN CN202110571387.6A patent/CN113239696B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050049852A1 (en) * | 2003-09-03 | 2005-03-03 | Chao Gerald Cheshun | Adaptive and scalable method for resolving natural language ambiguities |
| WO2008031625A2 (en) * | 2006-09-15 | 2008-03-20 | Exbiblio B.V. | Capture and display of annotations in paper and electronic documents |
| CN107371040A (zh) * | 2017-08-28 | 2017-11-21 | 荆门程远电子科技有限公司 | 一种无人机影像高效处理系统 |
| CN112446224A (zh) * | 2020-12-07 | 2021-03-05 | 北京彩云环太平洋科技有限公司 | 平行语料处理方法、装置、设备及计算机可读存储介质 |
| CN112528676A (zh) * | 2020-12-18 | 2021-03-19 | 南开大学 | 文档级别的事件论元抽取方法 |
Non-Patent Citations (2)
| Title |
|---|
| 张雪;孙宏宇;辛东兴;李翠平;陈红;: "自动术语抽取研究综述", 软件学报, no. 07 * |
| 董一鸿, 庄越挺: "基于新型的竞争型神经网络的Web日志挖掘", 计算机研究与发展, no. 05 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114817553A (zh) * | 2021-11-23 | 2022-07-29 | 科大讯飞股份有限公司 | 知识图谱构建方法、知识图谱构建系统和计算设备 |
| CN115422935A (zh) * | 2022-08-19 | 2022-12-02 | 达而观信息科技(上海)有限公司 | 一种航空发动机故障模式提取方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN113239696B (zh) | 2024-01-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112528676B (zh) | 文档级别的事件论元抽取方法 | |
| CN111382575A (zh) | 一种基于联合标注和实体语义信息的事件抽取方法 | |
| CN111144131A (zh) | 一种基于预训练语言模型的网络谣言检测方法 | |
| CN112417854A (zh) | 中文文档抽取式摘要方法 | |
| CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
| CN113869055B (zh) | 基于深度学习的电网项目特征属性识别方法 | |
| CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
| CN110781290A (zh) | 一种长篇章结构化文本摘要提取方法 | |
| CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
| CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
| CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
| CN117873487B (zh) | 一种基于gvg的代码函数注释生成方法 | |
| CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
| CN116523402B (zh) | 一种基于多模态数据的网络学习资源质量评估方法及系统 | |
| CN113239696A (zh) | 一种基于树状事件扁平化的文档级别多事件抽取方法 | |
| CN114925689A (zh) | 一种基于bi-lstm-mhsa的医疗文本分类方法及装置 | |
| Yang et al. | Ensemble sentiment analysis method based on R-CNN and C-RNN with fusion gate | |
| CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
| CN115994204A (zh) | 适用于少样本场景的国防科技文本结构化语义分析方法 | |
| CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
| CN111309849B (zh) | 一种基于联合学习模型的细粒度数值信息抽取方法 | |
| CN117807492A (zh) | 基于文本相似度与深度学习的摘要来源检测方法 | |
| CN114462386B (zh) | 一种基于深度学习的端到端篇章事件抽取方法及系统 | |
| CN117390189A (zh) | 基于前置分类器的中立文本生成方法 | |
| CN110990385A (zh) | 一套基于Sequence2Sequence的自动生成新闻标题的软件 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |