封闭域深度学习事件抽取方法研究综述

【www.zhangdahai.com--其他范文】

焦磊,云静+,刘利民,郑博飞,袁静姝

1.内蒙古工业大学 数据科学与应用学院,呼和浩特010080

2.内蒙古自治区基于大数据的软件服务工程技术研究中心,呼和浩特010080

“事件”是指在某个特定的时间片段和地域范围内发生的,由一个或多个角色参与,由一个或多个动作组成的一件事情[1]。事件抽取作为自然语言处理(natural language processing,NLP)中的一项重要任务,在许多领域中都有着很高的应用价值,给人们带来了很大的便利。例如,从事件中提取出结构化信息可以填充知识库,为信息检索提供有价值的信息,以便进一步进行逻辑推理[2-3]。并且事件抽取也能用于政府公共事务管理,使相关人员及时掌握社会热点事件的爆发和演变,有助于当局迅速做出反应与决策[4-8]。在金融领域,事件抽取还可以帮助公司快速发现其产品的市场反应,并将推断用于风险分析和交易建议[9-11]。在生物医学领域,事件抽取可以用来识别科学文献中描述的生物分子(例如基因和蛋白质)的状态变化或多个生物分子之间的相互作用,以了解其性质和(或)发病机制[12]。简而言之,许多领域都可以从事件抽取技术和系统的进步中受益。

传统的事件抽取方法,需要进行特征设计,着重构建有效的特征来捕获文本中不同组成成分之间的关系,来提高事件抽取的性能。而深度学习事件抽取方法不仅可以自动构建语义特征,节省人工成本,还能自动组合构建更高级的语义特征,获得更加丰富的事件信息。近年来众多研究者利用深度学习模型实现事件抽取,取得很多突破性的进展。

面对众多的事件抽取方法,文献[1]较早对事件抽取方法进行归纳整理,为后续的相关工作提供了极大的帮助。但该文献更多是对事件抽取的任务进行定义,方法总结较少,对于发展趋势的描述较为模糊,存在一定的局限性。而当前调研文献的归纳方法较为简单,只是根据神经网络的不同而进行分类,并不能把握其背后的发展逻辑。本文通过大量调研,总结其方法思想,将深度学习事件抽取方法进行分类并详细介绍,最后总结对于事件抽取方法的发展趋势。

事件抽取作为自然语言处理中的一项重要技术,其目标是从新闻文本中提取出该新闻包含事件信息的元素,例如时间、人物、地点等。而封闭域事件抽取则是指事件抽取使用预定义的事件模式从文本中发现和提取所需的特定类型的事件并且进行实验的数据已通过人为定义标注,提供了评测的标准。

ACE 2005 是一个多语言语料库,新闻数据种类及来源较为广泛,并且由于其任务定义明确,故其成为事件抽取任务中最具影响力的标杆。国内外的研究大部分都在该数据集上进行实验,此后构建的事件抽取数据集也大多遵循其事件定义。综上所述,本文沿用ACE[13]中的术语定义事件结构:

(1)事件提及:描述事件的短语或句子,包括一个触发词和几个论元。

(2)事件触发词:能够清楚地表达事件发生的主词,通常是动词或名词。

(3)事件参数:在事件中充当参与者或具有特定角色的属性的实体、时间表达式或值。

(4)参数角色:指事件参数与其参与的事件之间的关系。

文献[14]首先提出将ACE 事件抽取任务分为四个子任务:触发词检测、事件类型识别、事件参数检测和参数角色识别。例如,在“5 月14 日,据《印度经济时报》报道,IBM 将裁员300 人,主要集中在软件服务部门。”这条新闻中存在“裁员”类型的事件。触发词识别器会首先识别句子中的事件提及并判断事件类型;
接着会提取出这条新闻中与“裁员”事件相关的事件参数(事件参数检测)并根据预定义好的事件结构标注出它们各自的参数角色。如图1 所示,图中左边是ACE 2005 中预先定义好的事件结构,右边的事件抽取模型代表触发词检测、事件类型识别、事件参数检测和参数角色识别四个任务,事件抽取模型根据预定义事件类型表提取出文本中包含的事件结构。

图1 封闭域事件抽取示例Fig.1 Example of closed domain event extraction

近年来,随着深度学习的发展,神经网络已经广泛地应用于自然语言处理任务中,并且取得了良好的处理效果[15-24]。研究者同样利用深度学习方法为事件抽取进行建模,并针对不同的应用场景,例如数据文本长度、数据量等,提出了不同的解决方案。本文根据不同的应用场景,将深度学习事件抽取方法分为句子级、篇章级、低资源事件抽取方法三大类,并对类别中的经典方法进行详细介绍。

2.1 句子级事件抽取

在句子级事件抽取研究中,根据子任务之间的相关性,研究者将事件抽取模型分为以下两个模块:

(1)事件检测模块:识别句子中的触发词并判断事件类型。事件检测模块一般包含特征提取层和分类层。特征提取层用来捕获文本中包含的高级语义信息,分类层则对文本中的每个字/词进行分类。最后根据分类结果识别触发词,完成事件检测。

(2)事件参数提取模块:识别句子中的实体并判断参数角色类型。在网络结构上,该模块与事件检测模块类似。但在参数角色识别时,模块要根据事件类型对事件参数进行分类。因此在构建事件参数提取模块时,需要导入事件检测模块的信息。

通过以上内容,可以看出两个模块之间具有较强的依赖关系。构建模块之间的关联不仅是句子级事件抽取方法的主要挑战,同时也是各个研究工作的不同之处。本文将按照不同的关联方法,对这些句子级事件抽取方法进行分类,并介绍每种分类中的代表性工作。

2.1.1 基于管道方式的事件抽取方法

使用深度学习实现事件抽取的过程中,最初工作者们使用管道(Pipeline)方式的思想实现事件抽取。即将事件抽取任务分解为一个类似流水线任务,对这两个模块分别建模,先识别出事件的类型,然后根据事件类型对其进行事件参数提取。图2 为管道模型的处理流程。

图2 管道式事件抽取模型处理流程Fig.2 Pipeline event extraction model flow chart

而对于神经网络的选择上,研究者最先提出使用卷积神经网络(convolutional neural networks,CNN)进行事件抽取。文献[25]是最早地将神经网络应用于事件抽取的研究工作之一,该方法基于CNN 进行建模。本文提出了一种动态多池卷积神经网络(dynamic multi-pooling convolutional neural networks,DMCNN),该方法通过动态卷积层分别提取单词和句子级别的文本特征,从而获取句子的各个部分的有效信息。DMCNN 的输入包含三部分:单词嵌入、位置嵌入以及事件类型嵌入。在事件检测时,使用DMCNN 对输入进行卷积提取语义特征后,将单词级别特征与句子级别特征分别池化获取信息,最后使用Softmax 分类得到触发词,如果存在触发词,则进行事件参数提取。在事件参数提取过程中,本文同样使用DMCNN进行事件参数提取。不同的是,在池化过程中,DMCNN 会对触发词以及候选的事件参数以及句子级别特征分别池化再进行分类。

此外也有一些工作者提出了基于CNN 改进的模型[26-29]。例如,文献[27]设计了一个语义增强的模型Dual-CNN(dual-representation convolutional neural network),它在传统的CNN 中增加了语义层来捕捉上下文信息。文献[28]提出了一种改进的CNN 模型PMCNN(Parallel multi-pooling convolutional neural networks)用于生物医学事件抽取。在获取文本深层表达特征时,PMCNN 会并行执行不同大小的滤波器,在不同的细粒度上对文本特征进行卷积操作,因此它可以捕获句子的组合语义特征。此外PMCNN 还利用基于依存关系的嵌入来表示单词的语义和句法表示,并采用校正的线性单元作为非线性函数。文献[29]使用自举(bootstrapping)的方法构建了全局上下文的表示,并将这种表示集成到CNN 事件抽取模型中。

但对上述使用CNN 的模型来说,因为CNN 会对连续的单词执行卷积操作,获取当前单词与其相邻单词的上下文关系,所以它们不能很好地捕捉到距离较远的两个单词之间潜在的相互依赖关系。而深度学习中的另一种经典神经网络——循环神经网络(recurrent neural network,RNN)可以利用直接或间接连接的任何两个单词之间的潜在依赖关系,这使得它能够广泛应用于许多自然语言处理任务[30],因此一些研究人员使用RNN 或者CNN+RNN 来进行事件抽取。文献[31]提出了一种方法,首先使用RNN 来获取文本在时序上的句子特征,然后使用了一个卷积层对文本进行卷积操作以获取短语级别的文本信息,最后将这两种特征信息融合后进行事件抽取。表1 总结了上述方法的贡献及其缺陷不足。

表1 基于管道模型的事件抽取方法总结Table 1 Summary of event extraction methods based on pipeline model

2.1.2 基于联合方式的事件抽取方法

基于联合方式的事件抽取方法就是利用触发词与事件参数之间的关系,为两个模块构建依赖关联,使得两个模块可以进行信息交互,达到抽取性能的提升。如图3 所示,联合模型利用触发词与事件参数之间的关联性为两个子任务构建依赖关系。文献[32]为事件抽取设计了一个双向循环神经网络体系结构(joint event extraction via recurrent neural networks,JRNN),该模型由双向循环神经网络组成,每个循环神经网络都由门控神经单元(gated recurrent unit,GRU)[33]构成。同时,为了构建两个模块之间的依赖关系,文献[32]利用记忆矩阵保存三种依赖信息:(1)触发词类型之间的依赖信息;
(2)事件参数之间的依赖信息;
(3)触发词和事件参数之间的依赖信息。该方法的联合提取阶段包括两部分:编码部分和预测部分。在编码部分,利用JRNN 捕获语义特征。在预测部分,在联合抽取时,先进行事件类型检测,然后将提取出的触发词也当作事件参数提取模块输入的一部分进行分类。最后对记忆矩阵进行更新,完成联合抽取过程。除此之外,句子中单词之间的关系也可以用来扩充基本的循环神经网络结构。例如,文献[34]通过将两个神经元的句法依赖连接添加到模型中,设计了一个dbRNN(dependency-bridgeRNN)。除了使用依赖桥之外,句子的句法依赖树也可以直接用来构建树结构的循环神经网络[35]。在经典的Bi-LSTM(bi-directional long short-term memory)的基础上,文献[36]通过转换用于中文事件检测的句法依赖分析器的原始依赖树进一步构建了以目标词为中心的依赖树。文献[37]提出用外部实体本体知识进一步扩充依赖树,用于生物医学事件抽取。文献[38]通过引入抽象语义表示(abstract meaning representation)图[39]来减少长依赖,同时使用了图卷积网络(graph convolutional network,GCN)[40-42]来对其建模。在输入层使用Bi-LSTM 对文本序列、词性嵌入、实体标签以及位置信息进行编码,然后使用图卷积网络进行句法信息特征提取。在联合抽取中使用的方法大体与JRNN 类似,不同的是,在触发词识别模块中使用自注意力机制来提升提取触发词的性能,然后将触发词和特征序列拼接作为事件参数提取模块的输入进行分类判断,损失函数使用联合负对数似然损失函数。虽然基于联合模型的事件抽取方法将子任务之间的关系连接起来减少传播误差,但与此同时也产生了训练困难、迁移性较差等问题。表2 总结了基于联合方式的事件抽取方法的贡献及不足。

表2 基于联合模型的事件抽取方法总结Table 2 Summary of event extraction methods based on joint model

图3 联合模型框架图Fig.3 Framework diagram of joint model

2.1.3 基于端到端的事件抽取方法

采用端到端(end-to-end)的思想构建网络模型,以纯文本作为输入,以事件结构作为输出。相较于上述两种事件抽取方法,端到端的事件抽取方法模型不再对某一任务单独设计模块,省去在每个任务执行前将数据重新标注输入的过程,达到简化模型和减少误差传播的效果。此外,得益于预训练语言模型(ELMO[43]、BERT[44]等)强大的语言表征和特征提取能力,研究者可以从阅读理解、文本生成等不同的角度重新审视事件抽取的任务结果,使得事件抽取的发展进入了一个新的阶段。本文从以下三种类型介绍基于端到端的事件抽取方法。

(1)基于序列标注的事件抽取方法

序列标注(sequence labeling)方法就是利用模型对文本序列中的每个位置标注一个相应的标签,在NER 中有着广泛的应用[15]。而在事件抽取中,事件参数本质就是一个在特定类型事件下扮演相应角色的实体。如图4 所示[45],当句子输入模型后,BERT 捕获句子中的语义特征并进行序列标注,然后使用CRF条件随机场(conditional random field,CRF)层约束生成的标签,最终得到每个实体的标注结果。这种方式简化了事件抽取,并且取得了不错的效果。但是面对事件抽取中角色重叠、同义消除等问题,还具有一定挑战性。

图4 BERT+CRF 实现事件抽取Fig.4 BERT+CRF for event extraction

针对角色重叠问题,文献[46]提出了一种基于预训练语言模型的多层标签指针网络(pre-trained language model based multi-layer label pointer-net,BMPN)。BMPN 在进行序列标注时,每个事件参数的起始位置都由一个头指针(start)和尾指针(end)组成的二分类网络确定,同时叠加多则二分类网络,便可以解决角色重叠问题。表3 总结了基于序列标注的事件抽取方法的贡献及不足。

表3 基于序列标注的事件抽取方法总结Table 3 Summary of event extraction methods based on sequence labeling

(2)基于机器阅读理解的事件抽取方法

基于机器阅读理解(machine reading comprehension,MRC)的事件抽取方法通过定义问题引导模型在文中找到答案。相较于以往的工作,MRC 方法并不依赖实体识别。另外,在不同的事件中,事件参数可能含有相同的语义相似性。通过MRC 方式能使模型更好地学习到不同事件参数之间的语义相似性,从而提高模型的泛化能力。

文献[47]是第一个基于MRC 的事件抽取方法。图5 为文献[47]的模型结构图,整体模型分为触发词识别和事件参数抽取两个阶段,触发词抽取和论元抽取均设置了问题模板。第一阶段,利用预先设定的触发词问题模板,识别文本中的触发词;
第二阶段,利用预先设定的参数模板识别事件参数。文中设计了三种抽取模板:针对触发词抽取阶段的问题模板,作者直接将触发词设计为问题(question);
对于事件参数抽取,根据事件参数的不同类型进行提问,例“who for person”“where for place”等;
最后一个问题模板则是针对触发词与事件参数之间的关系进行设计,例如“[who for person] is the [argument] in[trigger]?”。三个模板逐层递进,充分利用语义信息。而文献[48]针对问题模板定义过于复杂的问题,提出了一种更加抽象的定义方法,将参数模板定义为“Person-based”“Normal”“Place-based”三类。表4为基于MRC 的事件抽取方法的贡献及不足。

图5 基于MRC 的事件抽取方法Fig.5 Event ExtractionbyMRC

表4 基于MRC 的事件抽取方法总结Table 4 Summary of event extraction methods based on MRC

(3)基于模板提示的事件抽取方法

采用基于模板提示的方法,就是在模板的指导下进行事件的识别和抽取,模型从文本里找到“答案”并填充到问题模板中,属于序列生成任务。与MRC 的事件抽取方法类似,该方法并不依赖实体识别,同样具有较强的迁移性。但不同之处在于,基于模板提示的方法直接针对不同的事件类型构建模板,不需要对触发词以及事件参数单独构建,减少了额外的人工操作。

基于模板提示的事件抽取方法遵循序列生成任务中的Seq2Seq 方法,如图6 所示,模型将给定输入序列编码为隐藏状态,利用解码器将该隐藏状态解码为另一个序列并输出。文献[49]提出了一个基于模板提示的事件参数识别模型。该模型架构使用了预训练语言模型BART[50]、T5[51]。在进行事件参数抽取时,首先将模板和文本拼接输入到BART 编码器,然后编码器对模板中各个参数占位符进行信息交互,同时生成文本编码。最后BART 解码器根据文本编码中的词汇输出模板中的占位符生成对应的具体内容,完成事件抽取。文献[52]利用不同粒度的模板信息,构建了一个通用信息抽取(universal information extraction,UIE)模型。该模型设计了一种结构化模板,能够同时实现关系抽取、事件抽取等四种信息抽取任务。

图6 基于模板的事件抽取方法Fig.6 Event extraction method based on template

面对上述方法中人工构建的问题模板,文献[53]认为,人工构建的模板不一定最优,并且在抽取时只考虑当前事件类型,忽略了其他事件之间的联系。故文献[53]利用Prefix-Tuning(在保持模型参数固定的情况下,只对特定任务向量优化)方法融合上下文及特定事件类型信息的动态前缀,解决上述存在的问题。文献[54]研究了在抽取设置下的提示调优,并提出了一种新的方法实现论元抽取的参数交互。它扩展了基于问答的模型来处理多个参数抽取并利用了预训练模型的优势。该文献提出了三种类型模板:人工模板、融合模板和软提示模板。使得模型在句子和文档层面都具有不错的表现,并且简化了模板提示式设计的要求。表5 总结了基于模板提示的事件抽取方法的贡献及不足。

表5 基于模板提示的事件抽取方法总结Table 5 Summary of event extraction methods based on template

2.2 篇章级事件抽取方法

篇章级事件抽取方法是在文档层面进行事件抽取,更加贴近现实世界中的实际需要。由于文档由多条语句组成,包含更加复杂的全局语义特征。相较于句子级事件抽取方法,篇章级事件抽取方法不能单独依靠触发词识别事件,还需考虑不同句子的语义信息。除此之外,文档中待抽取的事件参数较为分散,如何让篇章级事件抽取方法准确识别事件参数是一个亟需解决的问题。

传统的句子级事件抽取一般分为触发词识别和事件参数提取两个过程,而文献[55]认为事件抽取的目标是识别事件类型并提取事件参数,而触发词只是这个任务的中间结果。并且在现实中,一类事件可能有多个触发词,若对数据进行触发词标注会消耗大量的人工成本。故基于无触发词的篇章级事件抽取方法成为主要的研究方法。

文献[56]提出了一个基于无触发词设计的篇章级别事件抽取模型Doc2EDAG。该模型的核心思想是将文档级别的事件表填充任务(document-level event table filling,DEE)转化为基于实体的有向无环图的路径扩展任务(entity-based directed acyclic graph,EDAG)。Doc2EDAG 首先将文档级别的文本信息编码并进行命名实体识别,然后在事件检测过程中设计了一种无触发词检测,利用线性分类器对输入中可能存在的事件进行事件触发检测;
在事件参数提取过程中,首先识别出每个实体的参数角色并将相同实体进行融合,然后在事件表填充时,根据事件参数提取预定义的顺序,使用有向无环图的路径扩展方法对其进行填充。另外在有向无环图路径扩展中还设计了一个记忆机制来对每个事件参数进行标记,以此解决同一事件参数属于不同事件类型的问题。图7为EDAG示意图。

图7 EDAG 示意图Fig.7 Schematic diagram of EDAG

除此之外,研究人员也提出了其他的无触发词事件抽取方法[47-48]。针对单事件条件,文献[47]提出了一个篇章级事件抽取模型ATTDEE(attention-based document-level event extraction),该模型的主要贡献在于使用文档中心句进行事件检测。该方法认为当一篇文档中包含一个事件时,总是存在一个提及事件发生且包含了最多关键参数的事件中心句,其他事件参数则有规律地分布在中心句的周围。而对于关键参数的定义,文献[57]采用了词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)方法,用于判断事件参数在文档中的重要程度。在抽取阶段,利用Transformer 根据事件参数的重要程度以及与中心句的距离进行抽取,简化了单事件抽取过程。而在多事件条件下,文献[58]利用Transformer 进行句子级编码,同时使用图神经网络(graph neural network,GNN)将实体句子之间的关系连接起来,获得更加丰富的文档级语义信息。另外,受到文献[56]的启发,该模型设计了一个追踪(Tracker)模块用于多事件填充。Tracker 模块按照预定义事件参数顺序,利用约束扩展树的方式进行路径扩展,并持续跟踪事件提取记录,在进行事件抽取时查询全局记忆,利用其他记录的相互依赖信息,预测参数角色,从而提升模型的性能。表6 总结了基于无触发词的事件抽取方法的贡献及不足。

表6 篇章级事件抽取方法总结Table 6 Summary of document-level event extraction methods

2.3 低资源事件抽取方法

由于深度学习方法需要调整神经网络中的大量参数,通常数据集越大,标注质量越好,模型的效果就越好。然而,数据集的标注是一项巨大的工作量,需要消耗大量的成本,因此许多的数据集标注规模并不大,存在覆盖领域小、标注质量差的问题。近年来,针对低资源下事件抽取效果差的问题,研究者提出利用小样本学习[59-60]、引入外部知识[61-63]等方法,来提升事件抽取模型的性能。

2.3.1 小样本事件抽取方法

小样本学习(few-shot learning,FSL)与传统监督学习不同,其思想是让模型学习不同类别之间的差异性,从而获得区分不同类别的能力。面对数据较少、样本分布稀疏等问题,小样本学习可以有效提高模型的识别性能和泛化能力。在事件抽取的研究中,研究者也提出了一些小样本学习方法,它们的一般过程为:使用训练集预训练一个相似判断网络,让其学习到不同事件类型之间的差异性。然后利用支持集提供的少量样本对网络进行微调,并为标签信息生成特征向量。最后在预测阶段,输入一个查询文本,模型生成对应的特征向量,将这个向量与标签向量进行比较,得到最终的分类结果。

目前小样本学习采用K-WayN-Shot(支持集中有K类,每类有N个样本)的采样方法。当N值较小时,模型可利用信息不充分,容易产生样本偏差问题。文献[59]提出了一种小样本事件检测方法,该方法利用动态神经网络(dynamic memory networks,DMN)进行建模。使用DMN 多次从事件提及中提取上下文信息,从而让模型学习更好的类型表示。面对同样的问题,文献[60]认为,此前的方法仅仅依赖查询实例与支持集之间的相似信息,并没有考虑支持集中的样本类别信息。为此,文献[60]在训练函数中加入类间和类内损失,以此进一步增强模型的类型表示能力。

2.3.2 引入外部知识的事件抽取方法

目前研究使用的数据集大多存在数据规模小、类型分布不均的问题,这些问题会造成模型在稀疏的数据上训练较差,而在密集的数据上过拟合。对此,研究者提出利用大型知识库扩展训练数据,从而提升模型识别性能[61-63]。

文献[61]认为,FrameNet 知识库包含大量的文本框架,每个文本框架由一个词汇单元(lexical unit)和多个框架元素(frame elements)构成,该结构与ACE 2005数据集中定义的事件结构十分类似。因此,文献[61]提出一种将FrameNet 的文本框架映射为ACE 事件结构的方法。首先,使用ACE 2005 数据集训练一个神经网络模型;
然后,使用该模型对FrameNet 的句子进行类型识别,得到初始分类结果;
最后,根据预先设计的假设对初始分类结果进行修正,得到扩展数据。

文献[62]提出利用远程监督[20]的方法对训练语料进行自动标注。该方法首先利用Freebase 挑选出每个事件类型中的关键事件参数,再根据关键事件参数确定表达事件的触发词。获得初始触发词集合后,通过词嵌入技术将其映射到FrameNet 中,筛选出置信度高的触发词。最后使用一种软远程监督的方法重新筛选和标注句子,从而得到自动标注的数据。

针对标记数据的长尾问题(即某种事件类型仅有少量的标记数据),文献[63]提出一种利用开放域触发词知识增强模型事件检测的方法。具体而言,文献[63]设计了一个师生(Teacher-Student)模型,首先使用WordNet 收集到的开放域触发词知识训练Teacher模型,然后在Student 模型训练时,使用没有知识增强的数据来模仿Teacher模型的输出,并利用KL 散度最小化概率分布之间的差异。最后,将Teacher 模型和Student模型进行联合优化,完成整体模型训练。

本章介绍封闭域事件抽取任务的数据资源。随着研究的发展,许多研究机构为事件抽取任务提供了数据支持,根据任务定义对数据进行人工标注,将其用于监督学习下的神经网络训练和测试中;
数据标注一般由具有专业领域知识的人员完成,标注后的数据标签可以认为是真实有效的。但是此种标注方法存在标注过程复杂、成本高昂的问题,导致许多公共数据集的规模以及覆盖性不高。

由于数据的来源有多种方式,并且需要尽可能贴近现实,在原始数据收集时,在收集数据时会进行数据分析,对于获取到的原始数据进行主题分类,得到这些数据的事件类型,例如人生、事故、组织行为等。然后针对以上每种事件类型的数据,会对其进行下一步的数据分析(关键词分析等),得到事件子类型以及定义事件架构,最终对每条数据按照标准进行标注,得到可用的数据。

3.1 ACE 2005 数据集

ACE 2005 数据集[13]是语言数据联盟(LDC)于2005 年发布的,ACE 2005 数据集定义了8 种事件类型和33 种子类型,为每一种子类型的事件构造了一种事件结构,其中的参数角色也不尽相同,所有事件子类型的事件参数角色总共有36 种。表7 罗列出了ACE 2005 数据集中的每种事件类型及其包含的子类型事件。ACE 2005 数据集是从新闻专线、广播新闻、广播对话、博客、新闻组、对话式电话语音6 种媒体收集而成,包括中文、英语、阿拉伯语3 种语言,共标注了599 个文档和大约6 000 个事件。表8 提供了它们的数据来源统计。

表7 ACE 2005 数据集的事件类型及其子类型Table 7 Event types and subtypes of ACE 2005 dataset

表8 ACE 2005 数据集的数据来源Table 8 Data source of ACE 2005 dataset 单位:%

3.2 TAC-KBP 数据集

TAC-KBP 2015 数据集[64]由LDC提供,用 于TAC-KBP 2015 事件跟踪比赛,数据从新闻文章和论坛中收集而成,共有360 个标注文档,其中158 个文档作为先前训练集,202 个文档作为比赛正式评估的测试集。参考ACE 2005 数据集,TAC-KBP 2015 数据集定义了9 种事件类型和38 个子类型事件。在TAC-KBP 2015 数据集只有英文一种语言的数据,但在TAC-KBP 2016 比赛提供的数据集中增加了中文和西班牙语数据集。

3.3 DUEE1.0 数据集

DUEE1.0 数据集[45]由百度公司标注,用于2020语言与智能技术竞赛事件抽取比赛当中。DUEE1.0数据集是目前公开的规模最大的句子级别的中文事件抽取数据集。DUEE1.0 数据集由19 640 个事件组成,包含65 个事件类型的1.7 万个具有事件信息的句子。数据从百度信息流资讯中收集而成,相对于ACE 2005、TAC-KBP 数据集,DUEE1.0 中收集的中文事件包含很多新时代网络用语,事件文本语法有着很高的自由度,事件抽取的难度也更大。该任务也接近于现实场景,例如,单个实例被允许包含多个事件,不同的事件被允许共享相同的参数角色,并且一个事件参数在不同的事件中被允许扮演不同的参数角色。

3.4 特定领域数据集

上述3 种数据集都是公共领域,包含不同的类型的新闻文本。而对于一些特定领域,因其含有大量专业名词,所以需要对这些特殊领域进行单独收集数据并标注,以提供更加可靠的数据支撑。

3.4.1 生物事件数据集

BioNLP(BioNLP-ST)生物文本挖掘比赛,其目的是为了从生物医学领域的科学文献中提取细粒度的生物分子事件。该比赛提供了多个由专业领域人员标注的生物事件数据集,例如Genia 数据集[65]、BioInfer数据集[66]。

3.4.2 金融领域事件数据集

针对金融领域事件,文献[56]使用远程监督算法[20]构建了一个大型的文档级别金融领域事件抽取数据集ChFinAnn,共有32 040 个标注文档,其中包含5 种金融事件类型。数据来源于2008—2018 年共10 年的中国金融事件新闻。表9 提供该数据集的事件类型及其事件参数类型。

表9 ChFinAnn 数据集的事件类型及事件参数类型Table 9 Event types and event parameters of ChFinAnn dataset

DUEE_fin 数据集[45]:由百度公司标注,用于2020语言与智能技术竞赛事件抽取比赛当中。该数据集含有1.17 万篇新闻,共标注了13 个事件类型及其对应的92 个论元角色类别。

上述这些神经网络模型在不同的语料库上进行了实验,不太可能对它们进行公平的比较。本章主要将这些方法在不同数据集上的结果进行展示。

触发词识别(trigger detection,TD):识别出触发词在文本中的位置。

事件类型识别(trigger identification,TI):识别出触发词的事件类型与设定中的事件类型是否一致。

参数识别(argument detection,AD):事件参数是否被正确识别。

事件参数类型识别(argument identification,AI):事件参数类型被正确识别。

4.1 ACE 2005 数据集实验结果

表10、表11 分别给出了在ACE 2005 数据集下中文和英文数据集中不同方法报告的事件提取结果,判断指标为F1 分数。F1 分数是统计学中用来衡量二分类模型精确度的一种指标,兼顾召回率和精度。TP为真阳性(true positive),FN为假阴性(false negative),FP为假阳性(false positive)。

通过表10、表11 中结果可知,针对英文的事件抽取方法在数量方面要比中文多,同时性能也比中文好。造成该结果的原因在于:一方面,由于事件抽取任务提出与研究国外都比国内早,中文数据集的缺少以及标注质量不高,大多数研究者比较集中于英文事件抽取;
另一方面,由于中文与英文语法存在巨大差别,英文的句法结构相对固定,在抽取过程中较中文更容易捕获文本特征。虽然近年来例如中文分词、句法分析等底层子任务的发展迅速,但中文没有显式分隔,在分词时会产生一定的误差,对触发词的判定造成影响。

表10 在ACE 2005 中文数据集上的事件抽取性能比较Table 10 Performance comparison of Chinese event extraction on ACE 2005 dataset

表11 在ACE 2005 英文数据集上的事件抽取性能比较Table 11 Performance comparison of English event extraction on ACE 2005 dataset

此外,通过实验结果可以看到,基于MRC 和模板提示的事件抽取方法[51-58]的性能较之传统的方法性能并没有明显提高,甚至某些方法的性能还有下降。主要原因在于这两类方法都需要人工定义问题模板,模型的性能很大程度受到人工模板的影响。在后续的研究中,解决人工模板带来的误差问题,提升模板质量将是提升这两类方法性能的关键所在。

4.2 其他数据集实验结果

表12和表13分别展示了在ChFinAnn和DUEE1.0数据集下的不同方法的抽取结果[46-50]。根据结果可以看到,相较于ACE 2005 数据集,在ChFinAnn 和DUEE1.0 数据集实验的方法整体性能要更好。原因在于,这两个数据集的数据标注质量较好,且数据量大。另外ChFinAnn 数据集属于金融领域数据集,事件类型少,文本语法结构化较为固定。

表12 在DUEE1.0 数据集上的事件抽取性能比较Table 12 Performance comparison of event extraction on DUEE1.0 dataset

表13 在ChFinAnn 数据集上的事件抽取性能比较Table 13 Performance comparison of event extraction on ChFinAnn dataset

通过上述分析,可以发现对于监督学习下的事件抽取模型,标注的数据越多,文本中包含的事件参数越完整,模型就能学习到更多的文本语义信息,模型的性能就会越好。

事件抽取是自然语言处理中的一项重要任务,由于其广泛的应用,事件抽取已经得到了广泛的重视,近年来深度学习等许多新技术的快速发展,使得事件抽取这项任务得到了深入的研究。但目前封闭域事件抽取最大的困难和挑战有以下方面:

(1)由于自然语言的灵活性强,复杂性高,文本转换为词嵌入时会造成一些信息的丢失,造成事件抽取方法性能下降。虽然有大量的研究人员利用各种方式对文本词嵌入信息进行补充,但这些方法大多基于假设或特定场景,存在一定的局限性,故语义信息丢失问题仍需探究。

(2)数据集有待进一步完善。现有的数据集存在覆盖领域小、包含的事件数量较少、事件信息较为简单以及整体数据集的规模不大等问题。而基于深度学习的事件抽取方法非常依赖于大量的、贴近现实的标注数据进行训练,因此导致事件抽取效果还不够理想。

(3)现有方法大多集中于句子级别的事件抽取,由于这些方法对于捕获文本上下文之间的信息能力不强,在面对角色共享以及共指消解(即同一实体的不同表达)等实际问题时,不能很好地解决上述问题,因此当前的事件抽取方法并不能满足现实生活中对于长新闻文本分析的需要。除此之外,事件抽取对于实体识别、关系抽取等底层任务的依赖性很高,这些底层任务出现误差时会给事件抽取带来级联错误,影响抽取性能。

虽然存在诸多挑战,但随着事件抽取受到更多的关注以及技术的发展,这些困难也会逐渐攻克,未来发展趋势如下:

(1)随着大规模预训练语言模型的发展,利用海量数据进行预训练得到的词嵌入拥有更多的信息,将预训练语言模型应用到事件抽取上也逐渐受到更多学者的关注。

(2)针对数据集缺少的情况,现有的大型知识库例如FrameNet、Freebase、Wikipedia、WordNet 含有丰富的知识,在当前的研究中已经有学者使用远程监督,利用知识库构建了大型的数据集。故利用知识库的丰富信息提升事件抽取的性能也将会成为研究的热点。

(3)随着研究的深入,利用阅读理解、序列生成的方式可以避免对于实体识别等技术的依赖。这些方法将大大促进文档级事件抽取的发展,吸引着更多学者的探索。

作为自然语言处理的重要任务之一,事件抽取为智慧问答、信息检索等基于知识驱动的下游任务提供了重要支撑。本文首先对封闭域事件抽取的任务定义,然后分析、对比不同的深度学习事件抽取方法,列举当前的数据支撑,最后总结出当前深度学习事件抽取方法存在的困难。在未来,使用大型数据库补充数据,对于预训练语言模型给予更多关注,提升特征获取的方式,使其能够处理更长的文本,将是事件抽取的重要研究方向。

猜你喜欢模板文献文本铝模板在高层建筑施工中的应用建材发展导向(2022年23期)2022-12-22铝模板在高层建筑施工中的应用建材发展导向(2022年12期)2022-08-19Hostile takeovers in China and Japan速读·下旬(2021年11期)2021-10-12在808DA上文本显示的改善制造技术与机床(2019年10期)2019-10-26Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph大东方(2019年12期)2019-10-20基于doc2vec和TF-IDF的相似文本识别电子制作(2018年18期)2018-11-14The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges科学与财富(2017年22期)2017-09-10The Role and Significant of Professional Ethics in Accounting and Auditing商情(2017年1期)2017-03-22铝模板在高层建筑施工中的应用中国房地产业(2016年24期)2016-02-16文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻小学教学参考(2015年20期)2016-01-15

推荐访问:抽取 综述 封闭

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0921/657677.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!