《Similarity-based Memory Enhanced Joint Entity and Relation Extraction》论文阅读笔记

2024-02-28 11:03 由大雄的叮当猫发表于 #其他

代码

原文

摘要

文档级联合实体和关系抽取是一项难度很大的信息抽取任务，它要求用一个神经网络同时完成四个子任务，分别是：提及检测、共指消解、实体分类和关系抽取。目前的方法大多采用顺序的多任务学习方式，这种方式将任务任意分解，使得每个任务只依赖于前一个任务的结果，而忽略了任务之间可能存在的更复杂的相互影响。为了解决这些问题，本文提出了一种新的多任务学习框架，设计了一个统一的模型来处理所有的子任务，该模型的工作流程如下：首先，识别出文本中的实体提及，并将它们聚合成共指簇；其次，为每个实体簇分配一个合适的实体类型；最后，在实体簇之间建立关系。图 1 给出了一个来自 DocRED 数据集的文档示例，以及模型期望输出的实体簇图。为了克服基于流水线的方法的局限性，在模型中引入了双向的记忆式依赖机制，使得各个子任务能够相互影响和提升，从而更有效地完成联合任务。

模型架构

该方法受到了 JEREX 的启发，由四个任务特定的组件组成：提及抽取（

）、共指消解（

）、实体抽取（

）和关系抽取（

）。与原来的流水线式架构不同，这里引入了图 2 所示的记忆模块，使得各个组件的输入表示能够通过基于记忆的扩展表示模块进行更新。该模块使用 Memory Read 操作从记忆矩阵

和

中读取信息，这两个矩阵分别由实体和关系分类器写入。这样，各个组件之间就形成了双向的信息交互，从而更有效地完成联合任务。

Memory reading

该方法与 TriMF 类似，都是利用注意力机制，将输入表示与从记忆中读取的信息相结合，得到扩展的表示。如图 2 所示，本文的架构对两种输入表示进行了扩展：一种是词嵌入

，另一种是提及候选的跨度表示

。对于每一种输入表示

（

），以及每一种记忆矩阵

（

），注意力机制将输入表示

作为键和值，其中

是表示向量的个数，

是嵌入的维度。

作为查询，注意力机制使用记忆矩阵

，其中

是记忆槽的个数，

是记忆槽的维度。为了计算注意力权重向量

，对记忆槽的维度求和，公式如下：

其中

是注意力机制的可学习参数矩阵，

是

的第

个记忆槽。然后，

向量用于对

进行加权，得到扩展的输入表示

：

对于每一种输入表示

，记忆读取操作基于两种记忆矩阵生成两种扩展表示

和

。最终的扩展表示是通过对

和

求逐元素平均值得到的。

Memory writing

和

是两个记忆矩阵，它们分别存储了不同的实体和关系类别的表示。这些表示是通过相关分类器的损失函数的梯度来更新的，

对应实体分类器，

对应关系分类器。为了提高表示的精度，损失函数取决于类别嵌入和属于该类别的实例表示之间的相似度，这个相似度是根据实例的标签来确定的。因此，实体和关系分类器都基于输入表示和相应的记忆矩阵之间的相似度函数

来进行分类。给定实体

的表示向量

，它的实体类型的概率分布如下：

给定实体对

的表示向量

，它的关系类型的存在概率如下：

定义

为实例表示

和记忆矩阵

之间的双线性相似度，形式如下：

其中

是一个可学习的参数矩阵。对于实体和关系分类器，分别使用了不同的双线性相似度权重矩阵：

和

，其中

和

是实体和实体对表示的维度。

和

是实体和关系记忆矩阵的记忆槽的维度。在这里，记忆矩阵的记忆槽的数量与分类器的类别的数量相同。

Training

最后，模型被训练优化关节损失

，该关节包含与JEREX中相同的四个子任务相关的损失

，并以固定的任务相关权值

加权:

本文还纳入了TriMF中提出的两阶段训练方法，在超参数搜索过程中调整记忆预热比例。

热门相关：走私大明妖夏神秘老公，晚上见！北宋大表哥重开地狱

相关文章

华为云携十大系统性创新亮相巴塞罗那打造最适合AI的基础设施

本文分享自华为云社区《华为云携十大系统性创新亮相巴塞罗那打造最适合AI的基础设施》，作者：华为云头条。近日，主题为“一切皆服务，加速千行万业智能升级”的华为云峰会在巴塞罗那隆重召开，汇聚来自运营商、金融、互联网等多个行业的超过500名企业高层和技术专家。华为云向与会者展示了面向AI的十大系统性 ...阅读全文

解读 * 台工程，DevOps真的死了吗？不，它只是换了个马甲而已，弥补了DevOps空心理论，让DevOps继续发展壮大

最**台工程这个概念越来越火爆，Gartner 的预测，到 2026 年，80% 的软件工程组织将拥有*台工程团队，来提供内部服务、组件和应用程序交付工具，作为可重复使用的资源。本篇文章将带你走进*台工程，了解它的起源和解决的问题。 *台工程（Platform Engineering）的趋势 202 ...阅读全文

线性数据结构：数组、受限数组（栈、队列）、线性表

1. 数组数组定义数组（Array）是有序的元素序列。属于线性结构（有且仅有一个前驱、有且仅有一个后继）。数组特点数组的关键在于在内存中的物理地址对应的是一段连续的内存。这意味着如果想要在任意位置删除/新增一个元素，那么该位置往后的所有元素，都需要往前挪/往后挪一个位置。假设数组的长度是 n ...阅读全文

遭遇DDOS攻击忍气吞声？立刻报警！首都网警重拳出击，犯罪分子无所遁形

公元2024年2月24日18时许，笔者的个人网站突然遭遇不明身份者的DDOS攻击，且攻击流量已超过阿里云DDos基础防护的黑洞阈值，服务器的所有公网访问已被屏蔽，由于之前早已通过Nginx屏蔽了所有国外IP，在咨询了阿里云客服之后，阿里网安的老同事帮助分析日志并进行了溯源，客服建议笔者选择立刻报警处 ...阅读全文

Cloudera 简介

> Cloudera 是什么? Cloudera是新一代大数据软件和服务提供商,为企业提供强大的数据管理与数据分析能力。Cloudera成立于2008年,总部位于美国加利福尼亚州帕罗奥图。 Cloudera最初基于Apache Hadoop开源项目,开发了企业级Hadoop发行版CDH(Cloude ...阅读全文

图片Base64编码解码的优缺点及应用场景分析

随着互联网的迅猛发展，图片在网页和移动应用中的使用越来越广泛。而图片的传输和加载往往是网页性能的瓶颈之一。为了解决这一问题，图片Base64编码与解码技术应运而生。本文将介绍图片Base64相互转换的优缺点，以及它可以解决的问题和适用的方面，并提供完整的JavaScript示例。图片Base64相 ...阅读全文

UDP学习

本文是什么在学习音视频的过程中，需要接触各种各样的协议。尤其是在实时的音视频传输中，需要了解很多的网络协议。UDP就是其中重要的协议之一，所以我们有必要对其进行学习。UDP的内容还是蛮简单的，所以本文的内容不会很多，后续有什么想到的会在本文进行添加或修改。关于与UDP同样重要的TCP，以及UDP和 ...阅读全文

2018年全年回顾

本文理论上讲应当在2019年Q1的时候发出来，结果出于各种原因，推迟到了现在。个人收获作为产品团队大数据技术的接口人，能力和结果得到了产品团队领导的高度认可，在领导的运作下上半年绩效很好。同时争取到了破格升级的机会。出于个人发展的原因，转岗至另外一个产品团队，开启了在IT部门中参与数据仓库 ...阅读全文

使用AWS存储数据并下载遥感影像Landsat为例

使用AWS存储数据并下载遥感影像Landsat为例一、步骤：创建s3存储桶（具体创建账号方式请问“度娘”，当时忘记录了）创建用户——配置策略用该用户创建访问密钥——记录访问密钥 ID和访问密钥 key（一定要记住，后续无法查看）下载AWS管理器CMD命令行msiexec.exe / ...阅读全文

【译】靠谱的人必备六大品质

原作：柯蒂斯·派克斯引言：只有靠谱，才能赢得机会靠谱是生命中最宝贵的商品之一。我们都希望受到尊重。它构成了人际交往的基础。唯一的问题是，它来之不易。你必须赢得它，而且一旦获得，你必须努力维持。靠谱的人对此深有体会。在寻求获得高度靠谱的过程中，他们经历了各种转变，帮助他们取得了今天的地 ...阅读全文