博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记|GSum: A General Framework for Guided Neural Abstractive Summarization
阅读量:4289 次
发布时间:2019-05-27

本文共 2303 字,大约阅读时间需要 7 分钟。

在这里插入图片描述


作者:景

单位:燕山大学


前言

  生成式摘要神经网络模型很灵活,可以产生连贯的摘要,但它们有时不可靠并且难以控制。虽然以前的研究试图提供不同类型的指导来控制模型输出和增加可信度,但尚不清楚这些策略如何相互比较和对比。 在本文中,作者提出了一个通用且可扩展的引导式摘要框架GSum,它可以有效地将不同种类的外部引导作为输入,并在几个不同的品种上进行实验。 实验表明,该模型是有效的,在使用突出显示的句子作为指导时,根据 ROUGE 在 4 个流行的摘要数据集上实现了最先进的性能。 此外,作者提出的引导式摘要模型可以生成更可信的摘要,并展示了不同类型的引导如何生成质量不同的摘要,从而为学习模型提供一定程度的可控性。

方法

 模型

  模型的整体架构如下图所示。

在这里插入图片描述

  首先是源文档输入,经过分词工具转Embedding之后输入一个emmm,一个Transformer Encoder里,假定每一层的输入信息为 X X X X X X是源文档的嵌入,用 G G G表示指引文本的嵌入信息),则

X = L N ( X + S e l f A t t e n t i o n ( X ) ) X = L N ( X + F e e d F o r w a r d ( X ) ) X = LN(X+SelfAttention(X))\\ X=LN(X+FeedForward(X))\\ X=LN(X+SelfAttention(X))X=LN(X+FeedForward(X))
  同样的,针对指引文本的嵌入信息G,也有
G = L N ( X + S e l f A t t e n t i o n ( G ) ) G = L N ( X + F e e d F o r w a r d ( G ) ) G = LN(X+SelfAttention(G))\\ G=LN(X+FeedForward(G))\\ G=LN(X+SelfAttention(G))G=LN(X+FeedForward(G))
   S e l f A t t e n t i o n SelfAttention SelfAttention为自注意力计算模块,计算公式如下式2所示, F e e d F o r w a r d FeedForward FeedForward为前馈神经网络没看, L N LN LN为层规范化函数。
S e l f A t t e n t i o n = s o f t m a x ( Q ∗ K T d m o d e l ) ∗ V (2) SelfAttention=softmax(\frac{Q*K^T}{\sqrt{d_{model}}})*V\tag{2} SelfAttention=softmax(dmodel QKT)V(2)
经过若干层Encoder,就可以得到源文本和指引知识的编码信息。

  值得注意的一点,上图中左下部分展示的 N e n c N_{enc} Nenc层编码器是参数共享的,什么意思呢?我们将最下的 N e n c N_{enc} Nenc层编码器进行一个简单暴力的替换,直接换成BERT,两部分文本都直接通过预训练模型进行编码,由于是用的是同一个预训练模型,因此叫做参数共享。

  解码器模块的设计也是源于Transformer Decoder改进而来。我们将标准摘要的嵌入作为原始输入 y y y,经过如下变换,计算摘要的解码信息:

Y = L N ( Y + S e l f A t t e n t i o n ( Y ) ) Y = L N ( Y + C r o s s A t t e n t i o n ( Y , G , G ) ) Y = L N ( Y + C r o s s A t t e n t i o n ( Y , G , G ) ) Y = L N ( Y + F e e d F o r w a r d ( Y ) ) Y=LN(Y+SelfAttention(Y))\\ Y=LN(Y+CrossAttention(Y,G,G))\\ Y=LN(Y+CrossAttention(Y,G,G))\\ Y=LN(Y+FeedForward(Y)) Y=LN(Y+SelfAttention(Y))Y=LN(Y+CrossAttention(Y,G,G))Y=LN(Y+CrossAttention(Y,G,G))Y=LN(Y+FeedForward(Y))

指引知识

  指导知识的获取有两种方式:

  1. automatic prediction
  2. oracle extraction

  方法1是基于源文本的输入信息 X X X来自动预测指引知识 G G G(类似于抽取式方法),方法2则是通过联合源文本的输入信息 X X X和标准摘要信息 Y Y Y来生成 G G G(类似于用摘要和源文本训练模型来告诉我们源文本里那个句子、词更关键)。

实验

  作者最后一共采集到的指引知识分为4种:Tokens、Triples、Sentences、Summaries

在这里插入图片描述
  采用的数据集共6个,包含了摘要领域最常用的、最权威的CNN/DM、XSum等
在这里插入图片描述
  在CNN/DM 上的实验结果。
在这里插入图片描述
  作者还通过不同的预训练模型来测试了所提框架的性能,在CNN/DM上实验结果如下:Bart+MatchSum打出了45394的高分。
在这里插入图片描述
  与基线相比,作者的模型可以生成更多新词,并在gold Summaries中实现更高的新词召回率。
在这里插入图片描述

转载地址:http://kemgi.baihongyu.com/

你可能感兴趣的文章
linux vmstat 1 ,watch , pmap -p,
查看>>
MYSQL 相关
查看>>
python 构建client 程序
查看>>
c++ 加载so动态库中的资源
查看>>
加解密 签名
查看>>
linux top 命令分析
查看>>
Linux vmstat命令详解
查看>>
linux pmap命令
查看>>
MySQL数据同步【双主热备】
查看>>
Mysql主从复制实践手册
查看>>
nginx配置正向代理支持HTTPS
查看>>
Perf -- Linux下的系统性能调优神器
查看>>
C++ 用libcurl库进行http通讯网络编程
查看>>
秒杀多线程第十篇 生产者消费者问题
查看>>
信号量与互斥锁
查看>>
linux 查看CPU个数,核数
查看>>
string 序列化
查看>>
va_start(),va_end()函数应用
查看>>
crontab命令
查看>>
State Threads——异步回调的线性实现
查看>>