RL - Automatic Text Summary Method

原文作者:Wei Wang

原文标题:Generated Automatic Summary Method Based on C-R Neural

原文链接:https://d.wanfangdata.com.cn/periodical/jsjyszgc202001022

原文来源:WanFang

笔记作者:outx

生成式自动摘要方法

生成式文本摘要是更接近于人类思考方式的摘要生成方法,具有更强的生成、理解、表征文本的能力。生成式神经网络模型的基本结构是由编码和解码器组成,如下图

image-20210712155233413

Seq2Seq 序列又称为编解码器(Encoder、Decoder)架构,编码器负责将输入文本编码成一个向量,作为原文本的表征,该向量包含了文本的上下文信息。而解码器从该向量提取重要信息,并进行剪辑加工,生成文本摘要,这套架构就是 Seq2Seq。 该方法被广泛应用于存在输入和输出序列的场景, Seq2Seq架构中的编码器和解码器通常由时间递归神经网络(RNN)或卷积神经网络(CNN)实现。

基于RNN的生成式结构

“序列到序列”方法在很多文本处理中有很好的效果。相较于从原文本中抽取式获得摘要,从序列到序列建模处理方法,其摘要长度并不依赖于原文本长度,而且相对于原文摘要必然有信息损失。

Chopra等使用递归神经网络(RNN)作为解码器。(Abstractive Sentence Summarization with Attentive Recurrent Neural Networks)

基于CNN的生成式结构

CNN的算法优势是可以提取出层次特征,并可以高效并行地进行卷积运算,根据其特点,可将CNN应用到相关文本任务中,但原生态的文本字符串无法进行计算,需将文本表示为分布式向量 (Distributed Representation/Word Embedding)。可以用一个实数矩阵或向量表示一句话或一个词,经过分布式向量表示后,就可以在文本任务中应用CNN。但CNN提取的文本特征,并不能如图像特征那样,有明显的可解释性和可视性。CNN 抽取的文本特征可以类比自然语言处理中的分析树(Syntactic Parsing Tree)。

Facebook 公司提出的 ConvS2S 模型,由 CNN 实现编码器和解码器,同时加入了注意力机制,尝试将该模型用于自动文本摘要。

基于Attention的生成式结构

编码器将原文编码为向量V,而解码器从向量 V 中提取信息、获取语义、生成文本摘要。自注意力模型更加关注句子内部结构,即Word-Pairs的信息。模型单独学习目标端句子内部结构信息,利用编解码器注意力建立源文本和目标文本的对应关系。自注意力在第一层便巧妙地建立了词和整个句子的联系,其思想可用于文本摘要自动生成任务。

Google 团队使用自注意力(Self-Attention)和编解码器注意力(Encoder-Decoder Attention),来完全实现端到端任务。