摘要
本发明属于自然语言处理技术领域,具体涉及一种基于交叉注意对齐和多语言互注意的跨语言摘要方法。为提升跨语言摘要的性能,本发明采用基于多任务学习的端到端神经网络模型对文本进行跨语言摘要,包括以下步骤:从互联网的数据集网站中爬取单语摘要数据集的原文本和摘要,并通过往返翻译策略和语篇蕴含策略对数据进行处理,构建跨语言摘要数据集;对数据集中的源文本和摘要进行分词,获取词嵌入向量表示,进行编码和初步解码;利用交叉注意对齐机制,优化跨语言摘要的注意力分布;利用多语言互注意机制,优化双语隐藏状态表示;训练跨语言摘要模型并生成跨语言摘要。
技术关键词
摘要方法
注意力
多语言
词嵌入向量
多任务
分词
序列
数据
机制
神经网络模型
编码器解码器
策略
深度学习框架
中文文本
爬虫技术