摘要
本发明涉及一种基于深度学习的多模态自动摘要方法,属于计算机自然语言处理技术领域。本发明包括步骤:1、利用BERT提取文本特征,利用GoogleNet提取图像特征;2、将提取的图文特征图文特征串联成串联向量;3、将文本特征和图像特征进行融合;4、将融合文本特征输入至文本摘要的解码器,采用解码器带有掩码的交叉注意力和自注意力计算得到文本摘要词向量的自回归结果,利用束搜索选取自回归序列中概率最大的自回归结果进行文本摘要输出;5、将融合图像特征输入至Softmax层,将样本中概率最大的样本图像进行图像摘要输出;与现有技术相比,本发明采用深度学习生成文本摘要和选择摘要最相关图片,能够准确的生成文本摘要和相关的图片,具有很强的实用性。
技术关键词
自动摘要方法
前馈神经网络
融合图像特征
文本特征向量
图像特征向量
生成文本摘要
注意力机制
解码器
计算机自然语言
预训练语言模型
矩阵
图文
预训练模型
线性
模态特征
样本
系统为您推荐了相关专利信息
异构系统
负载均衡系统
任务分配策略
负载均衡方法
模块
网络入侵检测方法
全局特征提取
过采样方法
样条
通讯网络拓扑结构
插补方法
交叉注意力机制
解码器
专用编码器
融合特征
轨道交通列车驾驶
深度强化学习算法
列车控制器
自动控制方法
速度
激光雷达点云数据
环境监测数据
状态监测数据
注意力
风险预测模型