摘要
本申请公开了一种基于视觉信息融合的多模态摘要方法及系统,涉及数据处理、人工智能技术,包括:将提取的视觉特征与文本特征拼接,并将拼接后的视觉‑文本特征输入编码器的多头注意力模块和前馈网络模块;将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入,以获得结合视觉信息的文本特征;将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器;将提取的视觉特征以及解码器前馈网络模块的输出作为解码器模态融合层的输入,以获得解码器输出的文本特征;将解码器输出的文本特征经过线性层,将输出的向量输入到Softmax层,依据概率分布和词汇表,获得所需的摘要文本。本申请的方法能够提高生成摘要的质量和准确性。
技术关键词
视觉特征
文本
摘要方法
网络模块
输入解码器
双曲正切函数
双线性
跨模态
注意力机制
摘要系统
更新模型参数
非线性
图像编码器
系统为您推荐了相关专利信息
多模态
知识图谱构建系统
大数据
跨模态
非物质文化遗产
早期预测系统
特征提取模块
形态学特征
医学
文本编码器
大语言模型
文本
队列
节点更新
非暂态计算机可读存储介质