摘要
本发明提出一种融合数值和视觉特征的图表描述文本的生成方法与系统,该方法通过提取图表的数值特征和图像的特征,再利用交叉注意力对两种特征进行融合,最后对融合结果进行解码生成文本,充分发挥两种模态的优势,使模型更全面地捕捉图表的有效信息,从而生成高质量的图表描述文本。本发明采用了多模态学习的方法,让模型获取的信息更全面更丰富。模型易于搭建,文本生成耗时耗能少。生成的文本更准确,包含的有效信息更多。
技术关键词
图表
表格
视觉特征
LSTM模型
生成方法
数值
编码特征
序列特征
预训练语言模型
交叉注意力机制
图像块
融合特征
标记
编码器
多层感知机
模态特征
标签文本