融合数值和视觉特征的图表描述文本的生成方法与系统

正文

推荐专利

申请号：CN202410760298

申请日期：2024-06-13

公开号：CN118332414B

公开日期：2024-08-06

类型：发明专利

摘要

本发明提出一种融合数值和视觉特征的图表描述文本的生成方法与系统，该方法通过提取图表的数值特征和图像的特征，再利用交叉注意力对两种特征进行融合，最后对融合结果进行解码生成文本，充分发挥两种模态的优势，使模型更全面地捕捉图表的有效信息，从而生成高质量的图表描述文本。本发明采用了多模态学习的方法，让模型获取的信息更全面更丰富。模型易于搭建，文本生成耗时耗能少。生成的文本更准确，包含的有效信息更多。

技术关键词

图表表格视觉特征 LSTM模型生成方法数值编码特征序列特征预训练语言模型交叉注意力机制图像块融合特征标记编码器多层感知机模态特征标签文本

融合数值和视觉特征的图表描述文本的生成方法与系统

站点导航

APP 下载