融合数值和视觉特征的图表描述文本的生成方法与系统

AITNT
正文
推荐专利
融合数值和视觉特征的图表描述文本的生成方法与系统
申请号:CN202410760298
申请日期:2024-06-13
公开号:CN118332414B
公开日期:2024-08-06
类型:发明专利
摘要
本发明提出一种融合数值和视觉特征的图表描述文本的生成方法与系统,该方法通过提取图表的数值特征和图像的特征,再利用交叉注意力对两种特征进行融合,最后对融合结果进行解码生成文本,充分发挥两种模态的优势,使模型更全面地捕捉图表的有效信息,从而生成高质量的图表描述文本。本发明采用了多模态学习的方法,让模型获取的信息更全面更丰富。模型易于搭建,文本生成耗时耗能少。生成的文本更准确,包含的有效信息更多。
技术关键词
图表 表格 视觉特征 LSTM模型 生成方法 数值 编码特征 序列特征 预训练语言模型 交叉注意力机制 图像块 融合特征 标记 编码器 多层感知机 模态特征 标签文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号