摘要
本发明提出一种融合图表关键数据的多模态图表到文本生成方法与系统,该方法通过提取图表中的关键数据和视觉特征,再利用多模态注意力网络和门融合机制对两种模态的特征进行融合,以充分学习图表的关键语义特征和全局视觉特征,最后对融合后的特征进行解码并生成具有高流畅度和事实一致性的图表描述文本。本发明采用了大语言模型语义增强和多模态学习的方法,使模型能够对图表传达的语义进行更充分理解和学习。模型易于搭建,生成的文本流畅度高,包含的事实更多更准确,文本内容也更加精简。
技术关键词
图表
文本生成方法
表格
融合特征
数据
训练语言模型
文本编码器
图像块
大语言模型
文本生成系统
全局视觉特征
多模态注意力
多模态特征融合
语义
系统为您推荐了相关专利信息
队列
网络功能虚拟化系统
虚拟网络功能
环形
线性
分类方法
科技
生物识别
物联网数据分析
区块链数据结构