摘要
本发明公开了一种MTU数据解耦合成与模型训练方法、系统、设备及介质,它们是相互对应的方案,方案中:MTU数据合成过程被解耦为表格图像渲染和表格问答对生成两个独立步骤,可以结合收集到的表格数据合成准确的MTU数据,具有成本低、效率高、鲁棒性高的优点,并且,生成的问答对更准确、更连贯,幻觉也明显减少;在此基础上,用于训练MTU模型,可以大大幅度提升多模态表格理解的性能,通过实验表明,本发明使用合成的MTU数据来训练MTU模型,在多个测试集上都取得了最先进的表现,证明了本发明的有效性和泛化性。
技术关键词
大语言模型
表格
模型训练方法
视觉特征
答案
数据
多分辨率
全局特征融合
图像
损失函数优化
分辨率提升
模型训练系统
处理器
可读存储介质
多模态
文本
格式
鲁棒性
有效性
系统为您推荐了相关专利信息
球员
交叉注意力机制
视频字幕生成方法
视觉特征
矩阵
程序更新
数据
评价方法
大语言模型
生成目标程序
文本
视频摘要方法
音频
大语言模型
生成视频摘要