摘要
本发明涉及一种基于多模态输入文档的处理方法,通过接收多模态输入文档,从中提取出图表信息,并记录图表信息的位置信息。将图表信息输入视觉语言模型,获取图表文本语言信息。根据图表文本语言信息与位置信息,将这些信息与文字信息嵌入多模态输入文档中,生成目标文本输入信息。将目标文本输入信息输入目标大语言模型,得到目标大语言模型的目标文本输出。本发明能够有效解决现有技术在处理多模态文档时的不足,实现对多模态文档的深度理解和准确总结,并生成定制化的文本输出,显著提高了复杂文档的处理效率和准确性。
技术关键词
多模态
图表
大语言模型
文本
视觉特征
Attention机制
融合特征
输入解码器
语言模块
计算机存储介质
处理器
校正
输入模块
输出模块
存储器
格式
定义
系统为您推荐了相关专利信息
桥梁裂缝图像
桥梁健康状态检测
预警方法
滑动窗口算法
时间序列分析方法
文本
注意力机制
生成方法系统
解码器
前馈神经网络
辅助决策方法
避孕药
风险预测模型
关键词
输出特征