摘要
本发明涉及一种基于多模态输入文档的处理方法,通过接收多模态输入文档,从中提取出图表信息,并记录图表信息的位置信息。将图表信息输入视觉语言模型,获取图表文本语言信息。根据图表文本语言信息与位置信息,将这些信息与文字信息嵌入多模态输入文档中,生成目标文本输入信息。将目标文本输入信息输入目标大语言模型,得到目标大语言模型的目标文本输出。本发明能够有效解决现有技术在处理多模态文档时的不足,实现对多模态文档的深度理解和准确总结,并生成定制化的文本输出,显著提高了复杂文档的处理效率和准确性。
技术关键词
多模态
图表
大语言模型
文本
视觉特征
Attention机制
融合特征
输入解码器
语言模块
计算机存储介质
处理器
校正
输入模块
输出模块
存储器
格式
定义
系统为您推荐了相关专利信息
特征建模方法
深度特征集合
鸡蛋
支持向量回归模型
重金属铅含量
分块策略
序列
滑动窗口
非暂态计算机可读存储介质
语义向量
无线体温监测
柔性传感器
控制平台
多模态特征融合
数据
故障检测模型
三维结构
故障案例库
车辆故障检测方法
分析故障原因