基于多模态输入文档的处理方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411079713

申请日期：2024-08-07

公开号：CN118940742A

公开日期：2024-11-12

类型：发明专利

摘要

本发明涉及一种基于多模态输入文档的处理方法，通过接收多模态输入文档，从中提取出图表信息，并记录图表信息的位置信息。将图表信息输入视觉语言模型，获取图表文本语言信息。根据图表文本语言信息与位置信息，将这些信息与文字信息嵌入多模态输入文档中，生成目标文本输入信息。将目标文本输入信息输入目标大语言模型，得到目标大语言模型的目标文本输出。本发明能够有效解决现有技术在处理多模态文档时的不足，实现对多模态文档的深度理解和准确总结，并生成定制化的文本输出，显著提高了复杂文档的处理效率和准确性。

技术关键词

多模态图表大语言模型文本视觉特征 Attention机制融合特征输入解码器语言模块计算机存储介质处理器校正输入模块输出模块存储器格式定义

系统为您推荐了相关专利信息

一种基于图像识别的桥梁健康状态检测预警方法及系统

桥梁裂缝图像桥梁健康状态检测预警方法滑动窗口算法时间序列分析方法

一种基于多模态模型的非法集资图像描述生成方法及系统

文本注意力机制生成方法系统解码器前馈神经网络

一种基于增量解析的受限自回归解码方法、系统及介质

令牌解码方法解码程序受限自然语言

基于多模态的应急信息生成方法、装置、电子设备及介质

多模态问答对数据信息生成方法图像文本

一种用于避孕药安全性监测的多模态风险评估与辅助决策方法

辅助决策方法避孕药风险预测模型关键词输出特征

基于多模态输入文档的处理方法、装置、设备及存储介质

站点导航

APP 下载