基于多模态输入文档的处理方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于多模态输入文档的处理方法、装置、设备及存储介质
申请号:CN202411079713
申请日期:2024-08-07
公开号:CN118940742A
公开日期:2024-11-12
类型:发明专利
摘要
本发明涉及一种基于多模态输入文档的处理方法,通过接收多模态输入文档,从中提取出图表信息,并记录图表信息的位置信息。将图表信息输入视觉语言模型,获取图表文本语言信息。根据图表文本语言信息与位置信息,将这些信息与文字信息嵌入多模态输入文档中,生成目标文本输入信息。将目标文本输入信息输入目标大语言模型,得到目标大语言模型的目标文本输出。本发明能够有效解决现有技术在处理多模态文档时的不足,实现对多模态文档的深度理解和准确总结,并生成定制化的文本输出,显著提高了复杂文档的处理效率和准确性。
技术关键词
多模态 图表 大语言模型 文本 视觉特征 Attention机制 融合特征 输入解码器 语言模块 计算机存储介质 处理器 校正 输入模块 输出模块 存储器 格式 定义
系统为您推荐了相关专利信息
1
一种基于图像识别的桥梁健康状态检测预警方法及系统
桥梁裂缝图像 桥梁健康状态检测 预警方法 滑动窗口算法 时间序列分析方法
2
一种基于多模态模型的非法集资图像描述生成方法及系统
文本 注意力机制 生成方法系统 解码器 前馈神经网络
3
一种基于增量解析的受限自回归解码方法、系统及介质
令牌 解码方法 解码程序 受限 自然语言
4
基于多模态的应急信息生成方法、装置、电子设备及介质
多模态 问答对数据 信息生成方法 图像 文本
5
一种用于避孕药安全性监测的多模态风险评估与辅助决策方法
辅助决策方法 避孕药 风险预测模型 关键词 输出特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号