基于多模态输入文档的处理方法、装置、设备及存储介质

AITNT
正文
推荐专利
基于多模态输入文档的处理方法、装置、设备及存储介质
申请号:CN202411079713
申请日期:2024-08-07
公开号:CN118940742A
公开日期:2024-11-12
类型:发明专利
摘要
本发明涉及一种基于多模态输入文档的处理方法,通过接收多模态输入文档,从中提取出图表信息,并记录图表信息的位置信息。将图表信息输入视觉语言模型,获取图表文本语言信息。根据图表文本语言信息与位置信息,将这些信息与文字信息嵌入多模态输入文档中,生成目标文本输入信息。将目标文本输入信息输入目标大语言模型,得到目标大语言模型的目标文本输出。本发明能够有效解决现有技术在处理多模态文档时的不足,实现对多模态文档的深度理解和准确总结,并生成定制化的文本输出,显著提高了复杂文档的处理效率和准确性。
技术关键词
多模态 图表 大语言模型 文本 视觉特征 Attention机制 融合特征 输入解码器 语言模块 计算机存储介质 处理器 校正 输入模块 输出模块 存储器 格式 定义
系统为您推荐了相关专利信息
1
基于多传感集成的血液尿液体液采集检测与分析上传系统
体液 智能合约管理 血液 多模态特征 森林模型
2
基于SVMD-1DCNN的鸡蛋铅含量Vis-NIR光谱深度特征建模方法
特征建模方法 深度特征集合 鸡蛋 支持向量回归模型 重金属铅含量
3
长文本的延迟分块嵌入处理方法、装置及存储介质
分块策略 序列 滑动窗口 非暂态计算机可读存储介质 语义向量
4
一种联动无线体温监测并自动调节温度设置的充气升温系统
无线体温监测 柔性传感器 控制平台 多模态特征融合 数据
5
车辆故障检测方法、装置、设备、存储介质及车辆
故障检测模型 三维结构 故障案例库 车辆故障检测方法 分析故障原因
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号