基于多模态RAG的图文问答方法、系统、设备及存储介质

AITNT
正文
推荐专利
基于多模态RAG的图文问答方法、系统、设备及存储介质
申请号:CN202510697916
申请日期:2025-05-28
公开号:CN120611020A
公开日期:2025-09-09
类型:发明专利
摘要
本发明属于人工智能技术领域,涉及一种基于多模态RAG的图文问答方法、系统、设备及存储介质,所述方法包括:1)从PDF文档中提取多模态信息,并将它们表示为稠密向量,存储在文本向量数据库和图像向量数据库中;2)得到问题文本的语义嵌入向量和问题文本的多模态嵌入向量;得到问题图像的描述文本的语义嵌入向量和问题图像的多模态嵌入向量;3)使用语义嵌入向量和多模态嵌入向量在文本向量数据库和图像向量数据库中进行粗筛,找到粗筛文本数据和粗筛图像数据,对它们进行多模态精排并获取检索召回的文本数据和图像数据;4)由多模态大语言模型生成最终答案。其能够有效解析长文档中的多模态数据,准确检索与问题最相关的信息。
技术关键词
文本 问答方法 大语言模型 语义向量 图文 表格 多模态信息 图像块 格式化 生成对用户 主题 数据存储 答案 图片转 人工智能技术
系统为您推荐了相关专利信息
1
一种页面交互组件加载优化方法和装置
交互组件 加载优化方法 页面 习惯 聚类
2
一种基于通用动作空间的定制化动作图像生成方法及系统
自定义标识符 图像生成方法 图像生成模型 生成图像数据 多层感知器
3
一种基于分级监护模式的妇科护理管理系统
妇科 护理管理系统 患者 病历 采集单元
4
一种智能消防的人机交互方法、系统及计算机可读存储介质
实时视频 人机交互方法 智能消防机器人 界面 文本
5
一种数据组合搜索方法
组合搜索方法 组合模块 搜索模块 数据 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号