融合多模态大语言模型与RAG机制的图文报告生成方法

AITNT
正文
推荐专利
融合多模态大语言模型与RAG机制的图文报告生成方法
申请号:CN202511527490
申请日期:2025-10-24
公开号:CN120995994A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了融合多模态大语言模型与RAG机制的图文报告生成方法,属于文本处理技术领域。所述方法首先将PDF文档转为图像,通过多模态模型识别并提取文本、表格、图表等内容,构建可检索的知识片段库;接着基于用户查询,采用混合检索策略获取相关证据,并利用大语言模型生成含图像占位符的Markdown报告;同时调用文生图模块生成配图,最终实现图文融合的可视化报告输出。本发明支持多模态内容理解、跨模态检索与协同生成,具备良好的泛化性、准确性与实用性,适用于多领域、多语种的复杂文档处理与报告生成。
技术关键词
报告生成方法 大语言模型 多模态 图文 机制 查询意图 文本处理技术 表格 查询关键词 可视化图表 检索策略 处理器 页面 语义 图像 跨模态
系统为您推荐了相关专利信息
1
基于图像场景识别知识检索增强的通用安全风险监测方法、装置、计算机设备及可读存储介质
图像场景识别 风险监测方法 计算机设备 数据 检索策略
2
一种DDS安全通信方法
通信方法 消息认证码 密钥标识符 数字证书 报文
3
智能加密网络安全防护系统
网络安全防护系统 客户端设备 防护设备 链路 加密
4
应用于负压吸附式爬壁机器人的混合模型控制方法及系统
机器人状态信息 模型控制方法 多维特征向量 壁面 多模态传感器
5
一种融合事件抽取技术的城市遗址知识图谱构建方法、文物数据管理系统及可读存储介质
事件抽取技术 知识图谱构建方法 出土文物 文本 数据管理系统
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号