摘要
本发明公开了融合多模态大语言模型与RAG机制的图文报告生成方法,属于文本处理技术领域。所述方法首先将PDF文档转为图像,通过多模态模型识别并提取文本、表格、图表等内容,构建可检索的知识片段库;接着基于用户查询,采用混合检索策略获取相关证据,并利用大语言模型生成含图像占位符的Markdown报告;同时调用文生图模块生成配图,最终实现图文融合的可视化报告输出。本发明支持多模态内容理解、跨模态检索与协同生成,具备良好的泛化性、准确性与实用性,适用于多领域、多语种的复杂文档处理与报告生成。
技术关键词
报告生成方法
大语言模型
多模态
图文
机制
查询意图
文本处理技术
表格
查询关键词
可视化图表
检索策略
处理器
页面
语义
图像
跨模态
系统为您推荐了相关专利信息
图像场景识别
风险监测方法
计算机设备
数据
检索策略
网络安全防护系统
客户端设备
防护设备
链路
加密
机器人状态信息
模型控制方法
多维特征向量
壁面
多模态传感器
事件抽取技术
知识图谱构建方法
出土文物
文本
数据管理系统