摘要
本发明公开了一种基于多专家模型的多模态检索增强生成方法及系统。该多模态检索增强生成方法包括步骤:S1:利用视觉语言模型和音频理解模型作为专业理解模型,对输入的多模态数据进行处理,将图像、视频和音频信息转换为统一的文本表示;S2:通过跨模态特征对齐机制,生成结构化文本描述,形成多模态信息的标准化文本单元;S3:基于BERT生成式嵌入型,对用户输入的文本查询及转换后的文本进行向量化处理;S4:在向量数据库中进行相似性搜索,检索与查询最相关的文本文档;S5:将检索到的文本与用户查询拼接后输入大语言模型,生成最终的回答。本发明的多模态检索增强生成方法,创新性地引入专业理解模型作为异模态编码器,提升大模型对多模态信息的处理能力,实现真正的跨模态理解。
技术关键词
文本
生成方法
多模态信息
音频
大语言模型
自然语言信息
知识图谱补全
数据输入模块
跨模态
视觉
专业
信息检索
嵌入型
注意力机制
生成系统
视频
语义
图像
系统为您推荐了相关专利信息
可视化设计系统
多协议
转换单元
证书信息
密钥管理
深度学习网络模型
领袖
预训练语言模型
商业
分析方法
文本编码器
非暂时性机器可读存储介质
视频编码器
大语言模型
摘要