一种基于多专家模型的多模态检索增强生成方法及系统

正文

推荐专利

申请号：CN202510930769

申请日期：2025-07-07

公开号：CN120763195A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于多专家模型的多模态检索增强生成方法及系统。该多模态检索增强生成方法包括步骤：S1：利用视觉语言模型和音频理解模型作为专业理解模型，对输入的多模态数据进行处理，将图像、视频和音频信息转换为统一的文本表示；S2：通过跨模态特征对齐机制，生成结构化文本描述，形成多模态信息的标准化文本单元；S3：基于BERT生成式嵌入型，对用户输入的文本查询及转换后的文本进行向量化处理；S4：在向量数据库中进行相似性搜索，检索与查询最相关的文本文档；S5：将检索到的文本与用户查询拼接后输入大语言模型，生成最终的回答。本发明的多模态检索增强生成方法，创新性地引入专业理解模型作为异模态编码器，提升大模型对多模态信息的处理能力，实现真正的跨模态理解。

技术关键词

文本生成方法多模态信息音频大语言模型自然语言信息知识图谱补全数据输入模块跨模态视觉专业信息检索嵌入型注意力机制生成系统视频语义图像

系统为您推荐了相关专利信息

一种多协议单点登录可视化设计系统

可视化设计系统多协议转换单元证书信息密钥管理

一种基于长文本的商业领袖领导特质与管理信念分析方法

深度学习网络模型领袖预训练语言模型商业分析方法

虚拟角色的控制方法、处理方法、装置、设备及存储介质

命令环境感知信息场景物体自然语义

一种基于快速傅里叶变换的声学校准方法、装置、电子设备及存储介质

信号滤波器系数音频系统学校贝塞尔曲线插值

语言视频模型训练及视频处理方法、设备、介质和产品

文本编码器非暂时性机器可读存储介质视频编码器大语言模型摘要

一种基于多专家模型的多模态检索增强生成方法及系统

站点导航

APP 下载