一种基于多专家模型的多模态检索增强生成方法及系统

AITNT
正文
推荐专利
一种基于多专家模型的多模态检索增强生成方法及系统
申请号:CN202510930769
申请日期:2025-07-07
公开号:CN120763195A
公开日期:2025-10-10
类型:发明专利
摘要
本发明公开了一种基于多专家模型的多模态检索增强生成方法及系统。该多模态检索增强生成方法包括步骤:S1:利用视觉语言模型和音频理解模型作为专业理解模型,对输入的多模态数据进行处理,将图像、视频和音频信息转换为统一的文本表示;S2:通过跨模态特征对齐机制,生成结构化文本描述,形成多模态信息的标准化文本单元;S3:基于BERT生成式嵌入型,对用户输入的文本查询及转换后的文本进行向量化处理;S4:在向量数据库中进行相似性搜索,检索与查询最相关的文本文档;S5:将检索到的文本与用户查询拼接后输入大语言模型,生成最终的回答。本发明的多模态检索增强生成方法,创新性地引入专业理解模型作为异模态编码器,提升大模型对多模态信息的处理能力,实现真正的跨模态理解。
技术关键词
文本 生成方法 多模态信息 音频 大语言模型 自然语言信息 知识图谱补全 数据输入模块 跨模态 视觉 专业 信息检索 嵌入型 注意力机制 生成系统 视频 语义 图像
系统为您推荐了相关专利信息
1
一种多协议单点登录可视化设计系统
可视化设计系统 多协议 转换单元 证书信息 密钥管理
2
一种基于长文本的商业领袖领导特质与管理信念分析方法
深度学习网络模型 领袖 预训练语言模型 商业 分析方法
3
虚拟角色的控制方法、处理方法、装置、设备及存储介质
命令 环境感知信息 场景 物体 自然语义
4
一种基于快速傅里叶变换的声学校准方法、装置、电子设备及存储介质
信号 滤波器系数 音频系统 学校 贝塞尔曲线插值
5
语言视频模型训练及视频处理方法、设备、介质和产品
文本编码器 非暂时性机器可读存储介质 视频编码器 大语言模型 摘要
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号