摘要
本发明公开了一种多模态增强检索方法及系统,该方法包括:获取异构数据,并执行数据处理,以获得元信息集合;将元信息集合编码为高维的元信息向量,并构建向量索引;接收用户的查询语句,计算其与元信息向量的相似度,并获得元信息查询结果;基于获得的元信息调用大语言模型生成总结结果,并合并输出总结结果和与元信息对应的异构数据。通过将多模态数据处理为统一的语义向量表示,结合高效的向量化索引和大规模语言模型的语义生成与扩展能力,能够快速从多源异构数据中提取高价值信息,支持实时、跨模态、高精度的检索需求。方案中引入的重排序和溯源机制进一步增强了信息的相关性和可靠性,为查询结果的生成提供了全面、精准的知识支持。
技术关键词
检索方法
文本
大语言模型
视觉特征提取
音频
数据
异构
识别关键帧
关键词
视频
多模态
摘要
多任务损失函数
语句
索引
退火策略
训练场景
场景分类
系统为您推荐了相关专利信息
图像特征向量
文本特征向量
文本编码器
图像编码器
融合特征
语音活动检测方法
多通道
麦克风阵列采集
音频
语音特征提取