一种多模态深度学习的摄像机智能检索方法和系统

正文

推荐专利

申请号：CN202510960301

申请日期：2025-07-11

公开号：CN120892615A

公开日期：2025-11-04

类型：发明专利

摘要

本发明提供一种多模态深度学习的摄像机智能检索方法和系统，获取用户的多模态输入信息，多模态输入信息包括输入文本、输入语音和输入图像；将输入文本转化成文本输入特征，从输入语音中提取语音输入特征，从输入图像中提取图像输入特征；将文本输入特征、语音输入特征和图像输入特征进行融合得到多模态融合特征；基于多模态融合特征进行摄像机检索，得到摄像机检索结果并返回给用户。突破了单一输入方式导致的检索精度低的问题，提高了检索准确性与响应速度。

技术关键词

摄像机多模态深度学习智能检索方法融合特征智能检索系统文本识别深度网络模型特征提取模块语音识别单元标签检索算法图像大语言模型监控视频流特征提取单元

一种多模态深度学习的摄像机智能检索方法和系统

站点导航

APP 下载