摘要
本发明提供一种多模态深度学习的摄像机智能检索方法和系统,获取用户的多模态输入信息,多模态输入信息包括输入文本、输入语音和输入图像;将输入文本转化成文本输入特征,从输入语音中提取语音输入特征,从输入图像中提取图像输入特征;将文本输入特征、语音输入特征和图像输入特征进行融合得到多模态融合特征;基于多模态融合特征进行摄像机检索,得到摄像机检索结果并返回给用户。突破了单一输入方式导致的检索精度低的问题,提高了检索准确性与响应速度。
技术关键词
摄像机
多模态深度学习
智能检索方法
融合特征
智能检索系统
文本识别
深度网络模型
特征提取模块
语音识别单元
标签
检索算法
图像
大语言模型
监控视频流
特征提取单元