摘要
本发明公开了一种基于多模态模型进行搜索的方法和系统。方法包括:对视频进行分割,将视频各帧中,前后连贯且相似度高于阈值的帧集合,作为一个场景单元;对场景单元进行关键帧提取;对关键帧进行图像特征和文本特征提取;将关键帧图像特征和文本向量特征进行融合,得到反映场景单元内容的多模态特征;对用户输入的自然语言查询进行语义理解,将其转换为相应的查询特征向量;将查询特征向量与数据库中的多模态特征向量进行相似性计算,根据相似度对场景单元进行排序,返回最相似的场景单元;将检索到的场景单元按照相似度排序后呈现给用户。
技术关键词
关键帧
多模态
场景
文本特征向量
模态特征
图像特征向量
图像特征提取
视频特征向量
自然语言
ResNet网络
计算机程序产品
字幕
像素
前馈神经网络
特征提取单元
语义
可读存储介质
系统为您推荐了相关专利信息
运营控制平台
安全监控平台
景区设备
智能控制系统
硬件设备
配电网继电保护
定值整定方法
分布式新能源
继电保护装置定值
配电网短路
图像
电力设备
多模态特征融合
开关特征
卷积神经网络提取
实景三维模型
仿真方法
路径查找算法
集群
三维空间信息