摘要
本申请实施例提供一种多模态组合视频检索方法及装置,包括:获取文字信息和视觉信息;从所述文字信息中提取文字特征;从所述视觉信息中提取视觉特征;根据所述文字特征,从所述视觉信息中提取视觉语义特征;从所述文字特征和视觉语义特征中提取所述文字特征和视觉语义特征之间的共同特征和差异特征;根据所述视觉特征和共同特征,查询预设的视频信息库,得到与所述视觉特征和共同特征匹配的多个视频检索结果;根据差异特征对多个视频检索结果进行筛选,得到筛选后的视频检索结果。本申请能够融合多模态信息的有效信息,准确理解用户的真实意图,提高多模态组合式视频检索的准确性。
技术关键词
语义特征
文字特征
视觉特征
视频检索方法
图像匹配
融合多模态信息
大语言模型
视频检索装置
指纹特征
空间关系特征
场景
情感特征
声纹特征
音频特征
模块
纹理特征
系统为您推荐了相关专利信息
大语言模型
语音活动检测
日志
自动语音识别
文本
文本摘要生成方法
多模态
卷积神经网络提取
文本生成模型
语义特征
内容识别系统
多模态特征融合
注意力机制
内容识别方法
特征提取模块
语义特征
神经网络对图像
像素
数据
存储计算机程序