摘要
本发明提出一种基于多模态信息融合的视频检索方法及系统,属于人工智能设备技术领域,包括:视频帧抽取与编码模块用于获取视频,对视频进行视频帧抽取获得图形序列,对图形序列进行特征编码;音频分离与编码模块用于提取视频的音频部分;文本编码模块用于对视频的描述文件进行编码;对齐模块用于对音频,图像和文字及进行对齐,多模态融合与理解模块用于实现不同模态间的深度交互和信息融合;文字生成模块基于多模态特征进行文字信息的生成,不仅能够高效地融合和处理文字、图像、音频等多元信息,还包含了先进的量化技术以降低模型体积、减少计算资源消耗,同时确保模型性能。
技术关键词
多模态信息融合
视频检索方法
编码模块
多模态特征
音频
序列
动态时间规整
视频帧
对齐模块
文本
图像
编码器
时空注意力机制
权重分配策略
增强型动态
系统为您推荐了相关专利信息
缺陷检测算法
异构计算架构
任务分配策略
注意力
配准算法
视频序列分割方法
编解码器
融合特征
语义
多尺度特征提取
模式特征向量
教育机器人
语音
细粒度特征
时序特征
智能语义理解
摘要生成系统
版面结构
光学字符识别
HDMI输入