基于多模态统一表征的视频语言时序定位方法及系统

AITNT
正文
推荐专利
基于多模态统一表征的视频语言时序定位方法及系统
申请号:CN202510204821
申请日期:2025-02-24
公开号:CN120144823B
公开日期:2025-12-26
类型:发明专利
摘要
本发明公开了基于多模态统一表征的视频语言时序定位方法及系统,对原始视频进行预处理,使用骨干网络提取语言查询的特征和预处理视频的特征,利用高斯混合模型对提取特征进行统一表征建模,将基于高斯混合统一表征的特征输入多层感知机模型中进行映射,将映射后特征与提取特征进行残差连接,得到最终特征;利用交叉注意力机制,捕获与语言查询有关的视频特征;分别输入时刻检索检测头和高光检测检测头中,得到时刻检索结果和高光检测结果;引入可学习的不确定性因子,得到时刻检索损失函数与高光检测损失函数;对时刻检索结果使用时刻检索损失函数,得到视频时刻检索结果,对高光检测结果使用高光检测损失函数,得到视频高光检测关键帧。
技术关键词
视频 交叉注意力机制 检测损失 定位方法 时序 关键帧 多层感知机 音频特征 视觉特征 优化高斯混合模型 多模态特征 网络 线性 因子 可视化模块 可读存储介质 特征提取模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号