摘要
本申请涉及视频内容理解技术领域,具体涉及多模态广告库存智能匹配系统的视频内容理解方法,该方法包括:以原始广告视频的视频帧为基准,在每个视频帧的时间戳所在镜头中,分析相邻视频帧的相似度以及语音段对应特征矩阵元素的离散程度,确定第一搜索窗口;同时,分析文本片段在单位时间内的出现频率和持续时长,确认第二搜索窗口;基于搜索窗口,分析语音段和文本片段在对应窗口内与视频帧的特征相似程度,获取最优对齐路径;将语音段、文本片段的时间戳与视频帧时间戳对齐,通过多模态融合技术、深度学习模型实现多层级语义解析。本申请旨在同步音频、文本与视频帧之间的时序关系,提示视频内容理解的准确性。
技术关键词
视频内容理解方法
智能匹配系统
视频帧
文本
广告
语音
多模态融合技术
视频内容理解技术
序列
镜头
音频特征
视觉特征
深度学习模型
因子
Sigmoid函数
矩阵
基准
语义向量