摘要
本发明公开了一种基于语义分割与多模态上下文融合的视频广告智能插入方法及系统。通过像素级语义掩码与多帧时序分析,自动识别视频中可用于广告嵌入的空间空档区域,并结合结构相似度与亮度变化等指标进行背景稳定性判断;构建多模态上下文建模器,融合人物情绪向量、视频节奏向量及场景结构向量,通过交叉注意力机制生成上下文情境向量,并输出插入适宜性评分。当评分达到设定阈值且空档区域满足条件时,系统执行广告生成与视觉融合操作,实现与原视频内容风格一致的自然广告插入。该方法适用于短视频与直播等多种内容平台,实验表明可显著提升点击率与完播率,降低跳出率。
技术关键词
时间滑动窗口
广告插入系统
视频
面部表情识别
交叉注意力机制
多模态
语义分割模型
上下文特征
场景结构
分析模块
人脸图像特征
像素
控制模块
亮度
识别模块
生成广告