摘要
本发明涉及互联网电视服务技术领域,具体为基于多模态智能体驱动的OTT视觉特征提取系统及方法,包括:捕获设备的屏幕实时视频流;对目标广告图像及实时视频流进行处理,通过多模态视觉感知模型提取出双流异构视觉特征,包括全局内容感知特征和局部几何结构特征;执行分层匹配算法,利用全局内容感知特征进行计算筛选出候选帧,在候选帧内利用局部几何结构特征进行匹配建立包含所有匹配的初始关键点对应关系集合,对集合进行空间聚类分离出广告实例,通过几何变换计算获得实例的边界框;根据边界框,在原始视频帧上对目标广告所在区域进行高亮显示生成可视化监播结果。本发明通过多模态智能体驱动,实现OTT广告视觉特征提取与监播。
技术关键词
视觉特征提取
实时视频流
感知特征
广告
关键点
多模态注意力
编码器
通道注意力机制
物联网接口
生成高分辨率
指令
异构
多层感知机
空间邻近关系
图像
屏幕
系统为您推荐了相关专利信息
自动化图像处理
面部关键点检测
人脸检测算法
人脸特征识别技术
贴图
坐标
投影方法
图像投影
映射关系表
RANSAC算法
模拟真实场景
运动图像序列
关键点
三维模型
图像仿真系统
心脏模型
左心室
离子通道
心肌细胞
心脏电生理研究