摘要
提供了用于实时活动说话者检测的方法和系统。活动说话者检测(ASD)系统包括捕捉包括第一人的视觉场景的视觉传感器。ASD系统还包括计算机系统,计算机系统包括视听编码器和分类器。计算机系统被配置成从视觉传感器获得第一组帧和第二组帧,并且使用视听编码器分别根据第一组帧和第二组帧产生第一嵌入和第二嵌入。计算机还被配置成根据第一嵌入和第二嵌入生成一个或更多个复合嵌入,并且使用分类器确定一个或更多个复合嵌入中的每个复合嵌入的ASD评分。计算机还被配置成聚集一个或更多个ASD评分以形成检测结果,并且基于检测结果确定第一人是否正在说话。
技术关键词
度量
视觉传感器
视听
计算机系统
分类器
编码器
递归神经网络
计算机可执行指令
场景
介质
处理器
系统为您推荐了相关专利信息
仿海龟机器人
海底管道泄漏监测
重心调节机构
直线导向机构
多模态控制方法
转向系统控制方法
自动助力
PID控制器
力矩
数学模型
机器学习模型
非接触式
指标
梯度提升机
可见光视频
风险
统计特征提取
学习算法
语义特征提取
存储系统执行