用于实时活动说话者检测的方法和系统

AITNT
正文
推荐专利
用于实时活动说话者检测的方法和系统
申请号:CN202510325608
申请日期:2025-03-19
公开号:CN120781146A
公开日期:2025-10-14
类型:发明专利
摘要
提供了用于实时活动说话者检测的方法和系统。活动说话者检测(ASD)系统包括捕捉包括第一人的视觉场景的视觉传感器。ASD系统还包括计算机系统,计算机系统包括视听编码器和分类器。计算机系统被配置成从视觉传感器获得第一组帧和第二组帧,并且使用视听编码器分别根据第一组帧和第二组帧产生第一嵌入和第二嵌入。计算机还被配置成根据第一嵌入和第二嵌入生成一个或更多个复合嵌入,并且使用分类器确定一个或更多个复合嵌入中的每个复合嵌入的ASD评分。计算机还被配置成聚集一个或更多个ASD评分以形成检测结果,并且基于检测结果确定第一人是否正在说话。
技术关键词
度量 视觉传感器 视听 计算机系统 分类器 编码器 递归神经网络 计算机可执行指令 场景 介质 处理器
系统为您推荐了相关专利信息
1
故障诊断模型的构建方法、故障诊断方法、系统及设备
故障诊断模型 磁控机构 编解码器 断路器 分类器
2
海底管道泄漏监测用的仿海龟机器人及其多模态控制方法
仿海龟机器人 海底管道泄漏监测 重心调节机构 直线导向机构 多模态控制方法
3
一种自动助力转向系统控制方法
转向系统控制方法 自动助力 PID控制器 力矩 数学模型
4
非接触式认知表现预测方法
机器学习模型 非接触式 指标 梯度提升机 可见光视频
5
一种数据存储安全监测方法和系统
风险 统计特征提取 学习算法 语义特征提取 存储系统执行
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号