摘要
一种多模态音视频检测和智能交互方法,机器人与人的多模态感知和互动,在听力测试模式,对不同的人群进行听力测试;先识别出人脸,再对面部进行定位,计算并输出面部的距离;当识别人脸与相机的距离等于基准值时,进行听力测试;听力测试对在声源定位:先是对多路麦克风输入的音频信号进行带通滤波,滤除部分噪声,采用PHAT加权函数,消除混响干扰,抑制局部峰值,接着进行声源定位:在该模式下,机器人根据人体识别和语音大小进行移动;由主控模块分别采集图像信号和音频信号,通过YOLOv算法识别出人体,同时检测出音量大小;当音频信号较小时,检测出人体的方位,将机器人移动方向发送给底盘,从而控制移动底盘向人体移动。
技术关键词
智能交互方法
主控模块
音视频
语音
音频
多路麦克风
听力
信号
H264视频编码
SVM分类器
检测出人体
移动底盘
视觉词典
Hessian矩阵
图像处理模块
关键点检测方法
控制移动机器人
系统为您推荐了相关专利信息
编码特征
文本情感识别方法
语音特征
跨模态
多层次
历史交互信息
意图识别模型
交互主题
交互方法
眼动数据
音频特征
音频识别方法
计算机程序代码
音频识别装置
车辆
谣言检测方法
情感特征
音频特征
序列
长短期记忆神经网络