一种多模态音视频检测和智能交互方法

AITNT
正文
推荐专利
一种多模态音视频检测和智能交互方法
申请号:CN202511075648
申请日期:2025-08-01
公开号:CN120825559A
公开日期:2025-10-21
类型:发明专利
摘要
一种多模态音视频检测和智能交互方法,机器人与人的多模态感知和互动,在听力测试模式,对不同的人群进行听力测试;先识别出人脸,再对面部进行定位,计算并输出面部的距离;当识别人脸与相机的距离等于基准值时,进行听力测试;听力测试对在声源定位:先是对多路麦克风输入的音频信号进行带通滤波,滤除部分噪声,采用PHAT加权函数,消除混响干扰,抑制局部峰值,接着进行声源定位:在该模式下,机器人根据人体识别和语音大小进行移动;由主控模块分别采集图像信号和音频信号,通过YOLOv算法识别出人体,同时检测出音量大小;当音频信号较小时,检测出人体的方位,将机器人移动方向发送给底盘,从而控制移动底盘向人体移动。
技术关键词
智能交互方法 主控模块 音视频 语音 音频 多路麦克风 听力 信号 H264视频编码 SVM分类器 检测出人体 移动底盘 视觉词典 Hessian矩阵 图像处理模块 关键点检测方法 控制移动机器人
系统为您推荐了相关专利信息
1
一种基于大模型的多模态RAG、装置、设备及存储介质
课件内容 多模态技术 分片 索引 文本
2
一种基于多层次跨模态融合的语音和文本情感识别方法
编码特征 文本情感识别方法 语音特征 跨模态 多层次
3
基于模型的交互方法及系统、可穿戴设备、存储介质
历史交互信息 意图识别模型 交互主题 交互方法 眼动数据
4
音频识别方法、装置、设备以及存储介质
音频特征 音频识别方法 计算机程序代码 音频识别装置 车辆
5
一种基于话题音频化的谣言检测方法
谣言检测方法 情感特征 音频特征 序列 长短期记忆神经网络
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号