一种多模态音视频检测和智能交互方法

正文

推荐专利

一种多模态音视频检测和智能交互方法

申请号：CN202511075648

申请日期：2025-08-01

公开号：CN120825559A

公开日期：2025-10-21

类型：发明专利

摘要

一种多模态音视频检测和智能交互方法，机器人与人的多模态感知和互动，在听力测试模式，对不同的人群进行听力测试；先识别出人脸，再对面部进行定位，计算并输出面部的距离；当识别人脸与相机的距离等于基准值时，进行听力测试；听力测试对在声源定位：先是对多路麦克风输入的音频信号进行带通滤波，滤除部分噪声，采用PHAT加权函数，消除混响干扰，抑制局部峰值，接着进行声源定位：在该模式下，机器人根据人体识别和语音大小进行移动；由主控模块分别采集图像信号和音频信号，通过YOLOv算法识别出人体，同时检测出音量大小；当音频信号较小时，检测出人体的方位，将机器人移动方向发送给底盘，从而控制移动底盘向人体移动。

技术关键词

智能交互方法主控模块音视频语音音频多路麦克风听力信号 H264视频编码 SVM分类器检测出人体移动底盘视觉词典 Hessian矩阵图像处理模块关键点检测方法控制移动机器人

系统为您推荐了相关专利信息

一种基于大模型的多模态RAG、装置、设备及存储介质

课件内容多模态技术分片索引文本

一种基于多层次跨模态融合的语音和文本情感识别方法

编码特征文本情感识别方法语音特征跨模态多层次

基于模型的交互方法及系统、可穿戴设备、存储介质

历史交互信息意图识别模型交互主题交互方法眼动数据

音频识别方法、装置、设备以及存储介质

音频特征音频识别方法计算机程序代码音频识别装置车辆

一种基于话题音频化的谣言检测方法

谣言检测方法情感特征音频特征序列长短期记忆神经网络

一种多模态音视频检测和智能交互方法

站点导航

APP 下载