摘要
本发明提供一种语音处理方法、装置及XR设备,涉及语音处理技术领域,其中方法应用于扩展现实XR设备,包括:获取当前场景图像及用户的当前头部姿态数据;根据所述当前场景图像和所述当前头部姿态数据,确定目标注视对象;获取所述目标注视对象的实时音频数据和实时视频数据;通过语音分离模型,对所述实时音频数据和所述实时视频数据进行处理,确定所述目标注视对象的目标音频信号。本发明能够在不增加XR设备的额外硬件成本、且无需依赖目标说话对象的先验信息的前提下,准确地识别出目标说话对象的语音信号。
技术关键词
实时视频
对象
语音
数据
音频编码器
音频解码器
音视频
人脸检测算法
分块
场景
图像
音频特征
时间滑动窗口
视觉特征
坐标系
信号
序列
系统为您推荐了相关专利信息
大语言模型
并行调度方法
插件数据
生成执行计划
规划
地形特征提取
子模块
三维地形数据
水文
生态系统
语义图谱
命名实体识别
大语言模型
动态
神经网络训练
人工智能数据
隐私保护系统
零知识证明
隐私保护模块
节点