摘要
本发明提出一种基于人工智能的智能音箱语音处理方法及系统,包括:获取音频数据和口型视频数据,对两者进行处理后执行多模态特征融合,得到融合特征;对融合特征进行双模态语音活动检测,获得有效语音数据;对有效语音数据进行音视频融合的上下文感知识别,得到第一文本;构建用户特征模型,基于该模型对文本进行语义理解,得到理解结果;基于理解结果进行意图识别和槽位填充,获得用户意图和关键信息;结合用户意图、关键信息和环境感知数据,生成响应策略;根据响应策略生成响应语音;实时监测用户对响应语音的反馈信息,基于反馈更新用户特征模型和响应策略评估模型。通过本方案,能更准确地识别语音并增强系统的安全性和鲁棒性。
技术关键词
智能音箱
环境感知数据
意图识别
语义
声学特征
融合特征
多模态特征融合
音频
语音活动检测
文本
视觉
注意力
序列
协同控制策略
意图类别
系统为您推荐了相关专利信息
缺陷识别方法
高压断路器
注意力
特征提取器
特征提取模块
医患交互系统
生成动态二维码
报告
安全监控模块
可视化界面