摘要
本发明涉及语音分析技术领域,具体涉及基于语音控制的多模态智能终端AI语音唤醒方法和装置,包括:利用语音模型提取每个语音样本的特征,利用视频模型提取每个面部动作样本的特征;包含唤醒语音的语音样本的记为正样本,不包含唤醒语音的语音样本记为负样本,利用正、负样本对应的面部动作样本的特征更新语音模型的参数以及更新正、负样本对应的面部动作样本,然后利用更新后的面部动作样本更新视频模型的参数;并重复上述参数更新过程。本发明在不显著增加模型参数的前提下,实现复杂且多变的语音环境下高效、准确的语音唤醒功能。
技术关键词
AI语音
样本
唤醒方法
智能终端
生成向量
视频
面部关键点检测
参数
语音分析技术
语音唤醒功能
麦克风
曲线
直方图
唤醒装置
人脸
相机
处理器
系统为您推荐了相关专利信息
列车地板
决策树模型
优化装置
混响时间
剪切模量
智能推荐方法
智能模型
分布参数模型
在线
模型推荐方法
医疗诊断方法
医学影像信息
多模态
医学知识库
视觉特征
地下水系统
参数反演方法
拉丁超立方抽样方法
深度神经网络
反演装置
集成学习模型
条件生成对抗网络
超参数
样本
变量