摘要
本发明公开了一种基于AI大模型的机器人可视化交互控制方法,首先对音频采样结果进行音频预处理,然后将处理后的数据输入到语音识别模型中和AI大模型中,AI大模型将文本分类进行分析处理,判断语音识别结果是智能控制问题还是智能交互问题并分别进行控制或回复,控制命令发送给智能终端设备,回复文本输入语音合成模型,获得合成后的回复音频;合成音频输入AI对口模型中合成数字人交互视频并由AI数字人播报回复内容。本发明将大模型与自然语言音频数据合成为数字人的面部动作,极大的提高了智能交互控制系统的可视化交互效果,同时采用微调大模型实现更好的场景落地,提高了系统的泛化能力,具备多平台智能家居设备控制方法,具有极高的可扩展性。
技术关键词
机器人可视化
交互控制方法
文本
CTC算法
智能家居设备控制方法
语音识别模型
交互视频
深层卷积神经网络
音频采样
智能机器人
概率分布建模
统计语言模型
交互控制系统
语谱图
隐马尔可夫模型
拼音
注意力机制
命令
系统为您推荐了相关专利信息
智能评估系统
脑电信号分析
脑电信号采集模块
情景
触觉刺激模块
冲突识别方法
语义
动态条件随机场
集成学习策略
文本