摘要
本发明涉及数字人技术领域,公开了一种数字人语音交互优化方法及系统,通过预训练的语音识别模型获取用户的实时语音流,得到实时语音流的文字识别结果;将文字识别结果输入预训练的大语言模型,生成回答文本;将回答文本通过预训练的语音合成模型合成回答语音流;根据语音识别模型的识别延迟判断是否需要添加语气词;根据当前对话的上下文通过预训练的上下文感知模型选择目标语气词,并将目标语气词插入回答语音流的最前端,得到更新后的回答语音流;将回答语音流通过音频输出模块进行实时播放,实现数字人的语音交互。本发明能够降低用户对延迟的感知,提升系统的响应速度,使得语音交互更加自然、流畅,提升用户使用体验。
技术关键词
实时语音
交互优化方法
语音识别模型
音频输出模块
文本
语音识别模块
深度学习模型
系统实时监控
负载均衡算法
构建知识图谱
波形
识别策略
实体
提升系统
核心
关系
编码
系统为您推荐了相关专利信息
实体链接模型
数据构造方法
生成训练数据
采集平台
军事
模型合并方法
掩码矩阵
大语言模型
预训练模型
参数
大语言模型
语义检索模型
数值
信息处理技术
系列