摘要
本发明提出一种基于自回归语音合成的大模型实时语音交互方法和装置,包括:获取已标记目标文本响应和目标语音响应的语音指令,语音编码器将该语音指令编码为语音表示,语音适配器对该原语音表示进行降维和特征转换;大语言模型根据转换后的该语音表示,生成隐藏状态及采样该隐藏状态,得到的文本序列;采用基于自回归Transformer结构的文本‑语音语言模型处理该文本序列,流式生成语音标记序列,将该语音标记序列通过声码器转换为语音信号。本发明的方法在保证高实时性的同时,大幅提升语音合成的自然度和流畅性。优化的语音解码架构有效降低了语音生成延迟,提升了语音交互系统的响应速度。
技术关键词
语音适配器
实时语音
文本
生成语音
语音编码器
交互方法
序列
交互装置
标记
信息显示设备
大语言模型
声码器
降维特征
语音交互系统
人工智能模型
解码架构
信号
系统为您推荐了相关专利信息
数据
大语言模型
视频生成模型
文本
人工智能技术
文本
实体标注方法
大语言模型
生成提示信息
数据