基于自回归语音合成的大模型实时语音交互方法及装置

正文

推荐专利

申请号：CN202510386689

申请日期：2025-03-28

公开号：CN120340472A

公开日期：2025-07-18

类型：发明专利

摘要

本发明提出一种基于自回归语音合成的大模型实时语音交互方法和装置，包括：获取已标记目标文本响应和目标语音响应的语音指令，语音编码器将该语音指令编码为语音表示，语音适配器对该原语音表示进行降维和特征转换；大语言模型根据转换后的该语音表示，生成隐藏状态及采样该隐藏状态，得到的文本序列；采用基于自回归Transformer结构的文本‑语音语言模型处理该文本序列，流式生成语音标记序列，将该语音标记序列通过声码器转换为语音信号。本发明的方法在保证高实时性的同时，大幅提升语音合成的自然度和流畅性。优化的语音解码架构有效降低了语音生成延迟，提升了语音交互系统的响应速度。

技术关键词

语音适配器实时语音文本生成语音语音编码器交互方法序列交互装置标记信息显示设备大语言模型声码器降维特征语音交互系统人工智能模型解码架构信号

系统为您推荐了相关专利信息

一种审计底稿推荐方法、装置及可读存储介质

关键词文本标签推荐方法语义向量

一种政策智能分析方法及系统

标签矩阵序列编码向量智能分析方法

视频生成提示模型的优化方法、系统、设备及存储介质

数据大语言模型视频生成模型文本人工智能技术

一种基于AI的会议全流程管控与可信数据追溯系统

会议对象追溯系统可信管理计划

一种基于大语言模型的实体标注方法及装置

文本实体标注方法大语言模型生成提示信息数据

基于自回归语音合成的大模型实时语音交互方法及装置

站点导航

APP 下载