基于自回归语音合成的大模型实时语音交互方法及装置

AITNT
正文
推荐专利
基于自回归语音合成的大模型实时语音交互方法及装置
申请号:CN202510386689
申请日期:2025-03-28
公开号:CN120340472A
公开日期:2025-07-18
类型:发明专利
摘要
本发明提出一种基于自回归语音合成的大模型实时语音交互方法和装置,包括:获取已标记目标文本响应和目标语音响应的语音指令,语音编码器将该语音指令编码为语音表示,语音适配器对该原语音表示进行降维和特征转换;大语言模型根据转换后的该语音表示,生成隐藏状态及采样该隐藏状态,得到的文本序列;采用基于自回归Transformer结构的文本‑语音语言模型处理该文本序列,流式生成语音标记序列,将该语音标记序列通过声码器转换为语音信号。本发明的方法在保证高实时性的同时,大幅提升语音合成的自然度和流畅性。优化的语音解码架构有效降低了语音生成延迟,提升了语音交互系统的响应速度。
技术关键词
语音适配器 实时语音 文本 生成语音 语音编码器 交互方法 序列 交互装置 标记 信息显示设备 大语言模型 声码器 降维特征 语音交互系统 人工智能模型 解码架构 信号
系统为您推荐了相关专利信息
1
一种审计底稿推荐方法、装置及可读存储介质
关键词 文本 标签 推荐方法 语义向量
2
一种政策智能分析方法及系统
标签 矩阵 序列 编码向量 智能分析方法
3
视频生成提示模型的优化方法、系统、设备及存储介质
数据 大语言模型 视频生成模型 文本 人工智能技术
4
一种基于AI的会议全流程管控与可信数据追溯系统
会议 对象 追溯系统 可信管理 计划
5
一种基于大语言模型的实体标注方法及装置
文本 实体标注方法 大语言模型 生成提示信息 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号