摘要
本发明公开一种基于大语言模型的构音障碍语音实时转换系统,包括:基于ASR的语音识别模块,采用Whisper ASR模型将构音障碍患者的输入语音转换为初始文本;基于LLM的语义修正模块,集成Qwen2.5‑7B‑Instruct大语言模型,通过双阶段提示工程技术对初始文本进行语义纠错和情感增强;基于TTS的语音合成模块,采用CosyVoice TTS模型将修正后的文本转换为自然语音输出;实时性优化模块,通过动态语音缓冲机制、边缘‑云协同架构及模型量化技术,控制端到端延迟满足实时因子;个性化联邦学习模块,采用LightFed‑Cluster框架结合差分隐私保护,对ASR和LLM模型进行用户自适应微调;本发明实现了语义准确度、语音清晰度、语音自然度、转换时延的大幅改进,更适合构音障碍患者进行辅助与替代性沟通。
技术关键词
大语言模型
差分隐私保护
语音识别模块
自然语音
短时傅里叶变换
文本
语义
频谱特征提取
会议场景
微调方法
生成语音
声纹特征
投影技术
语音特征
模型更新
阶段
动态
频率响应
系统为您推荐了相关专利信息
网络自愈方法
大语言模型
电力自动化系统
电力系统自动化系统
机器学习算法
采集组件
车载端信息
匹配模块
信息存储模块
监测模块
文本分类模型
多层次特征融合
关键词
输出特征
融合特征