摘要
本发明提供了一种言语阻滞患者语音矫正方法、装置和存储介质,涉及语音识别技术领域,包括:将待处理的语音转换为文本信息,生成输入文本;将输入文本输入T5模型进行优化和纠错,以获取纠错后的文本,期间在T5模型的解码器模块将正在生成的文本与正在生成的文本的上下文信息进行关联;基于VITS模型对纠错后的文本进行语音合成,以获取矫正后的语音,期间将BERT模型嵌入至VITS模型,以融合BERT模型的语言表示能力和VITS模型的序列生成效果。本发明不仅改善了纠错任务的整体质量,还增强了对个体差异的适应性,为口吃患者的矫正提供了更全面的解决方案。
技术关键词
矫正方法
BERT模型
文本
纠错
患者
语音矫正装置
语音识别技术
前馈神经网络
存储程序指令
可读存储介质
序列
解码器
口吃
存储器
计算机
注意力
非线性
阶段
系统为您推荐了相关专利信息
继电保护装置
动作识别模型
电网运行数据
人工智能技术
长短期记忆网络
数据实时交互
配准系统
锥形束计算机断层扫描
分层
交互机制
血管壁
病变特征
医学影像分析方法
图像检测模型
患者
知识库管理系统
性能监控
事件驱动机制
自然语言理解技术
修正错别字