摘要
本发明公开了一种基于音色与情感模拟的数据输出方法及系统,涉及数据处理技术领域,包括:接收角色扮演数据和音色数据,对角色扮演数据和音色数据进行预处理,得到角色扮演数据集和音色数据集;将角色扮演数据集输入至预先建立的llama3模型内进行训练,输出得到角色扮演模型,将音色数据集输入至预先建立的GPT‑SoVITS模型内进行训练,输出得到音色模型;获取用户实时对话语音数据,对用户实时对话语音数据进行去杂声处理,基于CTC贪心搜索算法对处理的用户实时对话语音数据进行音素与汉字的转化,得到识别文本;将识别文本输入至预先建立的分词模型内,通过子词标记策略,采用字节对编码的方法,得到参数文件,将识别文本进行切片,将切片文本输入llama3模型内,结合参数文件进行预测,输出得到预测文本;将预测文本输入至音色模型内,得到语音输出结果,并将语音输出结果返回给用户。
技术关键词
数据输出方法
文本
分词模型
搜索算法
切片
数据输出系统
自动语音识别
汉字
模型训练模块
标签
处理器
可读存储介质
数据处理技术
数据处理模块
参数
生成特征
注意力机制
随机噪声