摘要
本披露公开了一种用于对有声读物大模型进行训练的方法及相关产品。该方法包括:获取第一音频,第一音频为单个人的人声干音和音乐元素的混合音频,音乐元素包括音效和/或背景音乐;对第一音频进行预处理,以获得第一音频的文本信息、第一描述信息、第一量化编码、第二描述信息和第二量化编码;根据思维链将文本信息、第一描述信息、第一量化编码、第二描述信息和第二量化编码进行组合,以获得模型提示词;将模型提示词输入至有声读物大模型中,以实现对有声读物大模型进行训练。利用训练完成的有声读物大模型可以获得人声富有情感、且带有音效和背景音乐的有声读物音频,内容更加生动有趣,提升了有声读物的质量及用户的听觉体验。
技术关键词
有声读物
人声
音乐
音频解码器
编码
生成对抗网络
元素
文本
音效
风格
语义特征
自然语言
框架
程序
处理器
指令
可读存储介质
模块
场景
系统为您推荐了相关专利信息
传感器节点
无线传感器网络
传输方法
中继节点
冗余
BP模型
BP神经网络模型
三维重建方法
优化BP神经网络
Sigmoid函数
半导体硅单晶生长
温度预测方法
教师
学生
中间层
池塘水产养殖
遥感识别方法
影像编码器
注意力机制
归一化水体指数