摘要
本披露公开了一种用于对有声读物大模型进行训练的方法及相关产品。该方法包括:获取第一音频,第一音频为单个人的人声干音和音乐元素的混合音频,音乐元素包括音效和/或背景音乐;对第一音频进行预处理,以获得第一音频的文本信息、第一描述信息、第一量化编码、第二描述信息和第二量化编码;根据思维链将文本信息、第一描述信息、第一量化编码、第二描述信息和第二量化编码进行组合,以获得模型提示词;将模型提示词输入至有声读物大模型中,以实现对有声读物大模型进行训练。利用训练完成的有声读物大模型可以获得人声富有情感、且带有音效和背景音乐的有声读物音频,内容更加生动有趣,提升了有声读物的质量及用户的听觉体验。
技术关键词
有声读物
人声
音乐
音频解码器
编码
生成对抗网络
元素
文本
音效
风格
语义特征
自然语言
框架
程序
处理器
指令
可读存储介质
模块
场景
系统为您推荐了相关专利信息
非结构化场景
语义分割方法
三维点云数据
富士苹果树
邻域特征
浓度预测方法
消息传递网络
多任务损失函数
空气质量监测站
空气质量预测技术
电路布局
矩阵
分区
Softmax函数
VLSI电路