摘要
本发明公开了一种依据文本生成多声源的双耳空间音频的方法及装置,其中的方法包括如下步骤:输入对音频的描述型文本或者参数型文本;采用大语言模型对描述型文本或者参数型文本进行预处理,生成包含声音事件、声音时长、声源位置信息和时序信息的结构性信息;利用扩散模型生成若干个与输入文本中声音事件、声音时长对应的单通道音频;采用双耳渲染模型将所有单通道音频渲染为与输入文本中声源位置信息相符的双耳音频;根据输入文本中各声源的时序信息将渲染得到的各个双耳音频合成为目标双耳音频。本发明可以在声源位置缺失时依据物理规律给出合理的声源方位,大大提高了文本转双耳空间音频的准确性。
技术关键词
双耳音频
文本
多声源
大语言模型
时序
短时傅里叶变换
声源特征
信号处理方法
傅立叶
参数
生成工具
多分辨率
处理器
声道
语音
计算机设备
输入模块
可读存储介质
系统为您推荐了相关专利信息
情感识别方法
融合特征
预测情感状态
特征选择
多头注意力机制
网页信息抽取方法
信息抽取模型
预训练模型
序列
HTTP请求报文