一种依据文本生成多声源的双耳空间音频的方法及装置

正文

推荐专利

申请号：CN202510413478

申请日期：2025-04-03

公开号：CN120199227A

公开日期：2025-06-24

类型：发明专利

摘要

本发明公开了一种依据文本生成多声源的双耳空间音频的方法及装置，其中的方法包括如下步骤：输入对音频的描述型文本或者参数型文本；采用大语言模型对描述型文本或者参数型文本进行预处理，生成包含声音事件、声音时长、声源位置信息和时序信息的结构性信息；利用扩散模型生成若干个与输入文本中声音事件、声音时长对应的单通道音频；采用双耳渲染模型将所有单通道音频渲染为与输入文本中声源位置信息相符的双耳音频；根据输入文本中各声源的时序信息将渲染得到的各个双耳音频合成为目标双耳音频。本发明可以在声源位置缺失时依据物理规律给出合理的声源方位，大大提高了文本转双耳空间音频的准确性。

技术关键词

双耳音频文本多声源大语言模型时序短时傅里叶变换声源特征信号处理方法傅立叶参数生成工具多分辨率处理器声道语音计算机设备输入模块可读存储介质

系统为您推荐了相关专利信息

一种基于多模态特征偏差高斯化的过程协同学习方法

协同学习方法多模态特征网络学生转换器

一种纪要生成方法及相关装置

会议纪要生成方法音频样本文本

基于门控特征选择与专家建模的多模态情感识别方法及系统

情感识别方法融合特征预测情感状态特征选择多头注意力机制

一种基于属性感知的Web网页信息抽取方法及装置

网页信息抽取方法信息抽取模型预训练模型序列 HTTP请求报文

结合视觉和语言指令引导的机器人抓取方法、装置

融合视觉特征机器人抓取方法投射器文本指令

一种依据文本生成多声源的双耳空间音频的方法及装置

站点导航

APP 下载