一种依据文本生成多声源的双耳空间音频的方法及装置

AITNT
正文
推荐专利
一种依据文本生成多声源的双耳空间音频的方法及装置
申请号:CN202510413478
申请日期:2025-04-03
公开号:CN120199227A
公开日期:2025-06-24
类型:发明专利
摘要
本发明公开了一种依据文本生成多声源的双耳空间音频的方法及装置,其中的方法包括如下步骤:输入对音频的描述型文本或者参数型文本;采用大语言模型对描述型文本或者参数型文本进行预处理,生成包含声音事件、声音时长、声源位置信息和时序信息的结构性信息;利用扩散模型生成若干个与输入文本中声音事件、声音时长对应的单通道音频;采用双耳渲染模型将所有单通道音频渲染为与输入文本中声源位置信息相符的双耳音频;根据输入文本中各声源的时序信息将渲染得到的各个双耳音频合成为目标双耳音频。本发明可以在声源位置缺失时依据物理规律给出合理的声源方位,大大提高了文本转双耳空间音频的准确性。
技术关键词
双耳音频 文本 多声源 大语言模型 时序 短时傅里叶变换 声源特征 信号处理方法 傅立叶 参数 生成工具 多分辨率 处理器 声道 语音 计算机设备 输入模块 可读存储介质
系统为您推荐了相关专利信息
1
一种基于多模态特征偏差高斯化的过程协同学习方法
协同学习方法 多模态特征 网络 学生 转换器
2
一种纪要生成方法及相关装置
会议纪要 生成方法 音频 样本 文本
3
基于门控特征选择与专家建模的多模态情感识别方法及系统
情感识别方法 融合特征 预测情感状态 特征选择 多头注意力机制
4
一种基于属性感知的Web网页信息抽取方法及装置
网页信息抽取方法 信息抽取模型 预训练模型 序列 HTTP请求报文
5
结合视觉和语言指令引导的机器人抓取方法、装置
融合视觉特征 机器人抓取方法 投射器 文本 指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号