摘要
本发明公开了一种基于多模态信息的空间音频播放系统评价方法和装置,属于空间音频理解领域。获取多场景下的训练集,利用空间音频编码器,提取声学与空间线索,捕捉细粒度的感知模式来实现空间音频表征,生成空间音频嵌入特征和编码后的条件嵌入特征;基于空间音频嵌入特征完成第一阶段训练;再由声音‑视觉协同编码器对播放环境全景图像空间特征、空间音频嵌入特征和编码后的条件嵌入特征进行声音‑视觉协同编码,得到视觉音频联合嵌入特征;基于视觉音频联合嵌入特征完成第二阶段训练。本发明可用于有效指导室内场景下空间音频播放系统的质量优化,解决了现有技术中对空间音频播放系统的声场、声像感知维度评价不足的问题。
技术关键词
嵌入特征
音频播放系统
多模态信息
评价方法
频谱特征
音频编码器
双声道
立体声
视觉
前馈神经网络
查询特征
路由器
编码块
距离估计
计算机电子设备
频率
系统为您推荐了相关专利信息
调制模式识别方法
偏最小二乘回归算法
频谱特征
矩阵
非线性
混合整数线性规划模型
嵌入特征
样本
神经网络模型
车辆
语言翻译方法
多头注意力机制
神经网络模型
融合特征
解码器