摘要
本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧,输入到Transformer编码器中,得到视觉特征;从音频段获取GAF频谱图,提取对应的频谱信息,输入卷积模块,输出音频特征;将视觉特征输入改进的Transformer编码器,得到视觉语义特征;将音频特征输入ResNet18卷积神经网络,得到音频语义特征;将视觉语义特征和音频语义特征进行融合后输入全连接层,输出质量评价分数,进行质量评价。以此方式,可以解决现有技术中对音频和视频特征特征提取不准确,忽略交互作用,仅进行简单融合获取整体质量评价分数,无法获取较好的性能的技术问题。
技术关键词
语义特征
融合语义信息
音频特征
视觉特征
编码器
听觉
视频段
评价方法
网络结构
卷积模块
对音视频
关键帧
评价装置
计算机
处理器
系统为您推荐了相关专利信息
分布式光伏发电系统
编码向量
特征提取单元
时序
天气状况数据
状态检测方法
矩阵
香原料
深度神经网络模型
红茶