基于音视频特征融合的视频质量评价方法、装置和设备

AITNT
正文
推荐专利
基于音视频特征融合的视频质量评价方法、装置和设备
申请号:CN202411104706
申请日期:2024-08-13
公开号:CN118646929B
公开日期:2024-10-29
类型:发明专利
摘要
本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧,输入到Transformer编码器中,得到视觉特征;从音频段获取GAF频谱图,提取对应的频谱信息,输入卷积模块,输出音频特征;将视觉特征输入改进的Transformer编码器,得到视觉语义特征;将音频特征输入ResNet18卷积神经网络,得到音频语义特征;将视觉语义特征和音频语义特征进行融合后输入全连接层,输出质量评价分数,进行质量评价。以此方式,可以解决现有技术中对音频和视频特征特征提取不准确,忽略交互作用,仅进行简单融合获取整体质量评价分数,无法获取较好的性能的技术问题。
技术关键词
语义特征 融合语义信息 音频特征 视觉特征 编码器 听觉 视频段 评价方法 网络结构 卷积模块 对音视频 关键帧 评价装置 计算机 处理器
系统为您推荐了相关专利信息
1
基于基础模型的预测任务处理方法及装置
移动网络 数据 基础 掩膜 机制
2
一种基于计算机视觉的鱼体长度监测方法
长度监测方法 关键点 双目相机 坐标系 图像
3
一种视频生成内容可信检测方法及系统
可信检测方法 视频 指标 卷积编码器 运动特征
4
一种分布式光伏发电系统的反窃电系统
分布式光伏发电系统 编码向量 特征提取单元 时序 天气状况数据
5
一种茶叶萎凋状态检测方法及应用其的木韵红茶的制备方法
状态检测方法 矩阵 香原料 深度神经网络模型 红茶
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号