摘要
本发明提供一种视频通话用户体验质量评价方法、装置、设备及介质,应用于视频通话场景,用于评价被呼叫端在视频通话中的用户体验质量,该方法包括:从视频通话的被呼叫端的目标视频中获取帧图像序列;通过多种特征提取器,从帧图像序列中提取出第一多模态特征,通过跨模态多感知特征融合器,对第一多模态特征进行融合,得到第一多感知特征;通过质量评价模型,根据第一多感知特征,对目标视频进行评价,得到预测分数;质量评价模型是以在真实移动网络条件下的、同一呼叫端与不同被呼叫端之间的多个视频通话的真实视频通话数据为样本数据,对神经网络进行训练得到的,样本数据携带主观评分,主观评分为多名专家对真实视频通话数据的主观评分。
技术关键词
感知特征
视频通话数据
多模态特征
特征提取器
评价方法
图像
位置编码单元
视频通话场景
跨模态
序列
融合器
移动网络
拉普拉斯
注意力
样本
全局平均池化
特征提取模块
饱和度
系统为您推荐了相关专利信息
语言模型优化方法
样本
视觉
文本编码器
缓冲区管理
内容过滤方法
编码向量
多模态协同
全局信息整合
文本
检测分类模型
机器学习技术
校准实验室
频域特征
多模态特征融合