摘要
本发明公开了一种基于多尺度与CLIP语义监督的AI视频质量评估方法及装置,该方法结合了CLIP语义监督和交叉注意力机制。具体实现包括:为了对视频内容中嵌入的信息进行最大化提取和利用,分别从单个帧、帧片段和整个视频三个层面进行视频分析;为了确保生成的视频与提供的提示保持一致,本发明引入了提示语义监督模块,该模块利用CLIP文本编码器的编码能力,语义地评估视频与提示之间的一致性;考虑到人工智能生成视频的语义变化,本发明还引入了语义突变感知模块,该模块具备捕捉帧间微妙语义变化的基本建模能力。最终,通过我们精心设计的模型,可以有效地评估人工智能生成视频的质量。
技术关键词
语义
多尺度
视频段
文本编码器
视频帧特征
图像编码器
Sigmoid函数
交叉注意力机制
数据
视频分支
适配器
计算机程序产品
视频分析
处理器
评估装置
模块
可读存储介质
系统为您推荐了相关专利信息
问答场景
扩展问答知识库
智能客服系统
存储模块
问答对数据
语义实体
关系建模
语义技术
识别网络攻击
知识本体
说话人识别方法
Softmax函数
说话人识别模型
融合特征
动静态特征
多时空尺度
耦合特征
保护区
动态权重分配
空间多尺度
图像超分辨率
神经网络单元
局部特征提取
代表
滑动窗口