摘要
本发明公开了一种基于多模态大模型的视频审核方法,包括:获取待审核视频,进行视频格式转换、视频质量提升等预处理操作,得到待审核多模态数据作为输入数据;输入数据为待审核多模态数据,包括图像序列Images、音频序列Audios、文本序列Texts;预处理得到多模态分类大模型网络,将输入数据输入至多模态分类大模型网络后输出分类结果及其对应分数,当分类结果为违规标签且对应分数大于预设阈值时,判定待审核视频为违规视频。本发明将图像特征、音频特征、文本特征使用改进注意力多模态特征融合方法进行特征融合,该方法能够充分利用不同模态信息的互补性,提高审核的准确性和鲁棒性。
技术关键词
视频审核方法
多模态特征融合
嵌入特征
融合特征
音频特征
注意力
权重特征
网络
文本
序列
数据
图像
输出特征
标签
全局平均池化
模块
系统为您推荐了相关专利信息
智能监测方法
数据共享平台
多模态
权限管理模块
训练机器学习模型
监测方法
时间序列信息
梅尔频率倒谱系数
多模态特征融合
融合视觉
YOLOv3算法
深度卷积神经网络
分片
时间偏移量
音频特征
卷积特征
深度学习语义分割
梯田提取方法
上采样
生成多尺度