摘要
本发明涉及视频分析技术领域,公开了基于多模态图生文大模型的视频分析方法、装置、设备,该方法通过对目标检测模型进行训练,将目标场景作为先验知识创建目标图像描述任务指令,从而聚焦视频中的重点场景更好的生成需要重点关注的图片描述,通过结合目标检测的方式防止生成的都是无效的文本信息,提高视频分析效率和时效性,并通过加入矩阵级噪音扰动,提高图生文大模型训练的泛化能力,同时利用交叉注意力增加图像描述任务指令和图片特征的映射,使模型能更加准确的进行图像描述,通过将两个模态输入融合对齐,将文本序列与交叉注意力之后输出矩阵的融合,使得模型能更好的理解指令并更好的生成文本描述,提高模型对视频内容理解的准确性。
技术关键词
矩阵
文本
图像块
视频分析方法
序列
图片
场景
检测模型训练
前馈神经网络
注意力
编码器
多模态
指令
元素
视频分析装置
残差网络
视频分析技术
系统为您推荐了相关专利信息
决策模型构建方法
Sigmoid函数
模型构建技术
训练集
参数
机器人步态规划
运动控制方法
抬腿动作
强化学习算法
机器学习算法
门控循环单元网络
时间卷积网络
多层感知机
时序特征
子模块
迁移学习模型
激光诱导击穿光谱
卷积神经网络模型
样本
数据获取模块