摘要
本申请提出了一种面向人物和事件的视频描述生成方法,包括:从视频帧中提取人物信息,构建人物库;将视频输入密集视频描述模型,输出视频概述;选取关键帧序列;通过视觉语言模型生成每个关键帧的描述,并根据人物库对每个关键帧进行人脸识别,采用大语言模型将识别到的人物与对应的关键帧描述融合,得到包含人物信息的关键帧描述;采用大语言模型整合视频概述和所有关键帧描述,得到视频描述;基于视频描述构建知识图谱,并判断知识图谱中的实体和关系是否满足设定条件,若不满足,选取新的关键帧序列,并生成对应的视频描述,若满足,确定最终视频描述。采用上述方案的本发明实现了对视频中复杂场景和多人物交互的准确描述。
技术关键词
关键帧
大语言模型
构建知识图谱
视频帧
序列
人脸识别模型
生成方法
视觉
人脸特征
实体
三元组
生成装置
频率
模块
节点
关系
场景
系统为您推荐了相关专利信息
电力业务数据
Java字节码
业务系统
上下文特征
页面
事件预测方法
药物
BERT模型
多模态特征融合
矩阵
门控循环单元
门控神经网络
语义
CRF模型
标签