摘要
本发明公开了一种基于知识图谱大模型的视频描述方法,所述方法包括:多模态大模型根据视频帧的画面内容确定每一视频帧的关键性文字描述,识别出关键实体及关键实体对应的行为及属性,并通过关系抽取来分析实体间的互动关系;大语言模型将实体关系扩展至四元组信息:第一实体‑关系‑第二实体‑时间;建立图结构:四元组信息转化为图结构,图结构中,节点代表实体,边代表实体间的关系,且边的属性中包含了时间信息;构建知识图谱:利用大语言模型生成知识图谱;生成总结:利用知识图谱关系中添加的时间信息,按照事件的发生顺序组织信息,从知识图谱中提取关键事件和细节,生成连贯的文本摘要。实现更为智能和精准的视频描述。
技术关键词
大语言模型
实体
生成知识图谱
关系
构建知识图谱
多模态
关键性
知识图谱数据
注意力机制
节点
训练语言模型
代表
画面
摘要
自然语言
视频帧
文本
组织
系统为您推荐了相关专利信息
图像处理方式
机器学习模型
图像处理系统
图像特征提取
模版
标签管理
模板配置方法
元素
建筑信息模型技术
层级
序列
大语言模型
评估模型训练方法
生成方法
模型训练装置