一种基于多模态大模型的视频中实体定位方法及存储介质

正文

推荐专利

申请号：CN202510284701

申请日期：2025-03-11

公开号：CN120216721A

公开日期：2025-06-27

类型：发明专利

摘要

本发明涉及视频检索技术领域，特别是涉及一种基于多模态大模型的视频中实体定位方法及存储介质，所述方法包括：首先将每一待处理视频分割为多个初始视频片段，提取每一初始视频片段的若干预设类别信息并通过目标多模态大模型的处理得到目标语义文本，从目标语义文本中抽取关键实体并获取每一关键实体的空间位置和时间区间，将获取到的若干数据信息关联存储至向量检索库中，以在接收到检索指令文本时，根据检索指令文本匹配到的目标语义特征来获取与目标语义特征关联的其他若干信息，实现对目标实体在目标视频片段中的定位；本发明能够根据检索内容实现亚镜头级的实体定位，进而提高细粒度实体级的检索与定位精度。

技术关键词

实体定位方法多模态语义特征文本人脸识别信息非瞬时性计算机可读存储介质视频镜头边界检测视频检索技术模态特征细粒度实体指令音频样本人脸位置位置跟踪数据

样本非暂态计算机可读存储介质热成像注意力机制迁移方法

一种用于电力线应急故障的智能巡检维修系统

维修系统智能巡检除冰机器人 DS证据理论指挥调度平台

模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品

语音识别网络语音特征文本计算机可执行指令样本

一种交通领域知识图谱的构建方法、设备及其介质

实体文本大语言模型构建知识图谱关系

一种基于大模型技术的物流报表生成方法及系统

报表生成方法报表生成系统自然语言模型输出显示设备数据可视化工具

一种基于多模态大模型的视频中实体定位方法及存储介质

站点导航

APP 下载