摘要
本发明涉及视频检索技术领域,特别是涉及一种基于多模态大模型的视频中实体定位方法及存储介质,所述方法包括:首先将每一待处理视频分割为多个初始视频片段,提取每一初始视频片段的若干预设类别信息并通过目标多模态大模型的处理得到目标语义文本,从目标语义文本中抽取关键实体并获取每一关键实体的空间位置和时间区间,将获取到的若干数据信息关联存储至向量检索库中,以在接收到检索指令文本时,根据检索指令文本匹配到的目标语义特征来获取与目标语义特征关联的其他若干信息,实现对目标实体在目标视频片段中的定位;本发明能够根据检索内容实现亚镜头级的实体定位,进而提高细粒度实体级的检索与定位精度。
技术关键词
实体定位方法
多模态
语义特征
文本
人脸识别信息
非瞬时性计算机可读存储介质
视频镜头边界检测
视频检索技术
模态特征
细粒度实体
指令
音频
样本
人脸位置
位置跟踪
数据
系统为您推荐了相关专利信息
样本
非暂态计算机可读存储介质
热成像
注意力机制
迁移方法
维修系统
智能巡检
除冰机器人
DS证据理论
指挥调度平台
语音识别网络
语音特征
文本
计算机可执行指令
样本
报表生成方法
报表生成系统
自然语言模型
输出显示设备
数据可视化工具