一种基于多模态大模型的视频中实体定位方法及存储介质

AITNT
正文
推荐专利
一种基于多模态大模型的视频中实体定位方法及存储介质
申请号:CN202510284701
申请日期:2025-03-11
公开号:CN120216721A
公开日期:2025-06-27
类型:发明专利
摘要
本发明涉及视频检索技术领域,特别是涉及一种基于多模态大模型的视频中实体定位方法及存储介质,所述方法包括:首先将每一待处理视频分割为多个初始视频片段,提取每一初始视频片段的若干预设类别信息并通过目标多模态大模型的处理得到目标语义文本,从目标语义文本中抽取关键实体并获取每一关键实体的空间位置和时间区间,将获取到的若干数据信息关联存储至向量检索库中,以在接收到检索指令文本时,根据检索指令文本匹配到的目标语义特征来获取与目标语义特征关联的其他若干信息,实现对目标实体在目标视频片段中的定位;本发明能够根据检索内容实现亚镜头级的实体定位,进而提高细粒度实体级的检索与定位精度。
技术关键词
实体定位方法 多模态 语义特征 文本 人脸识别信息 非瞬时性计算机可读存储介质 视频镜头边界检测 视频检索技术 模态特征 细粒度实体 指令 音频 样本 人脸位置 位置跟踪 数据
系统为您推荐了相关专利信息
1
一种基于对比学习的跨模态特征空间映射与缺失模态迁移方法、装置、电子设备及存储介质
样本 非暂态计算机可读存储介质 热成像 注意力机制 迁移方法
2
一种用于电力线应急故障的智能巡检维修系统
维修系统 智能巡检 除冰机器人 DS证据理论 指挥调度平台
3
模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品
语音识别网络 语音特征 文本 计算机可执行指令 样本
4
一种交通领域知识图谱的构建方法、设备及其介质
实体 文本 大语言模型 构建知识图谱 关系
5
一种基于大模型技术的物流报表生成方法及系统
报表生成方法 报表生成系统 自然语言模型 输出显示设备 数据可视化工具
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号