摘要
本发明公开了一种基于大语言模型、人脸识别、目标检测及跨模态向量的融合影视剧内容检索方法,视频预处理入库;根据用户输入的对视频内容的检索文本,利用大语言模型进行分词及优化处理;随后对视频内容的演职员表进行OCR识别并匹配人物角色关联关系;对于物体进行目标检测;对于用户检索中的涉及的场景、事件内容则通过CLIP模型建立的跨模态映射,将视频帧转换为向量表示,并与查询文本的向量表示进行对比,计算视频帧与查询文本之间的相似度;最后通过命中数量和最终加权得分进行二次排序。本发明还公开了一种电子设备、介质及产品。本发明提升影视剧媒体视频素材内容检索能力,并通过融合算法进行综合判定,得到高质量的视频检索方案。
技术关键词
内容检索方法
大语言模型
影视剧
人脸识别模型
文本
人脸识别检测
计算机程序产品
物体
视频帧
高维特征向量
图像特征向量
命名实体识别
处理器
跨模态
人脸识别技术
人脸数据库
电子设备
可读存储介质
人物特征
系统为您推荐了相关专利信息
文本特征向量
检测评估方法
同态加密算法
文本检测模型
生成式对抗网络
词嵌入向量
情感分类方法
信息编码
BERT模型
大语言模型
特征提取网络
注意力机制
人脸识别模型
样本
注意力模型