摘要
本发明属于人脸识别领域,具体涉及一种基于生成式语言模型的多模态人脸检索方法,包括:建立生成式语言模型,对生成式语言模型进行训练,向训练完成后的生成式语言模型输入行人图片和对应的描述性文本进行人脸检索,得到检索结果。本发明构建了一个强大建模能力的生成式语言模型,可以获取语义更加丰富的文本表示,并通过引入特殊标记,使文本描述和图像内容可以更好的互补,增强了模型的理解能力,还实现了多任务的联合训练,包括文本生成、视觉问答、人脸检测和人脸检索,不同任务的学习可以相互促进,提高模型的泛化能力,弥补了基于生成式语言模型进行人脸检测和人脸检索任务的空白。
技术关键词
人脸检索方法
特征提取器
人脸图片
文本特征向量
图像特征向量
样本
解码
矩阵乘法运算
前馈神经网络
图像处理
标签
图像编码
注意力机制
系统为您推荐了相关专利信息
工作流
可执行程序代码
语音识别技术
语音情感分析
个性化语音
液晶屏表面
紫外光源
图像处理算法
气泡
特征提取器
边缘检测
分割系统
文本
图像采集模块
字符识别器