摘要
本公开的实施例公开了基于多模态场景下的对齐人格识别模型训练方法、装置。该方法的一具体实施方式包括:对多尺度视频帧图像特征序列与多尺度人脸图像特征序列进行对齐处理,得到视觉对齐信息序列;对用户视频对应的转录文本进行文本特征提取,得到转录文本特征序列;对用户视频对应的音频进行音频特征提取,得到音频特征序列;对转录文本特征序列与音频特征序列进行对齐融合处理,得到非视觉对齐信息序列;根据视觉对齐信息序列与非视觉对齐信息序列,对初始对齐人格识别模型进行训练,得到训练完成的对齐人格识别模型。该实施方式提升了模型处理多模态数据的能力,并且增强了模型在复杂数据环境下的鲁棒性。
技术关键词
人脸图像特征
视频帧
人脸图像序列
识别模型训练方法
多尺度特征提取
文本
生成多尺度
音频特征提取
非视觉特征
生成人脸图像
识别标签
多模态
跨模态
联合注意力机制