基于多模态场景下的对齐人格识别模型训练方法、装置

正文

推荐专利

申请号：CN202510010605

申请日期：2025-01-03

公开号：CN119939250A

公开日期：2025-05-06

类型：发明专利

摘要

本公开的实施例公开了基于多模态场景下的对齐人格识别模型训练方法、装置。该方法的一具体实施方式包括：对多尺度视频帧图像特征序列与多尺度人脸图像特征序列进行对齐处理，得到视觉对齐信息序列；对用户视频对应的转录文本进行文本特征提取，得到转录文本特征序列；对用户视频对应的音频进行音频特征提取，得到音频特征序列；对转录文本特征序列与音频特征序列进行对齐融合处理，得到非视觉对齐信息序列；根据视觉对齐信息序列与非视觉对齐信息序列，对初始对齐人格识别模型进行训练，得到训练完成的对齐人格识别模型。该实施方式提升了模型处理多模态数据的能力，并且增强了模型在复杂数据环境下的鲁棒性。

技术关键词

人脸图像特征视频帧人脸图像序列识别模型训练方法多尺度特征提取文本生成多尺度音频特征提取非视觉特征生成人脸图像识别标签多模态跨模态联合注意力机制

基于多模态场景下的对齐人格识别模型训练方法、装置

站点导航

APP 下载