摘要
本发明公开了一种基于多模态融合的面试视频行为特征分析与排序方法,包括如下步骤:步骤S1、处理输入的面试视频数据,分别提取视觉模态特征、音频模态特征和文本模态特征;步骤S2、将提取的所述视觉模态特征、音频模态特征和文本模态特征输入至多模态融合网络模型;步骤S3、所述多模态融合网络模型根据输入的特征进行特征融合,再输出多个预设维度的行为特质评分;步骤S4、对所述多个预设维度的行为特质评分进行排序,获得排序结果。本发明可以实现多模态数据的标准化采集、全面特征提取及精准关联分析,最终输出可直接用于辅助决策的客观特征排序结果,提升在线面试数据处理的效率与精度。
技术关键词
排序方法
排序损失
训练神经网络模型
视频
文本
分支
特征提取器
面部
滑动窗口采样
音频特征
时序神经网络
多模态特征融合
混合损失函数
人脸检测模型
短时傅里叶变换
BERT模型
系统为您推荐了相关专利信息
语音识别测试方法
晾衣机
脚本
分词
语音识别测试系统
系统资源利用率
裁判文书
循环神经网络模型
孪生神经网络
子模块
实体关系抽取方法
关系抽取模型
编码向量
实体识别模型
标签