摘要
本发明涉及人物关系的挖掘技术领域,具体涉及一种基于多模态信息融合的多维度人物关系发现方法,包括:从视频中提取文本、视觉和音频模态特征;模态特征的欧氏距离,进行最优对齐路径优化和非线性时间调整,得到时间步对齐的模态特征;模态特征进行自注意力和交叉注意力机制处理,获取文本、视觉和音频的多模态表示;文本、视觉和音频的多模态表示,建立社交关系、立场关系和共现关系的图结构网络;由所述社交关系、立场关系和共现关系的图结构确定视频中各人物的社交关系紧密程度、立场一致性程度和共现强度;本发明能够提高多维度人物关系的理解准确性。
技术关键词
模态特征
关系发现方法
多模态信息融合
交叉注意力机制
关系网络
文本
视觉
节点
建立社交关系
表达式
面部表情特征
结构网络
矩阵
自动语音识别方法
音频特征