摘要
本发明公开一种人物关系检测方法、模型、程序产品、装置及介质,涉及深度学习技术领域,针对面向视频会议场景下难以实现人物关系检测的问题,提供了一种人物关系检测方法,通过获取包含时序特征的视频数据、音频数据和文本数据,以根据时序特征同步三种模态数据,建立模态数据之间的联系;此外,本方法还通过时序顺序,利用自注意力机制聚焦于多模态特征数据的上下文信息,建立起上下文信息之间的联系。也即,本方法通过建立多模态数据与上下文信息之间的联系,实现更深层挖掘每一人物的语义信息,从而根据语义信息判断人物之间的关系,可以有效地解决面向视频会议场景下可以表征语义的信息更少、挖掘难度更高的问题。
技术关键词
关系检测方法
预训练模型
数据
一维卷积神经网络
多模态特征
面向视频会议
编码模块
文本
时序特征
非易失性存储介质
视频特征提取
注意力机制
音频特征提取
多层感知机
系统为您推荐了相关专利信息
相控阵天线电性能
快速计算方法
加权损失函数
载荷
核密度估计方法
语音交互方法
意图识别
音频采集装置
非暂态计算机可读存储介质
控制采集装置
自动调优方法
层级
蒙特卡罗
生成特征
强化学习方法