摘要
本发明涉及一种基于自适应多模态信息融合的人物观点提取方法,属于视频人物观点提取技术领域,本发明基于自适应的多模态的信息特征融合,完成了说话人物身份的识别;通过融合视觉信息以及音频信息,并使用自适应权重进行融合,不同模态可以根据实际任务的重要性自适应调整权重,增强模型的灵活性和稳健性;本发明利用图神经网络GNN提取观点,通过其多层消息传递机制实现跨多个节点的推理能力,帮助系统识别出更复杂的观点关系和隐含的结论,即使某些发言人未明确表达他们的观点,图神经网络GNN可以通过邻居节点的传播信息推断出该发言人的潜在态度。
技术关键词
观点提取方法
多模态信息融合
音频特征
模态特征
BERT模型
主题
文本
消息传递机制
视觉特征提取
说话人身份
多任务卷积神经网络
视频
视觉注意力模型
梅尔频率倒谱系数
人脸面部特征
图像视觉特征
系统为您推荐了相关专利信息
结构化报告数据
体检数据分析方法
时空融合特征
生成对抗网络
医学影像数据
模态特征
保护预警方法
机器状态数据
预警模型
激光扫描模块
企业
电力数据分析方法
多模态特征融合
文本
聚类
减震控制系统
控制策略
防晕车
车辆行驶状态
悬挂控制器
交互方法
情感识别模型
多模态特征融合
重构模型
策略