摘要
本发明公开了一种基于复杂任务的高质量伪标注数据集构建方法,涉及多模态学习技术领域,包括,基于多模态原始数据构建跨模态因果图,并加载领域知识图谱,识别模态间混淆变量,并生成初始伪标签;通过强制切断跨模态因果图中非因果路径生成反事实样本,并对比原始样本与反事实样本的伪标签差异,生成跨模态去偏伪标签;结合跨模态去偏伪标签与语义一致性伪标签,融合生成多模态对齐、实体关系明确且语义一致的标准化伪标注数据集。本发明采用反事实干预框架,通过分析概率分布差异识别并消除跨模态交互中的非因果路径影响,有效抑制虚假关联。
技术关键词
数据集构建方法
跨模态
标签
语义
图谱
样本
多模态
动态
加权平均策略
结构方程模型
模态特征
指数衰减函数
实体
变量
关系
嵌入方法
编码器
节点
滑动窗口
处理器
系统为您推荐了相关专利信息
基准
报表数据处理
生成数据项
可读存储介质
程序