摘要
本申请公开了一种基于多模态融合的语义拒识方法及装置、存储介质,涉及智慧家庭技术领域,该基于多模态融合的语义拒识方法包括:根据目标对象的第一语音和所述第一语音允许被分配的第一标签,确定所述第一语音对应的第一语义信息表示;并通过图像编码器确定第一图像对应的第一语境信息表示;其中,所述第一图像是在所述目标对象发出所述第一语音的情况下,所述目标对象所处环境的图像;通过目标对齐算法对所述第一语义信息表示和所述第一语境信息表示进行对齐,得到第一对齐结果;根据所述第一对齐结果构造对所述第一语音的语义拒识策略。采用上述技术方案,解决了基于单文本数据的语义拒识模型的拒识效果差的问题。
技术关键词
拒识方法
语义
图像编码器
语音
多模态
文本编码器
对象
标签
智慧家庭技术
拒识装置
数据
策略
对齐模块
算法
采集设备
电子装置
存储器
计算机
系统为您推荐了相关专利信息
复合材料集装箱
预警系统
加速处理单元
分析单元
子模块
标签
计算机可执行指令
界面
计算机程序产品
存储单元
智能监控方法
大数据平台
分布式数据库
视频特征向量
多模态数据融合