基于多模态融合的语义拒识方法及装置、存储介质

正文

推荐专利

申请号：CN202410863023

申请日期：2024-06-28

公开号：CN118645093A

公开日期：2024-09-13

类型：发明专利

摘要

本申请公开了一种基于多模态融合的语义拒识方法及装置、存储介质，涉及智慧家庭技术领域，该基于多模态融合的语义拒识方法包括：根据目标对象的第一语音和所述第一语音允许被分配的第一标签，确定所述第一语音对应的第一语义信息表示；并通过图像编码器确定第一图像对应的第一语境信息表示；其中，所述第一图像是在所述目标对象发出所述第一语音的情况下，所述目标对象所处环境的图像；通过目标对齐算法对所述第一语义信息表示和所述第一语境信息表示进行对齐，得到第一对齐结果；根据所述第一对齐结果构造对所述第一语音的语义拒识策略。采用上述技术方案，解决了基于单文本数据的语义拒识模型的拒识效果差的问题。

技术关键词

拒识方法语义图像编码器语音多模态文本编码器对象标签智慧家庭技术拒识装置数据策略对齐模块算法采集设备电子装置存储器计算机

系统为您推荐了相关专利信息

多模态大模型构建方法、系统、制冷设备、存储介质

模型构建方法多模态语音特征文本图像

音频深度伪造检测方法、装置、存储介质及计算机设备

语言编码器多层感知器样本风格网络

一种基于多模态感知的复合材料集装箱实时状态预警系统

复合材料集装箱预警系统加速处理单元分析单元子模块

应用的显示方法、装置、电子设备、计算机可读存储介质及计算机程序产品

标签计算机可执行指令界面计算机程序产品存储单元

一种基于大数据的物联网设备安全智能监控方法

智能监控方法大数据平台分布式数据库视频特征向量多模态数据融合

基于多模态融合的语义拒识方法及装置、存储介质

站点导航

APP 下载