基于多模态融合的语义拒识方法及装置、存储介质

AITNT
正文
推荐专利
基于多模态融合的语义拒识方法及装置、存储介质
申请号:CN202410863023
申请日期:2024-06-28
公开号:CN118645093A
公开日期:2024-09-13
类型:发明专利
摘要
本申请公开了一种基于多模态融合的语义拒识方法及装置、存储介质,涉及智慧家庭技术领域,该基于多模态融合的语义拒识方法包括:根据目标对象的第一语音和所述第一语音允许被分配的第一标签,确定所述第一语音对应的第一语义信息表示;并通过图像编码器确定第一图像对应的第一语境信息表示;其中,所述第一图像是在所述目标对象发出所述第一语音的情况下,所述目标对象所处环境的图像;通过目标对齐算法对所述第一语义信息表示和所述第一语境信息表示进行对齐,得到第一对齐结果;根据所述第一对齐结果构造对所述第一语音的语义拒识策略。采用上述技术方案,解决了基于单文本数据的语义拒识模型的拒识效果差的问题。
技术关键词
拒识方法 语义 图像编码器 语音 多模态 文本编码器 对象 标签 智慧家庭技术 拒识装置 数据 策略 对齐模块 算法 采集设备 电子装置 存储器 计算机
系统为您推荐了相关专利信息
1
多模态大模型构建方法、系统、制冷设备、存储介质
模型构建方法 多模态 语音特征 文本 图像
2
音频深度伪造检测方法、装置、存储介质及计算机设备
语言编码器 多层感知器 样本 风格 网络
3
一种基于多模态感知的复合材料集装箱实时状态预警系统
复合材料集装箱 预警系统 加速处理单元 分析单元 子模块
4
应用的显示方法、装置、电子设备、计算机可读存储介质及计算机程序产品
标签 计算机可执行指令 界面 计算机程序产品 存储单元
5
一种基于大数据的物联网设备安全智能监控方法
智能监控方法 大数据平台 分布式数据库 视频特征向量 多模态数据融合
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号