数据空间中基于语义增强的多模态嵌入表示学习方法

正文

推荐专利

申请号：CN202510401692

申请日期：2025-04-01

公开号：CN120408489A

公开日期：2025-08-01

类型：发明专利

摘要

本发明提出了基于语义增强的多模态嵌入表示学习方法，属于多模态数据处理领域，首先获取多模态文本、图像、视频和音频数据，并进行数据预处理，完成格式转换和归一化处理；然后提取处理后的文本、图像和音频数据中的特征，生成初始模态嵌入表示；通过对图像、视频和音频数据引入语义增强策略，增强多模态间的语义一致性，生成统一的多模态向量表示；对嵌入表示进行归一化，确保各模态在统一向量空间内的语义一致性；本发明通过引入视频关键帧提取、图像光学字符识别和音频语音转文字技术，进一步增强了多模态数据间的语义补充，优化了嵌入表示的分布，从而提升了多模态信息的嵌入表示学习效果。

技术关键词

语义文本投影模块多模态学习方法视频关键帧提取联合嵌入模型降噪算法特征提取模块场景变化检测音频数据处理视频特征提取音频特征提取图像数据处理光学字符识别

系统为您推荐了相关专利信息

欺诈电话识别方法、装置、设备、存储介质及计算机程序产品

欺诈电话识别方法电话录音数据高维特征向量文本计算机程序产品

一种煤矿场用自控温除雾监控摄像系统

监控摄像系统动态关联模型增量学习方法监控摄像装置功率分配策略

分层式医学图谱与动态检索融合的可验证问答系统

交互式问答问答系统知识图谱构建多轮对话模块

多空间尺度的多智能体强化学习方法、系统、设备及介质

智能体强化学习方法多智能体强化学习分布式新能源新能源电力系统分布式电网

一种电力咨询文档生成系统

文档生成系统文档生成模块子模块答案多用户协同编辑

数据空间中基于语义增强的多模态嵌入表示学习方法

站点导航

APP 下载