摘要
本申请提供了一种跨模态语义解析方法,涉及数据处理技术领域,所述方法包括:调取视觉模态解析策略对源视频进行解析,得到视觉解析信息;调取听觉模态解析策略对源音频进行解析,得到听觉解析信息;对视觉解析信息与听觉解析信息进行阶段性对比分析;若情感对比结果达到预定对比约束,则分析得到实时模态权重分配;获取文字解析信息,并结合实时模态权重分配对文字解析信息、视觉解析信息和听觉解析信息进行融合,得到语义解析结果。通过本申请解决了现有技术中由于各模态间的信息结构、表达方式差异较大,导致语义解析准确率低的技术问题,通过结合视觉、听觉和文字模态的语义解析方法,提高了跨模态语义解析的准确性和适应性。
技术关键词
语义解析方法
跨模态
听觉
情感词典
视觉
解析机制
视频
策略
音频
傅里叶变换处理
镜头
时序
人工情感
词袋模型
数据处理技术
图像压缩
样本
系统为您推荐了相关专利信息
光照控制
工业相机
子模块
环境光传感器
图像采集模块
不锈钢中厚板
轮廓测量方法
双线阵相机
双目立体视觉
点云
PET塑料
回收处理工艺
多智能体系统
双目立体视觉
空中无人机
大语言模型
审计方法
Paillier加密方法
适配器
跨模态