摘要
本发明提供一种基于跨模态语义映射的图文视频生成方法及系统,涉及数据处理技术领域,所述方法包括:步骤1,输入产品描述文本,执行层级语义解耦,提取核心对象名词、属性形容词及场景副词,构建分层级结构化语义树;步骤2,基于分层级结构化语义树,执行细粒度修饰语义的区域探索,识别属性形容词或场景副词的关联区域,为每个关联区域生成语义适配修正因子。本发明通过层级语义解耦、区域语义映射、跨模态特征融合及动态时空校准,实现产品描述文本到语义精准、时序连贯的动态视频自动化生成,确保视觉效果与文本语义一致。
技术关键词
语义
视频生成方法
跨模态
层级
关键帧
节点
图文
纹理
坐标
因子
风格
优化轮廓
动态
场景
注意力机制
标识
核心
材质特征
视觉
系统为您推荐了相关专利信息
评估胃癌
影像提取模块
语义向量
特征提取模块
切片
异常识别方法
交叉注意力机制
图像特征向量
道路异常识别
语义特征
民族服饰
语义分割方法
注意力机制
卷积神经网络提取
图案