摘要
本发明涉及一种具身视频生成方法、装置及电子设备,该方法包括:解析任务指令及初始环境观测数据,生成关键操作步骤序列及其关联物体集合,构建三维物理约束图;基于编码条件,生成初始动作视频序列;响应于单帧动作执行,计算空间误差指标,若物体接触距离偏差、轨迹碰撞概率或物理约束违反值超过预设阈值,触发时空扩散模型基于当前物理约束图生成修正帧;响应于关键操作步骤完成,验证生成结果与任务目标的语义匹配度,若检测到关键物体属性缺失或操作逻辑错误,重新生成任务操作步骤序列及物理约束图;更新物理约束图中的物体位置、距离阈值及运动可行域,并输入时空扩散模型。本发明解决了物理一致性缺失、误差积累与语义理解割裂的问题。
技术关键词
视频生成方法
物体
物理
交叉注意力机制
序列
三维点云数据
动态更新
文本
执行主体
编码
深度图
语义向量
视频生成装置
坐标
电子设备
生成动作
轨迹
仿真环境
系统为您推荐了相关专利信息
模型建模方法
高斯混合模型
协方差矩阵
时序
压电微动平台