摘要
本发明的技术方案是公开了一种用于动态上下文环境中人体交互动作生成的方法,在第一阶段得到了不同粒度文本信息、几何信息。第二阶段通过大规模语言模型进行文本上细粒度的优化,同时交叉注意力机制融合语言模态、几何模态的特征。扩散模型在每一步生成最终人体动作序列,并通过多层自注意力和互注意力实现特征提取。与现有技术方案相比,本发明具有以下优势:高语义一致性:通过多层次语义引导,生成符合交互语义的动作;高几何精确性:结合点云几何特征和可供性地图,避免动作与目标对象之间的几何穿透;广泛适用性:支持复杂的人物交互场景,包括人‑物、人‑人交互,以及变形对象操作。
技术关键词
人体交互动作
动态上下文
交叉注意力机制
人体动作序列
文本
结合点
注释系统
关节特征
动作列表
接触点
动态物体
标注工具
语义
对象
轨迹
点云
多层次
系统为您推荐了相关专利信息
语义分析模型
特征提取网络
推理方法
多模态
策略
图像生成模型
大语言模型
进化方法
进化算法
网络架构
机器可读程序
光学字符识别技术
文本
多轮对话场景
语义匹配算法
情感特征
文本
语音情感识别模型
标注方法
预训练语言模型