摘要
一种基于大语言模型的多模态人体动作生成方法,基于3D动作数据提取结构化特征,结合大语言模型生成身体部位级原子语义描述,构建包含文本、语音、音乐的多模态对齐数据集;将全身动作按部位解耦,采用独立向量量化编码器进行残差量化,生成与细粒度文本强关联的原子动作token;将文本描述与动作token按身体结构拼接为含特殊标记的混合动作句子;通过大语言模型实现多模态输入的联合建模,同步生成细粒度文本与动作token序列,经解码输出符合语义的3D动作,支持零样本生成及部位级精确控制。该方法突破传统方法粗粒度对齐局限,通过细粒度语义映射、解耦式动作编码与统一序列建模,显著提升动作生成的语义一致性、多模态适应性和局部可控性。
技术关键词
动作生成方法
大语言模型
文本
人体动作数据
多模态
语义
动作特征
编码器
序列
身体结构
解码
音乐
训练语言模型
语音
前馈神经网络
标记
生成动作
系统为您推荐了相关专利信息
答案
作业批改系统
作业批改方法
图像特征向量
文本
知识库构建方法
电力
标记特征
关键词
文本识别模型
结构化存储方法
JSON数据存储
人机交互接口
自然语言
数据库存储技术