一种基于大语言模型的多模态驱动的人体动作生成方法

正文

推荐专利

申请号：CN202510674138

申请日期：2025-05-23

公开号：CN120580356A

公开日期：2025-09-02

类型：发明专利

摘要

一种基于大语言模型的多模态人体动作生成方法，基于3D动作数据提取结构化特征，结合大语言模型生成身体部位级原子语义描述，构建包含文本、语音、音乐的多模态对齐数据集；将全身动作按部位解耦，采用独立向量量化编码器进行残差量化，生成与细粒度文本强关联的原子动作token；将文本描述与动作token按身体结构拼接为含特殊标记的混合动作句子；通过大语言模型实现多模态输入的联合建模，同步生成细粒度文本与动作token序列，经解码输出符合语义的3D动作，支持零样本生成及部位级精确控制。该方法突破传统方法粗粒度对齐局限，通过细粒度语义映射、解耦式动作编码与统一序列建模，显著提升动作生成的语义一致性、多模态适应性和局部可控性。

技术关键词

动作生成方法大语言模型文本人体动作数据多模态语义动作特征编码器序列身体结构解码音乐训练语言模型语音前馈神经网络标记生成动作

系统为您推荐了相关专利信息

作业批改方法、系统、装置、电子设备及存储介质

答案作业批改系统作业批改方法图像特征向量文本

一种训练方法、装置和计算设备集群

多视角仿真场景异构感知数据动态物体点云

一种基于人工智能的电力行业知识库构建方法及系统

知识库构建方法电力标记特征关键词文本识别模型

一种利用RAG技术增强网页导航的方法及相关装置

网页元素大语言模型多模态拼音文本

SPEC条款结构化存储方法及系统

结构化存储方法 JSON数据存储人机交互接口自然语言数据库存储技术

一种基于大语言模型的多模态驱动的人体动作生成方法

站点导航

APP 下载