一种基于大语言模型的多模态驱动的人体动作生成方法

AITNT
正文
推荐专利
一种基于大语言模型的多模态驱动的人体动作生成方法
申请号:CN202510674138
申请日期:2025-05-23
公开号:CN120580356A
公开日期:2025-09-02
类型:发明专利
摘要
一种基于大语言模型的多模态人体动作生成方法,基于3D动作数据提取结构化特征,结合大语言模型生成身体部位级原子语义描述,构建包含文本、语音、音乐的多模态对齐数据集;将全身动作按部位解耦,采用独立向量量化编码器进行残差量化,生成与细粒度文本强关联的原子动作token;将文本描述与动作token按身体结构拼接为含特殊标记的混合动作句子;通过大语言模型实现多模态输入的联合建模,同步生成细粒度文本与动作token序列,经解码输出符合语义的3D动作,支持零样本生成及部位级精确控制。该方法突破传统方法粗粒度对齐局限,通过细粒度语义映射、解耦式动作编码与统一序列建模,显著提升动作生成的语义一致性、多模态适应性和局部可控性。
技术关键词
动作生成方法 大语言模型 文本 人体动作数据 多模态 语义 动作特征 编码器 序列 身体结构 解码 音乐 训练语言模型 语音 前馈神经网络 标记 生成动作
系统为您推荐了相关专利信息
1
作业批改方法、系统、装置、电子设备及存储介质
答案 作业批改系统 作业批改方法 图像特征向量 文本
2
一种训练方法、装置和计算设备集群
多视角 仿真场景 异构感知数据 动态物体 点云
3
一种基于人工智能的电力行业知识库构建方法及系统
知识库构建方法 电力 标记特征 关键词 文本识别模型
4
一种利用RAG技术增强网页导航的方法及相关装置
网页元素 大语言模型 多模态 拼音 文本
5
SPEC条款结构化存储方法及系统
结构化存储方法 JSON数据存储 人机交互接口 自然语言 数据库存储技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号