摘要
本发明涉及计算机软件技术领域,公开了一种基于多令牌大语言模型的人体运动生成方法和系统。所采用的人体动作生成模型的构建及训练过程包括将用户输入的文本描述映射为文本特征,并与任务提示词以及文本描述共同输入共享主干网络、多个颈部网络和预测头;将文本描述对应的人体动作编码为动作特征,通过对比学习拉近文本特征与动作特征的距离;将多个动作令牌通过动作解离散反编码技术生成人体动作;基于人类偏好进行基于动态边界的偏好对齐。本发明通过多令牌预测策略增强对稀疏动作令牌的建模能力,并引入跨模态特征指导实现全局语义对齐。同时,本发明提出带相似度偏移的人类偏好优化方法来提升生成动作与人类偏好的对齐程度。
技术关键词
生成动作
动作特征
大语言模型
运动生成方法
令牌
运动生成系统
文本编码器
人体
Sigmoid函数
网络
语义
数学
编码技术
中间层
矩阵
计算机软件技术
人类
分支
系统为您推荐了相关专利信息
满意度分析方法
人工智能技术
数据
多模态
语音编码器