一种基于大语言模型的语音驱动肢体动作生成方法

正文

推荐专利

申请号：CN202510459957

申请日期：2025-04-14

公开号：CN120526794A

公开日期：2025-08-22

类型：发明专利

摘要

本发明提出了一种基于大语言模型的语音驱动肢体动作生成方法。本发明采用动作示例直接控制的方式来生成语音驱动的肢体动作生成。本发明方法保留了动作示例中的丰富细节信息，避免了传统方法中将动作示例转换为伪标签而导致的信息损失问题；另外还提出了一个基于动作示例控制的语音驱动肢体动作生成的综合框架，支持多种形式的控制输入，实现了多模态控制，该框架还支持对人体肢体部位分别进行精确控制。本发明不仅通过直接使用动作示例进行控制，保留了更多细节信息；还支持多种形式的控制输入，使用更加灵活，且生成的肢体动作更加自然，与语音内容节奏的匹配度更高。因此本发明在对于数字人和人机交互等领域具有重要的应用价值。

技术关键词

动作生成方法大语言模型令牌运动编码器序列矢量量化文本多模态阶段框架音频姿势控制编码策略生成语音姿态估计视频

系统为您推荐了相关专利信息

一种Seq2Seq-LSTM大坝水位预测方法及相关装置

水位预测方法大坝神经网络模型水电站注意力机制

用于辅助诊断胃癌的甲基化标志物及其应用

甲基化标志物诊断胃癌引物试剂盒序列

测试验收接线方案生成方法、装置、电子设备及存储介质

二次设备主接线图二次系统特征值语义

一种基于大数据的滑坡灾害监测预警方法与系统

边坡滑坡灾害监测预警方法支持向量机算法矩阵预警模型

一种伤病员信息隐私保护方法及系统

零知识证明细粒度访问控制方法信息隐私保护方法加密字段

一种基于大语言模型的语音驱动肢体动作生成方法

站点导航

APP 下载