一种从动作视频数据生成细粒度语义描述的方法与装置

正文

推荐专利

申请号：CN202511225221

申请日期：2025-08-29

公开号：CN120747964A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供的从动作视频数据生成细粒度语义描述的方法与装置，基于孤立词手语识别数据集与含词目标注的连续手语识别数据集，建立训练数据集，获得细粒度语义描述建模的动作视频数据和动作描述文本数据，通过包含动作视频特征编码模块、多模态特征融合模块、和文本特征编码模块组成的训练架构，结合用户提示词和系统提示词并引入掩码重建机制，得到细粒度语义动作描述风格预训练生成模型，采用动作视频数据微调并建立损失函数，得到细粒度语义动作描述生成模型，用于生成高质量细粒度语义动作描述数据，缓解当前细粒度语义动作描述数据欠缺的问题。确保在处理如手语视频、交互动作等高动态复杂场景时，生成结果的稳定性和准确性。

技术关键词

语义编码特征多模态特征融合文本姿态特征数据大语言模型视频编码编码模块连续手语风格编码器损失函数优化序列人体存储计算机程序交互动作

系统为您推荐了相关专利信息

一种基于双重知识引导的层次化多模态心脏数据补全方法

多模态原型样本表征疾病优化网络参数

数据处理方法、装置及电子设备

可穿戴设备深度学习模型车辆姿态特征数据处理方法

退役动力电池智能仓储方法、装置、智能仓储系统及存储介质

动力蓄电池分配信息智能仓储方法退役动力电池机器学习模型

自动生成磁驱输送线布局的方法、装置

输送线布局多模态参数指令

数字人媒体流编排方法、装置、设备、存储介质及产品

媒体流编排方法生成数字人存储服务平台多模态

一种从动作视频数据生成细粒度语义描述的方法与装置

站点导航

APP 下载