摘要
本发明提供的从动作视频数据生成细粒度语义描述的方法与装置,基于孤立词手语识别数据集与含词目标注的连续手语识别数据集,建立训练数据集,获得细粒度语义描述建模的动作视频数据和动作描述文本数据,通过包含动作视频特征编码模块、多模态特征融合模块、和文本特征编码模块组成的训练架构,结合用户提示词和系统提示词并引入掩码重建机制,得到细粒度语义动作描述风格预训练生成模型,采用动作视频数据微调并建立损失函数,得到细粒度语义动作描述生成模型,用于生成高质量细粒度语义动作描述数据,缓解当前细粒度语义动作描述数据欠缺的问题。确保在处理如手语视频、交互动作等高动态复杂场景时,生成结果的稳定性和准确性。
技术关键词
语义
编码特征
多模态特征融合
文本
姿态特征
数据
大语言模型
视频编码
编码模块
连续手语
风格
编码器
损失函数优化
序列
人体
存储计算机程序
交互动作
系统为您推荐了相关专利信息
可穿戴设备
深度学习模型
车辆
姿态特征
数据处理方法
动力蓄电池
分配信息
智能仓储方法
退役动力电池
机器学习模型
媒体流
编排方法
生成数字人
存储服务平台
多模态