一种从动作视频数据生成细粒度语义描述的方法与装置

AITNT
正文
推荐专利
一种从动作视频数据生成细粒度语义描述的方法与装置
申请号:CN202511225221
申请日期:2025-08-29
公开号:CN120747964A
公开日期:2025-10-03
类型:发明专利
摘要
本发明提供的从动作视频数据生成细粒度语义描述的方法与装置,基于孤立词手语识别数据集与含词目标注的连续手语识别数据集,建立训练数据集,获得细粒度语义描述建模的动作视频数据和动作描述文本数据,通过包含动作视频特征编码模块、多模态特征融合模块、和文本特征编码模块组成的训练架构,结合用户提示词和系统提示词并引入掩码重建机制,得到细粒度语义动作描述风格预训练生成模型,采用动作视频数据微调并建立损失函数,得到细粒度语义动作描述生成模型,用于生成高质量细粒度语义动作描述数据,缓解当前细粒度语义动作描述数据欠缺的问题。确保在处理如手语视频、交互动作等高动态复杂场景时,生成结果的稳定性和准确性。
技术关键词
语义 编码特征 多模态特征融合 文本 姿态特征 数据 大语言模型 视频编码 编码模块 连续手语 风格 编码器 损失函数优化 序列 人体 存储计算机程序 交互动作
系统为您推荐了相关专利信息
1
一种基于双重知识引导的层次化多模态心脏数据补全方法
多模态 原型 样本 表征疾病 优化网络参数
2
数据处理方法、装置及电子设备
可穿戴设备 深度学习模型 车辆 姿态特征 数据处理方法
3
退役动力电池智能仓储方法、装置、智能仓储系统及存储介质
动力蓄电池 分配信息 智能仓储方法 退役动力电池 机器学习模型
4
自动生成磁驱输送线布局的方法、装置
输送线 布局 多模态 参数 指令
5
数字人媒体流编排方法、装置、设备、存储介质及产品
媒体流 编排方法 生成数字人 存储服务平台 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号