短视频的理解文本生成方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202510856291

申请日期：2025-06-23

公开号：CN120766179A

公开日期：2025-10-10

类型：发明专利

摘要

本发明涉及计算机视觉技术领域，可运用于医疗康复领域和金融科技领域，公开了短视频的理解文本生成方法、装置、设备及存储介质，应用于康复训练动作合规性监测场景，或可运用于远程开户身份核验与行为分析场景中，其中方法包括：获取待处理短视频，并对待处理短视频进行预处理，生成预处理后视频帧序列；提取预处理后视频帧序列中的时空特征，得到目标时空特征序列；对目标时空特征序列进行特征增强和特征调制，得到调制后特征序列；对调制后特征序列进行跨模态注意力解码，生成初始描述文本；对初始描述文本进行文本优化处理，生成目标描述文本。本发明提高了短视频的理解文本生成的准确性。

技术关键词

文本生成方法短视频长短期记忆网络序列视频帧注意力解码组合特征向量跨模态三维卷积神经网络文本生成装置生成特征噪声抑制器时序计算机视觉技术词嵌入向量可读存储介质监测场景

系统为您推荐了相关专利信息

一种智能化实时语言同步翻译系统及其终端

语义知识图谱模型同步翻译系统语音信号处理技术语句

文档对比溯源方法、设备及计算机存储介质

文本溯源方法计算机存储介质字符溯源设备

面向多种结构的地基施工用打桩机导向方法及系统

打桩机导向系统指数模拟模型桩体结构

基于EPDCC技术识别多种赖氨酸修饰位点的方法

赖氨酸卷积神经网络分类位点极值初始聚类中心

一种基于网架结构与负荷数据的转供决策方法及系统

决策方法网架结构电网拓扑结构负荷预测模型节点

短视频的理解文本生成方法、装置、设备及存储介质

站点导航

APP 下载