基于合成文本和全局混合线性专家的视频描述生成方法

正文

推荐专利

申请号：CN202511032714

申请日期：2025-07-25

公开号：CN121033722A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于合成文本和全局混合线性专家的视频描述生成方法，旨在通过创新的模型架构和数据构造策略，实现高质量的视频内容自动描述。本发明方法适用于视频辅助字幕系统、教育视频内容摘要或视频内容平台智能分析场景中，能够自动生成高质量的视频描述文本。其通过架构创新，在模型层面实现了首个全网络MoE化的Transformer框架，从而构建了全局混合线性专家模型，为视频描述任务构建了强有力的模型基础。该模型能够高效融合多模态信息与多样化内容特征，并为后续训练提供了良好的支持与扩展能力。

技术关键词

线性文本生成方法视频编码器关键帧数据融合多模态信息定位文字区域计算机电子设备 sigmoid函数网络局部时空特征动态风格自动语音识别场景频率参数字幕系统

系统为您推荐了相关专利信息

一种物资数字化供应链测试方法

异常事件策略非线性数据采集设备参数

一种替换图像背景方法、系统、设备及存储介质

替换图像背景背景图计算机可执行指令计算机程序产品文本

一种户内干式空心电抗器缺陷检测方法

干式空心电抗器缺陷检测方法污秽在线监测系统直流高压发生器

一种基于图谱与大语言模型融合的药物配伍禁忌检测方法

药物配伍禁忌图谱大语言模型线性变换矩阵潜在交互

地图的生成方法及其相关装置

语义地图交叉注意力机制神经网络模型多模态数据融合雷达

基于合成文本和全局混合线性专家的视频描述生成方法

站点导航

APP 下载