摘要
本发明公开了一种基于合成文本和全局混合线性专家的视频描述生成方法,旨在通过创新的模型架构和数据构造策略,实现高质量的视频内容自动描述。本发明方法适用于视频辅助字幕系统、教育视频内容摘要或视频内容平台智能分析场景中,能够自动生成高质量的视频描述文本。其通过架构创新,在模型层面实现了首个全网络MoE化的Transformer框架,从而构建了全局混合线性专家模型,为视频描述任务构建了强有力的模型基础。该模型能够高效融合多模态信息与多样化内容特征,并为后续训练提供了良好的支持与扩展能力。
技术关键词
线性
文本
生成方法
视频编码器
关键帧
数据
融合多模态信息
定位文字区域
计算机电子设备
sigmoid函数
网络
局部时空特征
动态
风格
自动语音识别
场景
频率
参数
字幕系统
系统为您推荐了相关专利信息
替换图像背景
背景图
计算机可执行指令
计算机程序产品
文本
干式空心电抗器
缺陷检测方法
污秽
在线监测系统
直流高压发生器
药物配伍禁忌
图谱
大语言模型
线性变换矩阵
潜在交互
语义地图
交叉注意力机制
神经网络模型
多模态数据融合
雷达