基于合成文本和全局混合线性专家的视频描述生成方法

AITNT
正文
推荐专利
基于合成文本和全局混合线性专家的视频描述生成方法
申请号:CN202511032714
申请日期:2025-07-25
公开号:CN121033722A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于合成文本和全局混合线性专家的视频描述生成方法,旨在通过创新的模型架构和数据构造策略,实现高质量的视频内容自动描述。本发明方法适用于视频辅助字幕系统、教育视频内容摘要或视频内容平台智能分析场景中,能够自动生成高质量的视频描述文本。其通过架构创新,在模型层面实现了首个全网络MoE化的Transformer框架,从而构建了全局混合线性专家模型,为视频描述任务构建了强有力的模型基础。该模型能够高效融合多模态信息与多样化内容特征,并为后续训练提供了良好的支持与扩展能力。
技术关键词
线性 文本 生成方法 视频编码器 关键帧 数据 融合多模态信息 定位文字区域 计算机电子设备 sigmoid函数 网络 局部时空特征 动态 风格 自动语音识别 场景 频率 参数 字幕系统
系统为您推荐了相关专利信息
1
一种物资数字化供应链测试方法
异常事件 策略 非线性 数据采集设备 参数
2
一种替换图像背景方法、系统、设备及存储介质
替换图像背景 背景图 计算机可执行指令 计算机程序产品 文本
3
一种户内干式空心电抗器缺陷检测方法
干式空心电抗器 缺陷检测方法 污秽 在线监测系统 直流高压发生器
4
一种基于图谱与大语言模型融合的药物配伍禁忌检测方法
药物配伍禁忌 图谱 大语言模型 线性变换矩阵 潜在交互
5
地图的生成方法及其相关装置
语义地图 交叉注意力机制 神经网络模型 多模态数据融合 雷达
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号