一种应用于图文和视频的多模态模型训练方法、系统及介质

正文

推荐专利

申请号：CN202510742499

申请日期：2025-06-05

公开号：CN120744806A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供一种应用于图文和视频的多模态模型训练方法、系统及介质，涉及多模态融合技术领域，所述方法包括：步骤1，从社交媒体平台、搜索引擎平台和视频网站平台接收图文数据和视频数据，图文数据包括图像和对应的文本内容，视频数据包括视频帧序列和对应的音频信息；步骤2，对图文数据和视频数据进行统一数据格式处理、并提取跨平台的深度特征表示，基于提取的特征，构建包括用户特征、广告素材特征和上下文特征的通用多模态序列。本发明通过融合图文与视频多模态数据，提升模型对图文与视频内容的综合理解与生成能力，实现广告效果预测与市场适应性的创意生成。

技术关键词

模型训练方法视频广告搜索引擎平台接收图文数据多模态上下文特征社交媒体平台跨模态深度视觉特征元素序列动态调整机制声学特征数据格式关键帧语义特征

系统为您推荐了相关专利信息

一种基于数字孪生的老年综合健康评估数据处理方法及系统

健康知识图谱评估数据处理方法数字孪生多源数据融合技术顶点

一种基于深度学习的青光眼手术实时导航方法

多任务深度学习模型青光眼手术导航方法视频流语义分割网络

机械臂控制模型训练方法、机械臂控制方法、设备及介质

控制模型训练方法样本机械臂控制方法参数分解机械

基于增强现实技术的可交互智能场馆装置

标定装置显示装置现实虚拟现实技术智能场馆

便携式架空线路舞动状态监测方法和系统

输电线塔方位角状态监测方法输电线路舞动状态激光测距仪

一种应用于图文和视频的多模态模型训练方法、系统及介质

站点导航

APP 下载