摘要
本发明提供一种应用于图文和视频的多模态模型训练方法、系统及介质,涉及多模态融合技术领域,所述方法包括:步骤1,从社交媒体平台、搜索引擎平台和视频网站平台接收图文数据和视频数据,图文数据包括图像和对应的文本内容,视频数据包括视频帧序列和对应的音频信息;步骤2,对图文数据和视频数据进行统一数据格式处理、并提取跨平台的深度特征表示,基于提取的特征,构建包括用户特征、广告素材特征和上下文特征的通用多模态序列。本发明通过融合图文与视频多模态数据,提升模型对图文与视频内容的综合理解与生成能力,实现广告效果预测与市场适应性的创意生成。
技术关键词
模型训练方法
视频
广告
搜索引擎平台
接收图文数据
多模态
上下文特征
社交媒体平台
跨模态
深度视觉特征
元素
序列
动态调整机制
声学特征
数据格式
关键帧
语义特征
系统为您推荐了相关专利信息
健康知识图谱
评估数据处理方法
数字孪生
多源数据融合技术
顶点
多任务深度学习模型
青光眼手术
导航方法
视频流
语义分割网络
控制模型训练方法
样本
机械臂控制方法
参数
分解机械
输电线塔
方位角
状态监测方法
输电线路舞动状态
激光测距仪