预训练视觉语言模型的方法、装置、设备及存储介质

AITNT
正文
推荐专利
预训练视觉语言模型的方法、装置、设备及存储介质
申请号:CN202510182504
申请日期:2025-02-18
公开号:CN120123766A
公开日期:2025-06-10
类型:发明专利
摘要
本公开提供了一种预训练视觉语言模型的方法、装置、设备及存储介质,属于计算机技术领域。该方法通过从样本图像中分割出样本对象,从样本文本文档中采样得到文本片段,即可根据每个文本片段中包括的至少一个实体名称与样本对象之间的对应关系,将文本片段与包括样本对象的对象图像进行跨模态对齐,从而不需要大规模标注即可得到质量较高的图像‑文本对数据。上述方案极大的降低了训练数据的获取成本,提高了预训练视觉语言模型的效率。
技术关键词
前馈神经网络 样本 文本 对象 视觉 图像分割 掩码矩阵 电子设备 可执行程序代码 实体 处理器 可读存储介质 数据处理单元 计算机程序产品 分词 跨模态 语义 参数
系统为您推荐了相关专利信息
1
烟丝掺配比例检测方法、装置、计算机设备、存储介质和计算机程序产品
卷积神经网络模型 烟丝 比例检测方法 计算机程序产品 烟草检测技术
2
电池剩余电量估计方法、装置、存储介质及计算机设备
滑动窗口 扩展卡尔曼滤波算法 计算机可读指令 工况 样本
3
一种新型的协同进化多目标优化方法
聚类算法 协同进化算法 分布估计算法 集合策略 停滞现象
4
基于多模态输入的视频生成方法、装置及系统
视频生成方法 多模态 视频图像特征 文本 视频生成装置
5
一种降低复杂环境误识别率的目标检测方法
误识别率 图片 标签 样本 坐标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号