用于互联网数据的小语种图文数据集构建方法、设备及介质

AITNT
正文
推荐专利
用于互联网数据的小语种图文数据集构建方法、设备及介质
申请号:CN202411519264
申请日期:2024-10-29
公开号:CN119577205A
公开日期:2025-03-07
类型:发明专利
摘要
本发明涉及一种用于互联网数据的小语种图文数据集构建方法、设备及介质,包括:获取HTML网页文件,从中提取出包含小语种图文数据的多模态文档,根据多模态文档中图片对应的可替换文本筛选出图文相关对;将多模态文档中不含可替换文本的纯图片和去除图片后的文本信息、以及自定义提示词输入至第一多模态大模型,生成对应的图片描述信息和图文问答信息,将纯图片和图片描述信息组成图文描述对,将纯图片和图文问答信息组成视觉问答对;将多模态文档、图文相关对、图文描述对及视觉问答对输入至第二多模态大模型,输出图片场景标签;组合上述信息后得到小语种图文数据集。与现有技术相比,本发明可实现高质量、多样化且标准化的小语种图文数据集构建。
技术关键词
数据集构建方法 图文 图片 多模态 互联网 视觉 文档对象模型 文本去重 文本段落 中文文本 物体检测 场景 标签 图像 处理器 可读存储介质 存储器 电子设备
系统为您推荐了相关专利信息
1
基于多模态数据融合伪孪生神经网络航空发动机轴承故障诊断方法及系统
孪生神经网络 多模态数据融合 航空发动机轴承 卷积神经网络模块 GRU模型
2
一种基于多层级特征融合与对比学习的多模态假新闻检测方法
假新闻检测方法 多模态特征 多层级特征 文本 视觉特征
3
用于生成视频的方法、装置、设备和产品
页面 视频 文本 主题 计算机程序产品
4
基于相似性度量的刀具退化趋势分析方法
趋势分析方法 稀疏编码特征 高阶统计特征 变分自动编码器 动态贝叶斯网络
5
一种基於多模态融合与块级嵌入的PDF文档智能解析系统及方法
智能解析系统 文本 多模态信息 预训练模型 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号