基于多模态大模型的截图内容抽取方法、系统和设备

AITNT
正文
推荐专利
基于多模态大模型的截图内容抽取方法、系统和设备
申请号:CN202411978721
申请日期:2024-12-30
公开号:CN119785359A
公开日期:2025-04-08
类型:发明专利
摘要
本发明提供了一种基于多模态大模型的截图内容抽取方法,用于提取OTA酒店结构化信息,包括如下步骤:获取带有酒店信息的截图图像;通过光学字符识别模型对图像进行文本识别,得到文本信息框集合;通过图像定位模型对图像进行文字区域定位,并提取文字区域的文本内容,得到文本内容集合;将文本内容集合输入至文本大模型,通过预设的提示词进行结构化信息抽取,得到第一结构化信息;将图像输入视觉语言模型,通过提示词进行结构化信息抽取,得到第二结构化信息;对第一结构化信息和第二结构化信息进行比对和融合,得到酒店结构化信息。本发明能够更全面、更准确地理解图像内容,显著提高了酒店结构化信息抽取的准确率,降低了信息提取的错误率。
技术关键词
内容抽取方法 多模态 图像定位模型 光学字符识别 文本识别 训练语言模型 视觉 抽取系统 深度学习模型 抽取设备 图像增强 处理器 错误率 指令 关键词 纠错 格式 存储器
系统为您推荐了相关专利信息
1
母线槽检测设备运动控制系统与方法
母线槽检测设备 运动控制系统 故障检测 特征参量 局部运动模式
2
基于多模态语音特征融合的数字人语音合成方法及系统
多模态语音 交互注意力 节奏特征 声纹特征 语音编码器
3
一种基于认知发展阶段建模的自适应伦理决策方法及系统
决策方法 阶段 推理网络 分类边界 推理机制
4
库区地空协同巡查方法及装置
巡查方法 多模态环境 深度强化学习 任务分配模型 无人机
5
基于时序建模的视频异常事件自适应检测系统及方法
视频异常事件 在线增量学习 系统性能监控 时序动作检测方法 系统监控
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号