基于多模态大模型的截图内容抽取方法、系统和设备

正文

推荐专利

申请号：CN202411978721

申请日期：2024-12-30

公开号：CN119785359A

公开日期：2025-04-08

类型：发明专利

摘要

本发明提供了一种基于多模态大模型的截图内容抽取方法，用于提取OTA酒店结构化信息，包括如下步骤：获取带有酒店信息的截图图像；通过光学字符识别模型对图像进行文本识别，得到文本信息框集合；通过图像定位模型对图像进行文字区域定位，并提取文字区域的文本内容，得到文本内容集合；将文本内容集合输入至文本大模型，通过预设的提示词进行结构化信息抽取，得到第一结构化信息；将图像输入视觉语言模型，通过提示词进行结构化信息抽取，得到第二结构化信息；对第一结构化信息和第二结构化信息进行比对和融合，得到酒店结构化信息。本发明能够更全面、更准确地理解图像内容，显著提高了酒店结构化信息抽取的准确率，降低了信息提取的错误率。

技术关键词

内容抽取方法多模态图像定位模型光学字符识别文本识别训练语言模型视觉抽取系统深度学习模型抽取设备图像增强处理器错误率指令关键词纠错格式存储器

系统为您推荐了相关专利信息

母线槽检测设备运动控制系统与方法

母线槽检测设备运动控制系统故障检测特征参量局部运动模式

基于多模态语音特征融合的数字人语音合成方法及系统

多模态语音交互注意力节奏特征声纹特征语音编码器

一种基于认知发展阶段建模的自适应伦理决策方法及系统

决策方法阶段推理网络分类边界推理机制

库区地空协同巡查方法及装置

巡查方法多模态环境深度强化学习任务分配模型无人机

基于时序建模的视频异常事件自适应检测系统及方法

视频异常事件在线增量学习系统性能监控时序动作检测方法系统监控

基于多模态大模型的截图内容抽取方法、系统和设备

站点导航

APP 下载