基于多模态大模型与光学字符识别的盲用点图自动转换方法和装置

AITNT
正文
推荐专利
基于多模态大模型与光学字符识别的盲用点图自动转换方法和装置
申请号:CN202510937520
申请日期:2025-07-08
公开号:CN120877261A
公开日期:2025-10-31
类型:发明专利
摘要
基于多模态大模型与光学字符识别的盲用点图自动转换方法和装置,其方法:收集场景的图文混排图像并标注文本、图形信息,构建图文混排专用数据集;用模型对预处理后的图像提取特征并检测文本区域,输出多边形坐标框,实现图像中文本位置的精准定位;依据文本框坐标裁剪对应区域,利用CNN提取文本图像特征,经RNN建模字符上下文关系,再由CTC解码器解码,完成图像文本的识别与提取;接收识别文本,先清洗、分词预处理,再通过Transformer模型建模语义,由解码器逐步生成盲文字符序列,实现文本到盲文的翻译转换;整合原始图像、掩码及盲文等信息设计专用prompt,输入大模型,通过LoRA技术冻结并微调模型参数,将原图内容转换为符合规范的盲用点图。
技术关键词
自动转换方法 光学字符识别 图文混排 多模态 文本 盲文字符 专用数据集 图像提取特征 解码器 设计专用 多尺度特征 多边形 二值化阈值 坐标 分词 序列 轮廓提取
系统为您推荐了相关专利信息
1
基于AIGC构建仿真环境模型的方法、系统和存储介质
仿真环境 地理模型 障碍物 CRF模型 生成对抗网络
2
一种基于大模型的基础设施安全分析方法和系统
统一时间轴 网络流量数据 语义 分析方法 多源异构数据
3
一种多模态组合视频检索方法及装置
语义特征 文字特征 视觉特征 视频检索方法 图像匹配
4
一种桌面清理方法及系统
桌面清理方法 机械臂控制器 语音识别模块 指令 驱动机械臂
5
一种基于大语言模型的AI数字人家教方法及装置
大语言模型 教学 视频生成模型 文本 音频
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号