摘要
基于多模态大模型与光学字符识别的盲用点图自动转换方法和装置,其方法:收集场景的图文混排图像并标注文本、图形信息,构建图文混排专用数据集;用模型对预处理后的图像提取特征并检测文本区域,输出多边形坐标框,实现图像中文本位置的精准定位;依据文本框坐标裁剪对应区域,利用CNN提取文本图像特征,经RNN建模字符上下文关系,再由CTC解码器解码,完成图像文本的识别与提取;接收识别文本,先清洗、分词预处理,再通过Transformer模型建模语义,由解码器逐步生成盲文字符序列,实现文本到盲文的翻译转换;整合原始图像、掩码及盲文等信息设计专用prompt,输入大模型,通过LoRA技术冻结并微调模型参数,将原图内容转换为符合规范的盲用点图。
技术关键词
自动转换方法
光学字符识别
图文混排
多模态
文本
盲文字符
专用数据集
图像提取特征
解码器
设计专用
多尺度特征
多边形
二值化阈值
坐标
分词
序列
轮廓提取
系统为您推荐了相关专利信息
仿真环境
地理模型
障碍物
CRF模型
生成对抗网络
统一时间轴
网络流量数据
语义
分析方法
多源异构数据
语义特征
文字特征
视觉特征
视频检索方法
图像匹配
桌面清理方法
机械臂控制器
语音识别模块
指令
驱动机械臂