摘要
基于多模态大模型与位置感知的乐谱图像到盲文转译方法,包括:收集MusicXML数据集,利用MuseScore软件,转换MusicXML为盲文,获取盲文乐谱数据集;利用BPE算法通过统计相邻盲文字符频率并迭代合并高频对,逐步扩展初始盲文词汇表至目标大小,扩展大模型的盲文词库;通过二值化五线谱图像、垂直投影求像素和、检测谱线位置、计算平均间距,并根据间距阈值划分乐谱系统,确定每个乐谱系统的上下边界坐标;将预处理的乐谱图像通过视觉编码器提取特征,并融合检测出的五线谱系统边界的位置编码,生成融合嵌入特征;通过构建多模态训练样本并微调预训练模型,实现乐谱图像到盲文的自动转译。本发明通过融合乐谱图片结构中的乐谱系统的坐标信息,依托多模态大模型的图文理解能力,并将五线谱图片映射为符合盲文规范的语义表达,有效提升转译质量,实现从原始图像输入到最终盲文输出自动完成。
技术关键词
乐谱系统
转译方法
五线谱
多模态
盲文字符
盲文乐谱
图像
嵌入特征
系统边界
预训练模型
坐标
间距
图片
像素数组
算术平均值
解码器
数据
软件