摘要
本申请提供一种计算机执行的基于多模态融合与动态工具调用的正畸目标位生成方法。其特征在于,采集患者主诉文本、多模态影像与口扫三维模型;分别经视觉/网格适配器提取与文本对齐的图像、网格嵌入,并与文本嵌入合并后添加二维旋转位置编码输入视觉语言模型即 VLM。VLM在推理中按标签触发:需要测量则调用领域专家 AI 返回数据至 VLM 继续推理;需要快速排牙则调用算法生成粗略目标位并转为嵌入回馈至 VLM 迭代优化。最终由解码器将矫治计划隐特征还原为目标牙列三维模型的参数矩阵,生成过程至少包含一次基于工具或粗略目标位的校验修正。
技术关键词
多模态影像数据
图像嵌入
注意力机制
三维模型
文本
高维特征向量
全局特征提取
适配器
视觉
网格
生成方法
特征提取模块
空间关系特征
多模态数据融合
预训练语言模型
动态权重分配
三维数字模型
局部特征提取
分块特征
系统为您推荐了相关专利信息
喷涂检测设备
喷涂设备
检测组件
伸缩支撑杆
驱动结构
深度学习神经网络
船舶
前馈神经网络
注意力机制
电池
水质预测方法
工艺控制参数
污水厂
时间序列模型
综合控制策略
中文电子病历
BiLSTM模型
字典
综合语义
预训练语言模型