摘要
本发明提供一种用于医疗大模型的医学元数据处理和去标识化方法、系统,所述的方法包括:基于初始数据蒸馏模型对医学元数据进行压缩,生成压缩后的数据;利用压缩后的数据对数据蒸馏模型进行训练,生成优化后的模型参数;利用优化后的模型参数对压缩后的数据继续压缩;所述压缩步骤和训练步骤交替迭代,直至模型参数收敛。本发明能够实现在信息几乎不丢失的情况下以最小的数据量支持特定任务的模型高效训练,使得在浓缩后的数据集上训练出的模型与在原数据集上训练而成的模型表现相似。通过结合差分模型,还能够实现去隐私信息化,通过上述方法压缩重构后的数据具有泛用性,能支持不同架构的人工智能模型训练。
技术关键词
医学
蒸馏
特征数据提取
标识化系统
文本
参数
人工智能模型训练
模块
计算机设备
算法模型
存储器
处理器
重构
噪声
系统为您推荐了相关专利信息
智能写作方法
多智能体协作
生成文章大纲
大语言模型
文本
试卷阅卷方法
模板匹配技术
考试录像视频
答题
编码器