问题描述:
通过从 3D 全身照片 (TBP) 中裁剪出单个病变来识别经组织学确诊的皮肤癌病例
数据集描述:
图像+临床文本信息
评价指标:
pAUC,用于保证敏感性高于指定阈值下的AUC
主流方法分析(文本)
基于CatBoost、LGBM 和 XGBoost三者的组合,为每个算法创建了 XX个变体,总共XX个模型,进行集成学习。
CatBoost在传统梯度提升决策树(GBDT)基础上,引入了一系列关键技术创新,以提升处理类别型特征和缺失值的能力,以及整体模型性能,排序学习、目标导向的编码和缺失值处理。
LightGBM基于XGBoost基础上改进,基于Histogram(直方图)的决策树算法,单边梯度采样,互斥特征捆绑等
XGBoost,是基于预排序方法的决策树算法。这种构建决策树的算法基本思想是:首先,对所有特征都按照特征的数值进行预排序。其次,在遍历分割点的时候寻找一个特征上的最好分割点。最后,在找到一个特征的最好分割点后,将数据分裂成左右子节点。
参考超参数
lgbm_params = {'objective': 'binary','verbosity': -1,'n_estimators': 300,'early_stopping_rounds': 50,'metric': 'custom','boosting_type': 'gbdt','lambda_l1': 0.08758718919397321, 'lambda_l2': 0.0039689175176025465, 'learning_rate': 0.03231007103195577, 'max_depth': 4, 'num_leaves': 128, 'colsample_bytree': 0.8329551585827726, 'colsample_bynode': 0.4025961355653304, 'bagging_fraction': 0.7738954452473223, 'bagging_freq': 4, 'min_data_in_leaf': 85, 'scale_pos_weight': 2.7984184778875543,"device": "gpu"
}
cb_params = {'loss_function': 'Logloss','iterations': 300,'early_stopping_rounds': 50,'verbose': False,'max_depth': 7, 'learning_rate': 0.06936242010150652, 'scale_pos_weight': 2.6149345838209532, 'l2_leaf_reg': 6.216113851699493,'min_data_in_leaf': 24,'cat_features': cat_cols,"task_type": "CPU",
}
xgb_params = {'enable_categorical': True,'tree_method': 'hist','disable_default_eval_metric': 1,'n_estimators': 300,'early_stopping_rounds': 50,'learning_rate': 0.08501257473292347, 'lambda': 8.879624125465703, 'alpha': 0.6779926606782505, 'max_depth': 6, 'subsample': 0.6012681388711075, 'colsample_bytree': 0.8437772277074493, 'colsample_bylevel': 0.5476090898823716, 'colsample_bynode': 0.9928601203635129, 'scale_pos_weight': 3.29440313334688,"device": "cuda",
}
主流方法分析(图像),深度学习算法提取特征,将图像特征与文本特征一并送入提升树模型
- EVA02-small (eva02_small_patch14_336.mim_in22k_ft_in1k) 和EdgeNeXt (edgenext_base.in21k_ft_in1k)
- eva02_small,deit3_small,beitv2_base,convnextv2_tiny,swinv2_small, resnext50, convnextv2_nano
- swin_tiny,convnextv2_base,convnextv2_large,coatnet_rmlp_1