Tian2025COSMICGalaxyCluster

Brief #

Intro #

  • 这里 claim 机器学习方法比预设物理模型的 cluster finder 更加完备,尤其是并合中、高红移、低质量的 cluster
  • 寻找 BCG 的方法是 XGBoost,richness estimation 用的是 ResNet
  • 训练数据是 SDSS

Data #

  • SDSS 的一个 cluster catalog 是 WHL15 (WH for Wen & Han)
    • 使用 photo-z 方法
    • length 是 158k,红移 0.05-0.08
    • 对成员星系进行 1Mpc 的半径筛选、红移的筛选以及亮度筛选
    • 这个 catalog 本身提供了每个 cluster 的 richness 信息
  • BCG 的训练集包括数量 1-1 的正样本和负样本,8-2 的训练、测试比例
  • 将每个 BCG 周围的成员星系分布转化为 Smoothed Optical Map, SOM,用一个高斯核将离散的亮度分布转化为连续的亮度分布
    • 扣除 local bkg,还要考虑红移因子
    • 同样构建随机选择的负样本

Method #

  • 识别 BCG 用的是 XGBoost,基于梯度提升决策树?
    • 输入特征包括亮度、颜色、半径、红移
    • 二元分类器的评估指标一般是 ROC 和 AUC
      • 准确率和召回率都在 90% 以上
  • 对于丰度计算(从 SOM 到一个数字)使用 ResNet-34 作为骨干网络,实际上是迁移学习
    • 进行了一些输入和输出的修改
    • 用 MSE 作为 loss function,使用随机梯度下降法

Results #

  • 在 200 deg2 的独立天区中运行算法,和已知的 cluster catalog 都匹配很好
    • 竟然是和 redMaPPer 的匹配最成功,而且 richness 和 redMaPPer 也有很好的线性关系
    • cross match 的距离限制是 1.5 倍 r500,还是非常宽松的
  • 新发现的 cluster 大多数是高红移或者低丰度的

Thoughts #

  • 其实更像 Han & Wen 的工作,只关注 cluster 是否找到,宇宙学信息比较少
    • 而且相当于只是把 WHL 进行了扩展,最终的 completeness/purity 都取决于 WH catalog 的质量
  • 从分立的亮度分布到 SOM 会不会恰好把有关丰度的信息给消除掉?
  • 感觉用 ResNet 这种提取特征的模型来计算 richness 有一点小题大做
  • 先找 BCG 再测量 richness 的步骤分解还有讨论的余地

Supplement #

  • ImageNet 是一个图像分类数据集/挑战
  • ResNet 在 2015 年由何恺明提出
    • 核心的思想是神经网络学习 x->x 是很困难的,不要花能力在这件事情上,而是直接学习 x->H (x)-x
    • 解决了层数增加带来的退化问题,使得深层网络的构建成为可能
    • ResNet-34 的数字代表的是神经网络的层的数量,其他层数还包括 18、50、101、152