Oguri2014ClusterFindingAlgorithm

March 6, 2025

CAMIRA paper
各个 survey 都有自己的默认 cluster finder 算法，DES 用的是 redMaPPer，HSC 用的是 CAMIRA，Euclid 用的是 AMICO 和 PZWav
算法的发布时间和 redMaPPer 差不多，同样是基于 red sequence 的 cluster finer 算法以及 SPS model
- 这里也参考了 R09 和 R12
gemini aistudio.google.com/prompts/17yefc4IhJA0iDObsOhOp_UeZ9Ae6nkdi
这里在 SDSS 上运行（还没有应用到 HSC 上面）并且用 CFHT WL signal 进行 calibration
CAMIRA series

Brief #

sec2 中介绍了 CAMIRA 的主要算法，在很多方面和 redMaPPer 相似或者相异
对算法和 catalog 的检验主要依靠 X-ray 数据
WL calibration 得到了 richness-mass relationship

Intro #

cluster 适合作为宇宙学 probe 的原因之一是 cluster mass distribution 主要由 DM 决定
- 弱引力透镜的结果：除了中心的 core/cusp 问题，cluster mass profile 基本和 $\Lambda\text{CDM}$ 的预测一致
cluster identification 的方法包括 X-ray（cluster 中的高温气体的韧致辐射）、SZ（CMB 被 cluster 中的高能电子散射），但是两种方法都相比光学数据缺乏红移信息
optical cluster finding
- 可以得到很好的测光红移
- 可以用弱引力透镜方法对同样的成像数据进行 cluster mass 的测量
  - 进一步可以对可观测量（richness）和 cluster mass 之间的关系进行校准
CAMIRA 是一种基于 red sequence 的 cluster finder

Algorithm #

2.1 Modelling red sequence #

使用的是 BC03 model 以及 Salpeter IMF
基本的做法是：调整星系的年龄、SFH、金属丰度、恒星质量等参数以 reproduce 观测的星系颜色分布
- 这么多参数一定会存在简并，也就是观测不支持更多自由度的加入，所以这里采用了一个很简单的假设：全部恒星形成于 $z=z_f$ 并且没有 extinction
red sequence 描述的颜色-光度依赖关系来源于金属丰度对质量的依赖
- 用一个线性关系描述金属丰度和质量的正向相关，斜率是 0.15 也就是越大质量的星系金属丰度越高
- 用 SDSS 数据进行拟合，拟合结果是 z=3、斜率=0.15 以及 1e11 的基准金属丰度为 0.01
  - 这里的 0.01 近似是太阳金属丰度的一半，似乎有点不合理，因为 massive galaxy 基本是金属丰度最高的星系群体
把不同金属丰度转化为 tilt 的过程是通过 SPS 实现的，所以这里的金属丰度是一个非常物理的属性
用金属丰度的 scatter 来模拟 red sequence model 的 intrinsic scatter
质量范围是 9.5 到 13.5

2.2 Calibrating colors #

用光谱星系来进行校准真实观测和 SPS model 之间的误差，这种误差表现为描述 extra bias 的参数 $\delta m$ 以及描述 extra scatter 的参数 $\sigma$
计算（已知红移的）星系和 SPS 之间的差距，并且寻找最小化这一差距的两个参数（相当于用 spec 星系作为训练集）
- 具体做法是对每一个 spec galaxy 拟合最佳的 Z11 和 M_input 两个参数，然后在红移和 rest 波长的 bin 中通过最小化 chi2 确定 extra bias 以及 extra scatter
  - 这个过程迭代地进行，每次都对 spec galaxy 进行基于 chi2 的筛选
  - 如果 spec galaxy 是一个红星系的话，它的多波段 mag 可以很好地匹配上 SPS template（同时包括星等和颜色信息），所以不需要很离谱的 Z11
  - 蓝星系可以因为异常的金属丰度拟合到 red sequence 上面，但是会付出 chi2 增大的代价
  - 其实这里的 Z11 项完全是多余的？星系偏离的程度完全可以与反映在 chi2 上，或者直接在前一项加一个 intrinsic scatter
    - 但是金属丰度的变化体现在所有的波段上，所以模型不需要加入 off-diagonal error
      - 一个在 g-r 上很红的星系在 r-i 上也应该更红
    - 金属丰度对 SPS 的影响是很物理的，通过 SPS model 计算过程体现出来
    - 现在的 redMaPPer 把 off-diag 固定为 0.9
- 直接用 mag vector 作为输入参数，而不是一个 mag 和四个颜色
- 最终得到的结果是 $\delta m_\mathrm{i,resi}$ 以及 $\sigma_\mathrm{i,resi}$ 两个参数作为 rest frame wavelength 以及红移的的函数
  - 这里使用 rest frame wavelength 理解好像不太直观，静止波长是用 filter 波长和红移计算出来的
首先把 $\delta$ 和 $\sigma$ 都设定为 0 运行一次，然后把 chi2 太大的作为 outliner 扔掉
协方差矩阵的非对角元素可以包含在金属丰度的弥散中
fig4 中展示了 extra bias 和 scatter 随着红移和静止波长的变化

2.3 Constructing a richness map #

richness 的定义是三个 weight function 对于全部星系的求和
- 首先是基于 chi2 的类似“membership probability”的函数，在数学上满足 chi2 的意义
- 一个 luminosity filter，仅保留足够亮的星系
  - 0.2L_star 的取值是 R12 给出的，这里采用了对应的 mass threshold（以及一个非常奇怪的指数套两个四次方的数学形式），作为参数的 mass 是第一步中拟合给出的 input stellar mass
  - 同时拒绝了过高和过低质量的星系，因为过低质量的星系也会对 projection 产生影响
- 一个环形的 bkg subtraction filter，在中心为正值，外部为负值
  - 也就是使用 local density
  - 同时也起到了 radius cutoff 的作用，具体的 radius 是 $0.8h^{-1}\ \text{Mpc}$
  - 有一个 typo 是 fig2 写成了 fig9
三个 filter 都经过了 normalization
最终有一个 richness map

2.4 Mask #

这里仅仅用到了 0/1 的 mask，具体来说是分别计算 cluster region 和 bkg region 的 mask fraction
- 具体办法是对于天空中的每一个点取一个 1 角分的圆，如果周围没有星系这个点就被 mask（一种很原始的 Monte Carlo 方法）
如果 cluster mask fraction 和 bkg mask fraction 大于一定值就放弃这个区域

2.5 Refining #

用全部星系的信息重新计算一个 cluster redshift 出来，number parameter 更高的星系具有更高的权重
- 这里单个星系对 richness 的贡献称作 number parameter，不同于成员概率，这个值可以很自然地大于 1
之后在 cluster 对应的红移下计算每个星系成为 BCG 的概率：综合考虑 number parameter、距离 richness map peak 的距离以及质量和 BCG 典型质量的比值
- 其中大部分参数都是经验性地选取的
最后用 BCG 位置以及 cluster redshift 进行 richness 的计算
最后还进行了 percolation 处理以确保不会被重复计数

Catalog in SDSS8 #

SDSS DR8 覆盖了大约 12000 deg2
- 使用的是 MODEL_MAG，限制 i-band 亮于 21 等
- 移除的 flag 和 redMaPPer 略有不同
2.2 节中的 calibration 使用 SDSS DR7 以及 BOSS DR10 的光谱数据进行
- 首先施加了一些光谱的切割，仅保留红色的星系
- 最后得到了两个参数随着红移和静止波长的变化，shown in fig4
i-band mag cut 导致高红移观测到的 cluster richness 是更少的
- 这里的修正方法是用恒星质量函数估计真实的 richness 和测量值之间的比例，然后补回去
- fig6 展示了这个比例，在 0.25 之前大致为 1
最后在 12000 deg2 内找到的大于 20 richness 的数量是 71k，大致相当于每 100 平方度有 600 个
实际的 cluster 数量应该随着红移增加而增加，因为高红移的球壳体积更大
- 如果采用 comoving number density，数密度大致随红移保持恒定

Testing #

外部 catalog 包括 XMM、MCXC（X-ray compilation）、ACCEPT（Chandra）、SGAS（optical cluster catalog）
cross match 的标准是投影距离小于 $1h^{-1}\ \text{Mpc}$ 和红移差距小于 0.1
红移估计的 bias 和 scatter 分别是 0.003 和 0.009
CAMIRA richness 和 X-ray 的两个示踪量的 scatter 大约分别是 0.35dex 和 0.13dex
completeness 检验是用 X-ray catalog 作为基准，CAMIRA 在高温/高光度的星系团中的完备性超过 90%
mis centering 的问题也用 X-ray peak 来检验，有 30% 的 centering 存在问题
- 可能只是 X-ray peak 其实不在一个星系的位置，也就是 cluster 还没有 relax
- mis-centering 对于 WL 影响非常大

WL calibration #

WL data 来源于 CFHT shear catalog，重叠区域只有 120 deg2
按照红移和 richness 分 bin 进行 WL signal 的叠加
需要对 bkg galaxy 进行严格的筛选
将 mis-centering 也考虑进来，用一个双组分的模型建模，并且在 Fourier space 中描述 mis centered cluster 的理论 WL profile，具体数学表述参考式 35
- 在高红移 mis centering 更容易发生
fig16 和 fig17 展示了各个 bin 中的 WL mass profile，最后还得到了一个 richness 和 virial mass 的幂律关系
这里对于 0.1-0.3 以及 0.3-0.6 的低红移和高红移基本是分开考虑的

Thought #

既然这里的 SPS model 还需要拟合到观测上，是不是说明 color offset 应该是 redMaPPer 提供的 model 那边的问题？
介绍比 redMaPPer paper 有逻辑很多
CAMIRA 大致上也和 redMaPPer 差不太多，都包含 membership probability 和 percolation 这些特征
- 好像在 filter 设置上还更复杂一些？
为什么用第二类合流超几何函数呢？
从 flux limited 到 volume limited 的转换是必要的一步
可以很明显地看到 SDSS 的红移极限差不多就是 0.6，到这个红移之后很多方面都会出问题

和 redMaPPer 的比较 #

很大程度上参考了 R09 和 R12，所以很多方面都是比较相似的
有一个很大的不同是每一个星系对 richness 的贡献的定义
- redMaPPer 的定义就是不是背景就是成员星系，所以 membership probability 是 0-1 之间的数，来自于 membership 和 bkg 概率之间的比值；CAMIRA 给出一个可以大于 1 的 number parameter 的数值
  - 所以 richness 的定义可能也有不同
- CAMIRA 将 chi2 转化为一个更复杂的分布，可以保证峰值出现在 chi2=0 处
  - 从统计学的角度来讲直接用卡方分布是更加科学的
光度的分布在 CAMIRA 中体现为 mag vec 和模板的差异，其实是不如 Schechter 分布的
- 也没有采用 projected NFW 分布，这里的 $f(R)$ 不知何意
CAMIRA 的 bkg 扣除采用 local density，所以可以避开宇宙大尺度结构的影响
CAMIRA 对于 off diagonal 的处理更物理一些，归因于金属丰度的差异
redMaPPer 多出了「finder 和 calibration 的迭代」一步，可能纳入了更多关于 red sequence faint end 的信息？
CAMIRA 其实有很多经验性的设置，比如 filter function 的形状、颜色的筛选