Ascaso2012BayesianClusterFinder

April 6, 2026

gemini https://aistudio.google.com/prompts/1BLwbZvV-3BL8f00RjB-wIVJ1Ompwm6NE
Bayesian cluster finder
- 2012
- 简单来说是对 matched filter 进行了 Bayesian 视角的改进
- 除了三个 filter（luminosity、radial、photo-z）之外还包括了 red sequence 以及 BCG-z 两种先验
在 mock catalog 上测试的结果很好，并且去掉 red sequence 以及 BCG 两种先验结果不会变差
应用于 CFHTLS 上也得到了很好的结果

Brief #

将 matched filter 和星系的 red sequence 分别作为 Bayesian 框架的似然函数和先验进行
- 好处是可以随时开启和关闭 prior 进行 cluster finder
- 没有完整地进行 Bayesian inference 而是仍然采用 galaxy centric perspective 为每一个星系计算其作为 cluster center candidate 的概率
一个 claim 是 red sequence prior 用处不大，因为这里在 simulation 里面开启和关闭这个 prior 对结果的影响不大
richness 和 cross match distance 可能太过宽容？

Intro #

cluster finder 的简单分类是
- 基于几何分布（比如 Voronoi）的方法，不依赖于对 cluster 形状和颜色的假设，可以探测不规则的结构
- 基于 red sequence 的方法：存在根本性的 bias，也就是更容易找到具有 red sequence 的 cluster
  - 这里的例子包括 maxBCG、（最早的）cluster red sequence、C4
  - 高红移/低质量 cluster 中不具有 red sequence 的比例急剧升高
- 基于 matched filter 的方法：依赖于 filter 本身代表的模型假设
this work 的目标是结合第二和第三类 finder 的优势，将 filter 作为似然函数的组分，而将 red sequence 和 BCG 的信息作为先验知识
- 基于 red sequence 的先验知识可以根据需要 toggle

Method #

Bayesian framework 基本由两步构成：观测到的星系数据的概率等于「在先验下存在一个具有某种特征的 cluster 的概率」和「具有某种特征的 cluster 周围具有某些星系的概率」的乘积，二者分别由先验和似然函数给出
- cluster 的维度包括 richness、radius 以及 redshift
- 星系数据点的维度包括坐标、颜色/测光红移（以及 spectral type）、星等
似然函数由 filter 给出，包括空间、光度、红移的概率分布
- 空间分布定为 Plummer profile，核心和 cutoff 半径分别定为 0.15 和 1.5 Mpc
- 光度分布由 cluster member 的 Schechter 分布和背景源分布 $b(m)$ 叠加得到
  - Schechter 分布的特征星等 mstar 相对于红移有斜率 -1 的线性变化（Postman 2002）
  - 背景分布采用迭代方式确定：用粗测的背景先进行 cluster 探测和 mask，最后再测量精确的背景
- 根据 photo-z method 提供的 PDF 在 cluster 的红移周围 $\pm \sigma_c$ 进行概率积分，这里 $\sigma_c=0.06(1+z_c)$
  - 如果没有提供就假设一个 $\sigma=\sigma_c$ 的 Gaussian 概率分布
prior 由 red sequence 和 BCG-z 的关系组成
- red sequence 来自于一定空间和红移范围内星系线性关系的 slope 和预期 slope 之间的差距（slope or color?）
  - 预期 slope 由多种星系类型的合成给出
  - 颜色采用可以横跨 4000A break 的单色
- BCG-z 的关系来自 SDSS 样本提供的经验关系，同样用 Gaussian 给出概率
针对每一个星系计算以上概率，仅保留概率超出 Gaussian 分布 3sigma 的星系（fig2 可以看出存在一个 long tail）
- 首先根据 probability 将星系分配到不同的红移 slice 中
- 在每一个红移 slice 中根据 density map 定义 cluster candidate，初始的 cluster redshift 就来自 slice 对应的红移
- 边界定义为 probability 相对径向距离的梯度逐渐减小到 0.1 的位置
- 对 cluster 距离中心 1.5Mpc 的所有 member 的测光红移分布拟合一个 Gaussian 分布，其峰值即为精确 cluster redshift
- richness 定义为 1.5Mpc 内的 Lstar 星系的数量，之前的实验证明和 Abell richness 是非常相关的
  - 需要根据 survey depth limit 进行补偿
- 在单个红移 slice 上迭代地重复这一过程直到不存在概率高于阈值的星系
- 在 cluster candidate 的基础上重新根据亮度挑选 BCG 并且重新根据全部 member 估计红移
- 检查新的红移和初始红移差距，如果太大则说明这是一个 problematic cluster
- 最终进行跨 slice 的合并得到最终的 cluster catalog

Simulation #

在 1 deg2 的天区内生成了红移 0.1-1.2 的具有不同 richness 的 cluster
- 为红移分布添加了 0.01 的误差
- 合理模拟了光度、颜色以及 red sequence 的分布
  - fig3: 两个 cluster 中星系在 CMD 上的分布
- 背景来自 CFHTLS 的真实观测
  - 首先通过 mask 来提取真实的 field galaxy density
  - 模拟的背景需要和真实星系具有相同的 2PCF，这一条件通过 Rayleigh-Levy random walk 实现
  - 相当于 field galaxy 的星等、颜色等都得到了保留而仅改变了距离
fig4 展示了算法表现：completeness 极高
- 对于 richness 高于 20 的 cluster，purity 可以控制在 80% 以上
- 这里认为 projection effect 连同 density profile（及其半径参数）的选择都不是很关键
  - 在用 Plummer 拟合 NFW profile 的时候 purity 最大会下降 10%
「red sequence 对于 cluster 是否是必然存在的」仍然是未知的，所以 red cluster 的假设会引入 bias
- fig5 展示了完全关闭 red prior 的算法探测具有 red sequence 的模拟数据的结果
- fig6-8 对应开启/关闭 red prior 之后探测「一半具有、一半没有」red sequence 的模拟数据的效果
fig9-11 对应空间位置、红移、richness 估计的精度
- centering 的偏差量级大约是 100-1000kpc
- 红移测量的精度大约是 0.001
- richness 方面对 poor cluster 有略微的高估

Clusters in CFHTLS #

CARS 指的是 CFHTLS 的存档数据
CFHTLS 包括 deep/wide 两个层级，filter 设置是 ugriz
- r-band limit 对于 wide layer 大约是 24.5
CARS catalog 提供了星系颜色的测量以及 BPZ 测量的 photo-z
数据清洗的 criterion 包括 photo-z quality flag 参数、stellar/star 分离参数、r-band 亮于 25
- 25 是 magnitude histogram 的峰值，同时也是 data completeness 的极限
在 W1、W3、W4 中进行了 cluster detection，cluster surface density 大约是 35 deg-2
- 筛选条件是 richness 高于 20 以及红移低于 1.2
不同 cluster finder 在 merging distance 上处理不同，会导致 cluster 数量不同进而影响宇宙学的结论
和 O07、A10、X-ray 等进行了对比
- O07 利用 deep layer 数据进行 cluster detection，匹配的依据是 comoving distance 小于 4Mpc
  - 用 FoF 进行 cross match？
  - 如果重点考虑高置信度的 cluster，匹配结果很好：completeness 大概有 70-80%，红移精度也比较符合
  - fig17 比较了这个天区中的 density map，二者分别展示为 color map 以及 contour
- A10 使用的是 LePhare photo-z 和 adaptive kernel 以及 SEx（fig19-30）
  - this work 的 3sigma 和 A10 的 2sigma 比较接近
- 对比 X-ray compilation 中的 25 个 cluster，这里找到了其中的 23 个
  - 此外和 spec-z 也具有很高一致性
  - X-ray 一般对应于最亮的 cluster

Discussion #

一个 claim 是：关闭 red prior 不影响结果，所以 prior 对于 cluster finder 不是必要的，反而容易导致 selection bias
fig17 展示了自/互相关函数
this work 的 cluster 在 z=1 处存在一个 peak
- fig38 试图证明这个红移上找到的 cluster 是真实的
  - 其中 top panel 中的 cluster 有独立的 X-ray 观测

Thoughts #

0.06 的相对红移误差其实很大，相当于一个 cylinder cluster
这里的 prior 认为单个 cluster 是存在 red sequence 的
红移分 slice 还是引入了人为因素，但是可能是针对实践中的某个困难的解决方案
在建立 Bayesian 框架之后转向 galaxy-centric 是一种近似的做法
- 其实没办法像 cosmology 一样建立一个足够精确的 Bayesian 框架的原因就是计算量太大了
Postman 是 this work 一个很重要的 reference 来源
richness 大概处于 10-100 量级最终源自 Abell richness，定义为亮于 $m_3+2$ 的星系数目
4Mpc 的匹配距离是合理的吗？
redMaPPer/AMICO 基本将这里考虑到的事情都考虑到了