Ascaso2012BayesianClusterFinder

  • gemini https://aistudio.google.com/prompts/1BLwbZvV-3BL8f00RjB-wIVJ1Ompwm6NE
  • Bayesian cluster finder
    • 2012
    • 简单来说是对 matched filter 进行了 Bayesian 视角的改进
    • 除了三个 filter(luminosity、radial、photo-z)之外还包括了 red sequence 以及 BCG-z 两种先验
  • 在 mock catalog 上测试的结果很好,并且去掉 red sequence 以及 BCG 两种先验结果不会变差
  • 应用于 CFHTLS 上也得到了很好的结果

Brief #

  • 将 matched filter 和星系的 red sequence 分别作为 Bayesian 框架的似然函数和先验进行
    • 好处是可以随时开启和关闭 prior 进行 cluster finder
    • 没有完整地进行 Bayesian inference 而是仍然采用 galaxy centric perspective 为每一个星系计算其作为 cluster center candidate 的概率
  • 一个 claim 是 red sequence prior 用处不大,因为这里在 simulation 里面开启和关闭这个 prior 对结果的影响不大
  • richness 和 cross match distance 可能太过宽容?

Intro #

  • cluster finder 的简单分类是
    • 基于几何分布(比如 Voronoi)的方法,不依赖于对 cluster 形状和颜色的假设,可以探测不规则的结构
    • 基于 red sequence 的方法:存在根本性的 bias,也就是更容易找到具有 red sequence 的 cluster
      • 这里的例子包括 maxBCG、(最早的)cluster red sequence、C4
      • 高红移/低质量 cluster 中不具有 red sequence 的比例急剧升高
    • 基于 matched filter 的方法:依赖于 filter 本身代表的模型假设
  • this work 的目标是结合第二和第三类 finder 的优势,将 filter 作为似然函数的组分,而将 red sequence 和 BCG 的信息作为先验知识
    • 基于 red sequence 的先验知识可以根据需要 toggle

Method #

  • Bayesian framework 基本由两步构成:观测到的星系数据的概率等于「在先验下存在一个具有某种特征的 cluster 的概率」和「具有某种特征的 cluster 周围具有某些星系的概率」的乘积,二者分别由先验和似然函数给出
    • cluster 的维度包括 richness、radius 以及 redshift
    • 星系数据点的维度包括坐标、颜色/测光红移(以及 spectral type)、星等
  • 似然函数由 filter 给出,包括空间、光度、红移的概率分布
    • 空间分布定为 Plummer profile,核心和 cutoff 半径分别定为 0.15 和 1.5 Mpc
    • 光度分布由 cluster member 的 Schechter 分布和背景源分布 $b(m)$ 叠加得到
      • Schechter 分布的特征星等 mstar 相对于红移有斜率 -1 的线性变化(Postman 2002)
      • 背景分布采用迭代方式确定:用粗测的背景先进行 cluster 探测和 mask,最后再测量精确的背景
    • 根据 photo-z method 提供的 PDF 在 cluster 的红移周围 $\pm \sigma_c$ 进行概率积分,这里 $\sigma_c=0.06(1+z_c)$
      • 如果没有提供就假设一个 $\sigma=\sigma_c$ 的 Gaussian 概率分布
  • prior 由 red sequence 和 BCG-z 的关系组成
    • red sequence 来自于一定空间和红移范围内星系线性关系的 slope 和预期 slope 之间的差距(slope or color?)
      • 预期 slope 由多种星系类型的合成给出
      • 颜色采用可以横跨 4000A break 的单色
    • BCG-z 的关系来自 SDSS 样本提供的经验关系,同样用 Gaussian 给出概率
  • 针对每一个星系计算以上概率,仅保留概率超出 Gaussian 分布 3sigma 的星系(fig2 可以看出存在一个 long tail)
    • 首先根据 probability 将星系分配到不同的红移 slice 中
    • 在每一个红移 slice 中根据 density map 定义 cluster candidate,初始的 cluster redshift 就来自 slice 对应的红移
    • 边界定义为 probability 相对径向距离的梯度逐渐减小到 0.1 的位置
    • 对 cluster 距离中心 1.5Mpc 的所有 member 的测光红移分布拟合一个 Gaussian 分布,其峰值即为精确 cluster redshift
    • richness 定义为 1.5Mpc 内的 Lstar 星系的数量,之前的实验证明和 Abell richness 是非常相关的
      • 需要根据 survey depth limit 进行补偿
    • 在单个红移 slice 上迭代地重复这一过程直到不存在概率高于阈值的星系
    • 在 cluster candidate 的基础上重新根据亮度挑选 BCG 并且重新根据全部 member 估计红移
    • 检查新的红移和初始红移差距,如果太大则说明这是一个 problematic cluster
    • 最终进行跨 slice 的合并得到最终的 cluster catalog

Simulation #

  • 在 1 deg2 的天区内生成了红移 0.1-1.2 的具有不同 richness 的 cluster
    • 为红移分布添加了 0.01 的误差
    • 合理模拟了光度、颜色以及 red sequence 的分布
      • fig3: 两个 cluster 中星系在 CMD 上的分布
    • 背景来自 CFHTLS 的真实观测
      • 首先通过 mask 来提取真实的 field galaxy density
      • 模拟的背景需要和真实星系具有相同的 2PCF,这一条件通过 Rayleigh-Levy random walk 实现
      • 相当于 field galaxy 的星等、颜色等都得到了保留而仅改变了距离
  • fig4 展示了算法表现:completeness 极高
    • 对于 richness 高于 20 的 cluster,purity 可以控制在 80% 以上
    • 这里认为 projection effect 连同 density profile(及其半径参数)的选择都不是很关键
      • 在用 Plummer 拟合 NFW profile 的时候 purity 最大会下降 10%
  • 「red sequence 对于 cluster 是否是必然存在的」仍然是未知的,所以 red cluster 的假设会引入 bias
    • fig5 展示了完全关闭 red prior 的算法探测具有 red sequence 的模拟数据的结果
    • fig6-8 对应开启/关闭 red prior 之后探测「一半具有、一半没有」red sequence 的模拟数据的效果
  • fig9-11 对应空间位置、红移、richness 估计的精度
    • centering 的偏差量级大约是 100-1000kpc
    • 红移测量的精度大约是 0.001
    • richness 方面对 poor cluster 有略微的高估

Clusters in CFHTLS #

  • CARS 指的是 CFHTLS 的存档数据
  • CFHTLS 包括 deep/wide 两个层级,filter 设置是 ugriz
    • r-band limit 对于 wide layer 大约是 24.5
  • CARS catalog 提供了星系颜色的测量以及 BPZ 测量的 photo-z
  • 数据清洗的 criterion 包括 photo-z quality flag 参数、stellar/star 分离参数、r-band 亮于 25
    • 25 是 magnitude histogram 的峰值,同时也是 data completeness 的极限
  • 在 W1、W3、W4 中进行了 cluster detection,cluster surface density 大约是 35 deg-2
    • 筛选条件是 richness 高于 20 以及红移低于 1.2
  • 不同 cluster finder 在 merging distance 上处理不同,会导致 cluster 数量不同进而影响宇宙学的结论
  • 和 O07、A10、X-ray 等进行了对比
    • O07 利用 deep layer 数据进行 cluster detection,匹配的依据是 comoving distance 小于 4Mpc
      • 用 FoF 进行 cross match?
      • 如果重点考虑高置信度的 cluster,匹配结果很好:completeness 大概有 70-80%,红移精度也比较符合
      • fig17 比较了这个天区中的 density map,二者分别展示为 color map 以及 contour
    • A10 使用的是 LePhare photo-z 和 adaptive kernel 以及 SEx(fig19-30)
      • this work 的 3sigma 和 A10 的 2sigma 比较接近
    • 对比 X-ray compilation 中的 25 个 cluster,这里找到了其中的 23 个
      • 此外和 spec-z 也具有很高一致性
      • X-ray 一般对应于最亮的 cluster

Discussion #

  • 一个 claim 是:关闭 red prior 不影响结果,所以 prior 对于 cluster finder 不是必要的,反而容易导致 selection bias
  • fig17 展示了自/互相关函数
  • this work 的 cluster 在 z=1 处存在一个 peak
    • fig38 试图证明这个红移上找到的 cluster 是真实的
      • 其中 top panel 中的 cluster 有独立的 X-ray 观测

Thoughts #

  • 0.06 的相对红移误差其实很大,相当于一个 cylinder cluster
  • 这里的 prior 认为单个 cluster 是存在 red sequence 的
  • 红移分 slice 还是引入了人为因素,但是可能是针对实践中的某个困难的解决方案
  • 在建立 Bayesian 框架之后转向 galaxy-centric 是一种近似的做法
    • 其实没办法像 cosmology 一样建立一个足够精确的 Bayesian 框架的原因就是计算量太大了
  • Postman 是 this work 一个很重要的 reference 来源
  • richness 大概处于 10-100 量级最终源自 Abell richness,定义为亮于 $m_3+2$ 的星系数目
  • 4Mpc 的匹配距离是合理的吗?
  • redMaPPer/AMICO 基本将这里考虑到的事情都考虑到了