Payerne2023TestingAccuracyLikelihoods

June 14, 2026

Brief #

cluster abundance 的误差来源于 shot noise 和 sample variance 两部分，分别服从 Poisson 和 Gaussian 统计规律
用相比 N-body simulation 更简单的方式模拟了 cluster abundance 数据，并且对比了三种 likelihood 的表现：Poisson 对 sample variance 的忽略导致其几乎不可用，Gaussian 和 GPC 几乎表现相同
binning 数量在 600 左右是够用的，继续提升会饱和
是否应该采用没有分 bin 的整体的 likelihood？

对于 cluster 在每一个 mass-redshift bin 中的数量需要有一个统计精确的描述，而不仅仅是平均数量
- 一般用到的似然函数包括 Poisson、Gaussian 以及二者的复合
- this work 还探讨了在 mass-redshift 平面上的最佳分 bin 策略

GP compound 的基本想法是：观测到的 cluster 数量由两个随机过程决定，分别是服从 Gaussian 分布的 sample variance 以及服从 Poisson 分布的 shot noise（eq3, 5）
- sample variance 可以理解为宇宙的不同 realization，或者理解为 cosmic variance
- 二者通过积分联系在一起
Poisson likelihood 相当于忽略了 sample variance，不考虑不同 bin 内的计数之间的相关性
- 这种相关性来自于共同的 underlying overdensity field
Gaussian likelihood 是 cluster number 较大情况下的近似，各个 bin 的计数的整体误差由协方差矩阵描述
- 协方差矩阵的 diagonal 元素主要描述 shot noise，而非对角元素描述 sample variance
Poisson/Gaussian 分别是 number count 较低/高情况下的近似

如果一个 likelihood 是准确的，那么模拟多个宇宙 realization 之后，根据 cluster abundance 恢复的宇宙学参数的实际误差应该和 likelihood 给出的理论误差相同
- 如果理论预测的误差更小，说明 likelihood 低估了误差，或者忽略了某个重要的误差来源
- 一般不会有高估的情况
引入 Fisher Matrix 以提供额外的检验
生成宇宙多个 realization 的方法是匹诺曹（PINOCCHIO）算法，相当于牺牲部分精度以追求速度的 N-body simulation 的替代
- 生成了 1k realization 并且覆盖 10k deg2 天区
- 红移覆盖 0-2.5，仅考虑 2.45e13 以上质量的 halo
- 宇宙学参数固定为 Planck 2014
- 通过重新 calibration 使其和 Despali 2016 给出的 halo mass function 完全一致
fig1 给出了实际 histogram 以及三种 likelihood 的对比
协方差矩阵包括 shot noise 和 sample 两部分，前者就等于 count 本身（Poisson）
- 后者计算方式是 bias 和物质密度场相关性的乘积
  - 物质密度场相关性的计算用 PySSC 进行，并且和 1k realization 的经验误差进行了对比

所有宇宙学推断都存在微小的 bias（大约 <1% 量级），具体来说是推断出更低的 Om 和更高的 s8，并且无法被 1k 数量的统计误差解释
- 可能来源于所有 likelihood 都不足够精确，或者 halo mass model 不足够精确
Poisson likelihood 在所有情况下都存在严重的误差低估（fig6），说明 sample variance 是重要的误差来源
- Gaussian 和 GPC 给出的误差预测是准确的，并且二者表现几乎相同（即使在 low count 情况下）
- 从 coarse 到 medium 的精细化有很大提升，但是更加精细的分箱的提升不明显（也就是 600 个已经足够）
- Gaussian 和 GPC 会低估两个参数之间的相关性，但是影响不是很大
即使减小巡天面积（10%）以及仅分析高质量 cluster，Poisson 仍然存在很大问题

Gaussian 和 GPC 都同时包括了两类误差？
- branch https://aistudio.google.com/prompts/1B0u7IRBWHZ5Bix6CY_nbI5jilx-wAjZB
- Gaussian 的协方差矩阵由两类误差直接相加得到，在 number count 很低的情况下符合不是很好（比如会有一定概率 count 为负）
- GPC 的假设是：最终的计数由参数 $\lambda$ 的 Poisson 分布给出，而参数 $\lambda$ 由另外一个 Gaussian 分布给出
即使是 medium 分箱似乎也比当前的 cluster cosmology 更多？
- Ghirardini2024SRGEROSITAAllsky 没有用 explicit 分箱，而是针对每一个 cluster 计算似然函数然后叠加
- 如果能抛弃 binning 的话当然是最好的，binning 一定会带来信息的损失以及引入一些 arbitrary choice
所以「是否要分 bin」或者「怎么避免分 bin」是另外一个重要的问题