Payerne2023TestingAccuracyLikelihoods
Brief
#
- cluster abundance 的误差来源于 shot noise 和 sample variance 两部分,分别服从 Poisson 和 Gaussian 统计规律
- 用相比 N-body simulation 更简单的方式模拟了 cluster abundance 数据,并且对比了三种 likelihood 的表现:Poisson 对 sample variance 的忽略导致其几乎不可用,Gaussian 和 GPC 几乎表现相同
- binning 数量在 600 左右是够用的,继续提升会饱和
- 是否应该采用没有分 bin 的整体的 likelihood?
Intro
#
- 对于 cluster 在每一个 mass-redshift bin 中的数量需要有一个统计精确的描述,而不仅仅是平均数量
- 一般用到的似然函数包括 Poisson、Gaussian 以及二者的复合
- this work 还探讨了在 mass-redshift 平面上的最佳分 bin 策略
Likelihood
#
- GP compound 的基本想法是:观测到的 cluster 数量由两个随机过程决定,分别是服从 Gaussian 分布的 sample variance 以及服从 Poisson 分布的 shot noise(eq3, 5)
- sample variance 可以理解为宇宙的不同 realization,或者理解为 cosmic variance
- 二者通过积分联系在一起
- Poisson likelihood 相当于忽略了 sample variance,不考虑不同 bin 内的计数之间的相关性
- 这种相关性来自于共同的 underlying overdensity field
- Gaussian likelihood 是 cluster number 较大情况下的近似,各个 bin 的计数的整体误差由协方差矩阵描述
- 协方差矩阵的 diagonal 元素主要描述 shot noise,而非对角元素描述 sample variance
- Poisson/Gaussian 分别是 number count 较低/高情况下的近似
Testing likelihood (3-5)
#
- 如果一个 likelihood 是准确的,那么模拟多个宇宙 realization 之后,根据 cluster abundance 恢复的宇宙学参数的实际误差应该和 likelihood 给出的理论误差相同
- 如果理论预测的误差更小,说明 likelihood 低估了误差,或者忽略了某个重要的误差来源
- 一般不会有高估的情况
- 引入 Fisher Matrix 以提供额外的检验
- 生成宇宙多个 realization 的方法是匹诺曹(PINOCCHIO)算法,相当于牺牲部分精度以追求速度的 N-body simulation 的替代
- 生成了 1k realization 并且覆盖 10k deg2 天区
- 红移覆盖 0-2.5,仅考虑 2.45e13 以上质量的 halo
- 宇宙学参数固定为 Planck 2014
- 通过重新 calibration 使其和 Despali 2016 给出的 halo mass function 完全一致
- fig1 给出了实际 histogram 以及三种 likelihood 的对比
- 协方差矩阵包括 shot noise 和 sample 两部分,前者就等于 count 本身(Poisson)
- 后者计算方式是 bias 和物质密度场相关性的乘积
- 物质密度场相关性的计算用 PySSC 进行,并且和 1k realization 的经验误差进行了对比
Methodology
#
- binning 策略包括 coarse、medium 以及 fine 三类,bin 的数量分别是 16, 600, 10k (fig2)
- 对 3x3 情况进行宇宙学参数的推断(Om 和 s8),用 MCMC 的算力要求太高,实际过程使用了 importance sampling (fig3)
- 对于每一个 realization 计算一个平均值和协方差矩阵,然后合并在一起得到 ensemble 平均值和协方差矩阵(eq32/33)
Results
#
- 所有宇宙学推断都存在微小的 bias(大约 <1% 量级),具体来说是推断出更低的 Om 和更高的 s8,并且无法被 1k 数量的统计误差解释
- 可能来源于所有 likelihood 都不足够精确,或者 halo mass model 不足够精确
- Poisson likelihood 在所有情况下都存在严重的误差低估(fig6),说明 sample variance 是重要的误差来源
- Gaussian 和 GPC 给出的误差预测是准确的,并且二者表现几乎相同(即使在 low count 情况下)
- 从 coarse 到 medium 的精细化有很大提升,但是更加精细的分箱的提升不明显(也就是 600 个已经足够)
- Gaussian 和 GPC 会低估两个参数之间的相关性,但是影响不是很大
- 即使减小巡天面积(10%)以及仅分析高质量 cluster,Poisson 仍然存在很大问题
Thoughts
#
- Gaussian 和 GPC 都同时包括了两类误差?
- 即使是 medium 分箱似乎也比当前的 cluster cosmology 更多?
- 所以「是否要分 bin」或者「怎么避免分 bin」是另外一个重要的问题