Payerne2023TestingAccuracyLikelihoods

Brief #

  • cluster abundance 的误差来源于 shot noise 和 sample variance 两部分,分别服从 Poisson 和 Gaussian 统计规律
  • 用相比 N-body simulation 更简单的方式模拟了 cluster abundance 数据,并且对比了三种 likelihood 的表现:Poisson 对 sample variance 的忽略导致其几乎不可用,Gaussian 和 GPC 几乎表现相同
  • binning 数量在 600 左右是够用的,继续提升会饱和
  • 是否应该采用没有分 bin 的整体的 likelihood?

Intro #

  • 对于 cluster 在每一个 mass-redshift bin 中的数量需要有一个统计精确的描述,而不仅仅是平均数量
    • 一般用到的似然函数包括 Poisson、Gaussian 以及二者的复合
    • this work 还探讨了在 mass-redshift 平面上的最佳分 bin 策略

Likelihood #

  • GP compound 的基本想法是:观测到的 cluster 数量由两个随机过程决定,分别是服从 Gaussian 分布的 sample variance 以及服从 Poisson 分布的 shot noise(eq3, 5)
    • sample variance 可以理解为宇宙的不同 realization,或者理解为 cosmic variance
    • 二者通过积分联系在一起
  • Poisson likelihood 相当于忽略了 sample variance,不考虑不同 bin 内的计数之间的相关性
    • 这种相关性来自于共同的 underlying overdensity field
  • Gaussian likelihood 是 cluster number 较大情况下的近似,各个 bin 的计数的整体误差由协方差矩阵描述
    • 协方差矩阵的 diagonal 元素主要描述 shot noise,而非对角元素描述 sample variance
  • Poisson/Gaussian 分别是 number count 较低/高情况下的近似

Testing likelihood (3-5) #

  • 如果一个 likelihood 是准确的,那么模拟多个宇宙 realization 之后,根据 cluster abundance 恢复的宇宙学参数的实际误差应该和 likelihood 给出的理论误差相同
    • 如果理论预测的误差更小,说明 likelihood 低估了误差,或者忽略了某个重要的误差来源
    • 一般不会有高估的情况
  • 引入 Fisher Matrix 以提供额外的检验
  • 生成宇宙多个 realization 的方法是匹诺曹(PINOCCHIO)算法,相当于牺牲部分精度以追求速度的 N-body simulation 的替代
    • 生成了 1k realization 并且覆盖 10k deg2 天区
    • 红移覆盖 0-2.5,仅考虑 2.45e13 以上质量的 halo
    • 宇宙学参数固定为 Planck 2014
    • 通过重新 calibration 使其和 Despali 2016 给出的 halo mass function 完全一致
  • fig1 给出了实际 histogram 以及三种 likelihood 的对比
  • 协方差矩阵包括 shot noise 和 sample 两部分,前者就等于 count 本身(Poisson)
    • 后者计算方式是 bias 和物质密度场相关性的乘积
      • 物质密度场相关性的计算用 PySSC 进行,并且和 1k realization 的经验误差进行了对比

Methodology #

  • binning 策略包括 coarse、medium 以及 fine 三类,bin 的数量分别是 16, 600, 10k (fig2)
  • 对 3x3 情况进行宇宙学参数的推断(Om 和 s8),用 MCMC 的算力要求太高,实际过程使用了 importance sampling (fig3)
  • 对于每一个 realization 计算一个平均值和协方差矩阵,然后合并在一起得到 ensemble 平均值和协方差矩阵(eq32/33)

Results #

  • 所有宇宙学推断都存在微小的 bias(大约 <1% 量级),具体来说是推断出更低的 Om 和更高的 s8,并且无法被 1k 数量的统计误差解释
    • 可能来源于所有 likelihood 都不足够精确,或者 halo mass model 不足够精确
  • Poisson likelihood 在所有情况下都存在严重的误差低估(fig6),说明 sample variance 是重要的误差来源
    • Gaussian 和 GPC 给出的误差预测是准确的,并且二者表现几乎相同(即使在 low count 情况下)
    • 从 coarse 到 medium 的精细化有很大提升,但是更加精细的分箱的提升不明显(也就是 600 个已经足够)
    • Gaussian 和 GPC 会低估两个参数之间的相关性,但是影响不是很大
  • 即使减小巡天面积(10%)以及仅分析高质量 cluster,Poisson 仍然存在很大问题

Thoughts #

  • Gaussian 和 GPC 都同时包括了两类误差?
    • branch https://aistudio.google.com/prompts/1B0u7IRBWHZ5Bix6CY_nbI5jilx-wAjZB
    • Gaussian 的协方差矩阵由两类误差直接相加得到,在 number count 很低的情况下符合不是很好(比如会有一定概率 count 为负)
    • GPC 的假设是:最终的计数由参数 $\lambda$ 的 Poisson 分布给出,而参数 $\lambda$ 由另外一个 Gaussian 分布给出
  • 即使是 medium 分箱似乎也比当前的 cluster cosmology 更多?
    • Ghirardini2024SRGEROSITAAllsky 没有用 explicit 分箱,而是针对每一个 cluster 计算似然函数然后叠加
    • 如果能抛弃 binning 的话当然是最好的,binning 一定会带来信息的损失以及引入一些 arbitrary choice
  • 所以「是否要分 bin」或者「怎么避免分 bin」是另外一个重要的问题