Speagle2019GalaxyGalaxyLensinga
Brief
#
- 一般的 photo-z 框架都是仅使用 color 信息的(?),隐含假设是 c -> z 的推断不会受到 magnitude/flux 的影响
- 这里先将颜色用 SOM 降维到二维,然后对比单个 node 中的星系的 mag-z 关系,验证二者是相关的
- photo-z 框架(franken-z)的特点是
- 直接用 n 波段的 flux/mag 空间作为定义距离/neighbor 的空间
- Bayesian 框架可以给出最终 photo-z PDF 的来源构成
- 用 Monte Carlo 减轻了纳入误差情况下的 kNN 计算成本
- 对于训练样本根据周边 density 计算一个先验概率
- photo-z 的性能评估是用 training dataset 做的(k-fold validation)
- 应用到 gg lensing 上之后发现 photo-z 的各种设置都不会影响 lensing signal,所以至少现在 photo-z 还不是 gg lensing 的主要问题
Intro
#
- photo-z 是 WL 的重要问题之一,尤其是对于深度巡天来说大量 faint sources 不具有 spec-z 数据
- HSC photo-z 除了采用 spec-z 之外还采用了 grism/prism 红移以及 COSMOS photo-z 作为训练集
- 需要研究 photo-z 是否受到了 heterogeneous 训练集的影响
- 评估 photo-z「是否受到影响」的方法包括
- 上述方法都建立在「ensembles of galaxies 可以用于校准 photo-z 性能」假设的基础上
Data
#
- photometric data 来自 HSC s16a,coverage 136.9 deg2
- source 的要求是 cmodel/psf 测量可靠、亮度亮于 24.5、FDFC、seeing 条件
- 使用了 Arcturus BSM,相比 Sirius BSM 可以保留更多的星系
- photo-z 的训练数据来自 public/private spec-z、grism/prism、3D-HST/COSMOS2015 提供的更高质量的 photo-z
- 总体数量分别是 170k, 37k 和 170k
- 根据观测质量/参数空间覆盖重新赋予权重,最后 COSMOS 的权重超过了 50%
Representative
#
- 一般的 photo-z 有一个假设是 color -> Pz 的推断是不依赖于 magnitude 的,所以可以用 bright spec-z 来校准 faint sources
- 反对这个假设的一个理由是星系质量会不断积累,所以低红移星系应该更亮
- 这里用 SOM 将 4D color space 投影到 2D 网格上,网格上的每一个 node 代表一种特定类型的 SED,颜色类似的星系会分到同一个或者相近的 node
- fig2 对应 50x50 的 SOM 结果,相当于用某种投影展示 5D space 中的分布
- fig3 展示了单个 SOM 单元上的红移演化,同样颜色的星系中,更暗的倾向于分布于更高红移
- 即使在 spec-z 内部也存在这样的趋势
- fig4 是一个反例,对于一些颜色红移和 magnitude 关联不大
- 对于 SOM node 计算 dz/dm 发现有 40% 具有红移-mag 相关的趋势
- C3R2 考虑的主要是 color 空间的密度,此外还需要考虑 magnitude 维度的密度
Photo-z framework
#
- 这里使用了 frankenz(具体介绍在另一篇文章中),核心思想是将 magnitude 加入 photo-z 流程的输入中,并且追踪训练集中的单个对象对于最终预测的贡献
- 基本的 Bayes 框架是对单个天体的红移估计来源于多个训练样本的贡献之和
- 每一个训练样本的贡献等价于「和模板的相似程度」以及「自身的红移概率分布」的乘积
- 如果训练样本的红移分布实际很宽则体现在后一项中
- 「和模板的相似程度」可以拆分为先验估计和似然两部分
- 似然函数来自所有波段的拟合,也就是不是 mag + (n-1) color 空间而是 n mag 区间
- 最终拟合结果表现为一个 chi2 value
- 误差来自两个对象的方差加和
- 先验估计可以体现「训练集的参数空间覆盖和目标集之间有多么不同」的信息
- 这里计算的方式是根据单个训练样本相对于随机选取的目标样本进行匹配的效果,得到的先验 $P(h)$ 反映了 h 所在位置的目标集密度
- 由于框架中包含误差,直接计算可能无法找到 kNN,出于计算成本考虑的做法是(称作 KMCKNN):根据 mag 测量值和不确定度进行 Monte Carlo 采样,然后 k-d tree 找到最近的 neighbor
- 这种 Monte Carlo 和最近集合寻找进行多次,最终得到一个 neighbor list
- 这个框架可以提供拟合的 chi2 以及最终预测由哪些训练样本给出(一定的 interpretability?)
- 后者量化为 F/P 两个指标,用于描述 photo-z 数量/权重方面的贡献,这里的权重指的是 color likeness
Photo-z validation
#
- 在 HSC 的 flux/mag 选择上发现 psf-matched 1.1 arcsec aperture 是最优的
- 给 flux 引入了一个额外的 smoothing kernel 以衡量没有计算在 error 之内的误差,最佳值确定为 0.02(指误差相对于 flux 的比例)
- 样本的红移 kernel 由自身的误差和 0.01 的固定宽度平方加和得到
- 所以 spec-z 的误差会被夸大,不过最后误差的瓶颈不在这里
- 验证的方法是将训练集分为 5 份,用 4 份轮流作为训练数据对剩余 1 份进行预测
- fig6 left 是全部 PDF 堆叠和实际红移的对比,均值出现在 y=x 线上说明估计的偏差较小
- right 说明 scatter 大约在 7%左右,并且在 faint end 更差
- fig7 的原理是:首先计算真实红移在预测 PDF 中的 quantile,然后绘制这个分位数的 eCDF 曲线,理想情况应该是 y=x 的曲线
- fig8 给出了 photo-z 对最终预测的贡献比例,大约在 23 左右达到 50%
Lensing methodology
#
- lensing 计算使用的软件是 dsigma
- photo-z 对 lensing 的影响在于两方面:critical density 计算 bias 以及前景星系混入 source 中导致信号 dilution
- this work 使用了 COSMOS photo-z 作为 calibration 样本(以填补 HSC 的较深 mag 空间)以校正 WL bias
- COSMOS photo-z 和 HSC photo-z 之间的系统性偏差在 2-5% 左右
- robustness 的检验依靠 i/j 不同设置下的 WL signal 比值进行
Robustness
#
- 检验 source photo-z bias/error 对 WL 测量的影响程度
- lens 星系来自 SDSS/BOSS 巡天的 low-z 和 CMASS 样本,根据红移 0.2/0.4/0.6/0.8 区分三个样本,具体 variation 由 fig10-12 给出(对应三个 redshift bin)
- 使用不同的红移值(mean/median/mode/best)影响不大,除了 Monte Carlo 会导致信号低估
- z_best 的定义可以参考 Tanaka 2018
- 选用 z_best 作为 fiducial
- 根据 PDF 的质量和 chi2 进行筛选,basic/medium/strict 没有太大区别,最终选用 medium 作为 fiducial
- lens-source separation 标准(选用 68/95 分位数以及 0.1/0.2 buffer)同样不会影响信号
- 根据 z_best=1 划分低/高红移的子样本,没有明显影响
- 将高红移 source 根据 photo-z 来源中 spec/photo-z 的比例进行划分,虽然质量存在差异,但是最终 lensing 结果也没有很大差别
- 总体来说结论是:photo-z bias/error 在 gg lensing 中不占据主导因素
Thoughts
#
- 所以 4D color 到 2D 参数空间的降维/映射不是非常新奇的做法,有前例可循
- SOM 的分类说明的正好是 photo-z error?因为 photo-z 只是相当于把 4D 信息压缩到了更低的 1D 红移空间
- 不完全一致,这里 2D 保留的还是颜色信息;photo-z 依赖/给出的 c-z 关系是额外的信息
- photo-z 的输入一般是不包括星等的 n-1 维数据吗?
- 抛弃外围的 Bayes wrapper,最核心的问题还是如何衡量颜色/mag/flux 空间中的 likeness
- mag + (n-1) color 空间和 n mag 空间的选择还值得商榷:前者物理意义更明确一些
- 两个空间之间的变换不是等距离的(比如 12345 和 23456),可能换成 1+(n-1) 结果会不一样?
- k-fold validation 方法可以学习
- Tanaka 2018 也是重要的 reference,作用是描述了 training dataset 的构成以及不同方法在 HSC 上的表现
- 核心问题还是在训练/测试集上的良好表现不能说明在目标集上的表现,但是这里用 COSMOS photo-z 解决了一部分问题
- 对于 QG 来说,同样颜色下更亮的星系倾向于具有更低的红移(结合 red sequence 以及 c-z 关系)
Supplement
#
SOM
#