Salvato2019ManyFlavoursPhotometric

Brief #

  • photo-z 方法基本分为 template 和 ML 两种,后者对于训练集足够的参数空间可以实现有效的高维空间插值,而前者主要用于训练集不足的空间,具有比较好的外推稳健度
    • 光谱数据越多,ML 方法越有优势
  • photo-z 的精度大约是 0.10 量级,在各种条件满足的情况下极限可以达到 0.01
  • 可以加入的其他信息包括红移和视星等的关系等先验,以及星系的空间位置分布信息
  • 尽量宽广的波长覆盖和尽量准确的 photometric calibration 是最重要的问题

Intro #

  • 用 SED 确定天体的红移的方法是寻找光谱中的两个已知波长的特征,然后测量两个特征的间距被 $1+z$ 的因子拉伸了多少
    • 这种特征主要是各类发射线和吸收线,比较常用的两个特征分别是 3646A 的 Balmer break 以及 912A 的 Lyman break
    • 为什么不是测量一个已知绝对波长的特征的观测到的位置? 单个特征存在很多可能,简并性很强
  • 一般来说光谱红移是最准确的,因为可以很清晰地得到很多原子跃迁产生的 emission 或者 absorption line
    • 对于分辨率大于 200 的光谱,红移可以精确到 1e-3
    • 但是在 survey 中一般只有百分之几的最亮的对象可以获得光谱数据,对于比较暗的对象也很难得到足以定出红移的光谱数据
      • 多目标光谱仪的 spec-z 成功率只有 50-70%
  • 另一种测量红移的方法是 photo-z
    • 用多个宽滤波片获得的多波段测光数据也可以视作 SED 的一种 sparse sampling,能够捕获一些宽缓的、整体的特征(比如 Balmer break 或者 Lyman break)
      • 通过这些特征位移到了多波段测光数据的哪个位置可以确定红移
      • 关于 4000A/Balmer break 可以参考 Zimmermann2025SRGEROSITAAllSky#4000A Break
      • Lyman break 的成因是中性氢对紫外光子的吸收
    • 相比 spec-z 可以获得更大的样本,但是缺点是精度降低 10-100 倍
    • 可以用 spec-z 进行确认

Methods #

  • 两个原则是
    • filter 设置要能够覆盖关键的 SED 特征
    • 尽量扩大波长覆盖,以破除单一颜色-红移关系的简并性
  • photo-z 本质上来说是建立一个以各种颜色(和 flux)为输入、以红移为输出的模型
    • 最初的方法是模板拟合,需要基于一些先验的知识
    • 机器学习方法需要良好的训练集,也就是一些同时具有光谱和测光数据的星系
  • 模板拟合是一种 forward modeling 方法,模板用 SPS 生成(需要假设一个 SFH?)或者由观测得到
    • HII 区产生的 nebula emission 是一个重要的因素,应该纳入 template 中
    • 还需要考虑路径上的(依次)尘埃消光、IGM 的 Lyman 吸收、银河系消光、仪器效应
  • ML 方法更多地由数据驱动,本质上是高维空间中的插值
    • 训练集需要包括测光数据和作为训练目标的光谱红移
    • 监督学习的主要方法是 random forest、neural network、deep learning 等
      • 目标必须处于训练数据覆盖范围内,否则要进行存在风险的外推
    • 非监督学习的原理是将类似的光谱数据进行归类,比较适用于对未知参数空间的外推
  • 此外可以引入先验信息,加入到 bayes 框架中(比如 BPZ),可以减少灾难性失败的情况
    • 比如不同红移处的光度函数、红移随亮度的衰减关系
  • 另外一个额外信息是星系空间位置的 clustering,因为星系的分布不是随机的,而是存在大尺度的结构
    • 适合于推算样本整体的红移分布
    • redMaPPer 利用了这个信息

Which method #

  • template 方法的主要代码是 Hyperz、EAZY、ZEBRA 等,差异包括
    • 使用固定的模板还是根据数据对已有模板进行某些线性组合或者生成新的模板
    • 对各种物理效应(比如尘埃消光)的处理方式
  • 在训练集足够大的前提下,各种 ML 方法的表现最终会趋同
    • 大型 survey 往往采用自己开发或者参与的算法
    • 对于新数据集作者建议从简单快速的方法开始,比如 random forest
  • 对于波段覆盖比较不足的数据,加入先验可以显著降低灾难性失败的概率
  • 对于光谱数据丰富、完备的情况(比如 SDSS)应该使用 ML 算法,因为 ML 可以直接学习到颜色-红移关系
    • 不会受到模板的束缚,而且对于有颜色依赖的光度测量偏差不敏感
  • 对于光谱数据稀疏/有偏的情况(比如某个 survey 对小于 1 deg2 的天区进行了深度观测)应该使用 template 方法,以避免 ML 外推带来的不确定性
    • template 因为基于物理,能够满足外推的需求
  • ML 方法的速度一般更快,所以更适合于数据量更大的情况

SOTA #

  • 评估 photo-z 表现的标准主要是 bias、precision(一般用 normalized MAD 表征)以及 outlier fraction(比如偏离 0.15 的比例)
    • 用于验证的样本必须和训练样本保持独立,并且验证样本还要具有普遍性
    • 如果光谱数据不足以验证,那么可以用 close pair 等空间信息进行评估
    • 以上是对红移点估计的评估方法,但是目前 photo-z 给出的一般是 PDF
      • 一个指标是是真实红移落在 PDF 68% 区间内的比例
  • photo-z 的精度瓶颈是 深度相关的测光误差 以及 波长的覆盖 而非方法本身
    • fig3 中给出了多个 survey 的 photo-z 误差情况
      • 直观地来看的话,测光误差大约是 0.10 量级,对于足够亮度、红移较低的情况误差可以低于 0.10
    • 对于 deep survey 来说在红移低于 1.5 的范围内精度可以达到 0.025,进一步结合 medium band 之后可以降低到 0.01
      • 在 1.5 以上 Balmer break 位移到了近红外,所以需要高质量的 NIR 数据
    • 对于 DES 的 wide survey 在亮于 24 等的条件下可以达到 0.08 精度
      • 最大的挑战来自于在整个巡天过程中保持 photometric calibration 的准确性

Exotic sources #

  • AGN 的光谱包括星系和吸积盘两方面的贡献,很难进行 photo-z 的估计
    • 需要一个专用的模板库,根据 X-ray 观测结果选用不同的模板,而且模板库对于不同巡天也完全不一样
    • 解决的办法包括
      • 使用非宽带的数据,能够直接捕捉到某些强发射线特征
      • 引入强先验,比如根据光度确定其红移上限
      • 使用 ML 方法
  • 另一种 exotic source 是光变天体,比如 AGN 中的 Blazars、GRB 和 SNe
    • 大型巡天的多波段数据通常是在不同时间获取的,会导致颜色测量的误差

Future #

  • 这篇文章的时间是 2018
  • JWST 推进了高红移天体的测光和红移两方面的观测,在这种红移区间只能使用 template 方法
    • 需要更仔细地考虑 nebula 发射线的影响
    • an evanescent Balmer break feature?
  • DES 和未来的 LSST 和 Euclid 的目标是 WL、BAO 和 cluster,都依赖于精确的测光红移,而测光红移又依赖于 photometric calibration 的精确度
  • 未来的 spec-z 巡天将会使得 ML 逐渐适用于高红移
    • 所以 template 就是对训练集不足的情况的弥补,能够补足 ML 缺少的外推能力
  • hybrid 方法将是未来方法的方向

Thoughts #

  • 不太喜欢这里的图,但是标题都起得很有气势
  • 是否有可能通过 photo-z 之外的方法解决视线方向 projection 的问题?red sequence 其实也算是 photo-z 方法
  • 之前认为 photo-z 是非常困难的,但是其实在某个 break 穿过两个 filter 的过程中,相应的颜色会发生持续的变化,所以可以根据 c-z 关系得到一个相当不错精度的红移估计

Supplement #

  • SDSS 最开始使用 ugriz 波段,作为对 UBVRI 系统的代替
  • 大规模成像巡天项目中,在同一时间只能使用一个滤光片进行观测,滤光片之间通过 filter wheel 进行交换
    • 一般来说会使用某一个 filter 持续观测一片天区,然后换另一个观测同一片天区(对于 LSST 来说甚至可能间隔数年)