Newman2022PhotometricRedshiftsNextGeneration

May 4, 2026

有必要了解一下 photo-z 整个 field
上一篇 photo-z 的综述是 Salvato2019ManyFlavoursPhotometric，介绍了 template 以及 ML 的分类、适用性和当前现状
gemini https://aistudio.google.com/prompts/1_x8J9N7EKZDec1xgC8XSYY1Z9ltL-L5h

Brief #

当前的 photo-z 误差是超出 LSST 的统计误差的，所以有迫切的提升需求
photo-z 的目标包括为单个源确定足够准确的红移估计以及为一个 population 估计红移分布两个方面，分别称作 performance 和 characterization
- 后者对于宇宙学尤其是 weak lensing 意义很重要
template 的问题在于 template 和 prior 难以避免地存在偏差/错误，ML 的问题在于难以给出统计严谨的 PDF 以及需要进行不可靠的外推
spec-z 的作用包括 training 和 calibration 两类，前者需要足够的规模和完整的覆盖，后者需要正确性和选择效应已知
perfomance 的 topic 包括
- 大部分 photo-z 给出的 PDF 在统计学上是不严谨的，可以用 PIT 校验
- 大部分情况下取多个 photo-z 的 median 即可实现效果的提升
- 可以考虑在输入端加入 morphology 信息或者在输出端增加其他物理属性维度计算联合分布（使用类似 bagpipe 的工具）
- photo-z 在 0.05-0.15 的低红移表现很差
characterization 的问题包括
- 光谱样本的选择效应难以准确获取和校正，所以解决 incompleteness 是很困难的
  - 一个解决办法是 clustering-z，相关性不会被 incomplete 影响
- 光谱红移当前的错误率大约是 1%，会对 population 性质确定造成影响
- 对于小天区来说需要考虑 sample/cosmic variance 的影响
review 认为未来最佳的方法是 hierarchical Bayesian framework，根据数据灵活地调整 template 以及其他超参数

Intro #

photo-z 是 SED fitting 的前一步骤，另外很多后续的数据处理/target selection 都依赖于一个可用的红移
photo-z 的提升目标主要包括两个方面
- performance 指的是对单个星系的高精度红移估计
  - photo-z 的物理局限在于谱分辨率极低，如果类比 spec 数据的话大概在 10 左右
    - 无法看到关键谱线特征，并且存在多种简并性：两个红移处的不同类型的星系具有类似的 SED（fig1）
  - PDF 显然是最佳的 photo-z 的结果表达形式，但是 PDF 的意义也存在不同，比如 likelihood 和后验概率，不同类型 PDF 在叠加的时候依据的统计准则不同
  - 对于星系演化的研究更重要，比如红移分 slice 等
- characterization 指的是准确还原一个 population 的整体红移分布
  - 主要挑战在于 prior 不确定、template 或者 spec-z 样本不够完备等
  - 对于宇宙学尤其 weak lensing 非常重要，而在这类 application 中对于单个星系 photo-z 精度要求不高
    - LSST 的统计精度要求每个红移 slice 下的 bias 和 scatter 要分别控制在 1e-3 和 3e-3 的水平（均为相对误差）

Methods #

template/ML 的划分方式本质上是 Bayesian framework 下用到了不同的先验/模型，前者使用的是物理/经验的 SED，后者使用的是 spec-z catalog
template 方法
- 基本原理是后验概率等于 prior 和 likelihood 的乘积
  - prior 来自对 galaxy population 的已有认识
  - likelihood 是给定星系类型、红移（以及其他属性）下观测到多波段 flux 的概率
- 不同方法的区别在于
  - 使用 flux（LePhare/ZEBRA）或者 color（BPZ/EAZY），后者的一个问题是会忽略 negative flux
  - template 可以来源于实际的观测（经验 template）或者基于恒星演化理论（比如 BC03）
  - 是否使用比较详细和复杂的先验
  - 是否提供完整的 PDF
- 主要的挑战/问题在于
  - template 可能不够完备
  - prior is wrong: 对于不同类型星系丰度的先验可能不正确
    - 尤其是多种模板可以给出类似的 flux 分布的时候，分配到哪种模板/红移完全决定于 prior 更偏好于哪种类型的星系
  - 不能从数据中学习特征，不够 data driven（ZEBRA 的做法是根据星系数据对模板/prior 进行调整）
- 流行的方法包括 LePhare、BPZ、ZEBRA、EAZY，其中 EAZY 最新（2008）
ML 方法通过一个 training dataset 学习星系性质和红移之间的关系
- 区别包括
  - 使用哪些性质作为 feature 参与训练/预测，比如仅 color、增加 magnitude、甚至增加 pixel image
  - loss function 使用点估计的方差还是 PDF 的偏差
    - 很多 ML 给出的 PDF 的含义比较模糊
  - 使用何种方式将参数空间的近邻和红移的近邻联系起来，比如 SOM 或者 nearest neighbor 等
- 主要的问题是
  - 覆盖不全的条件下用 ML 进行外推的效果不是特别好（一般 spec-z data 都会比 photometric data 更亮），并且在观测特性空间上的「覆盖」也许并不对应着隐藏空间中的覆盖，比如对于某种特定类型的星系的光谱观测非常困难就会导致光谱数据缺失
  - ML 比较难以给出 PDF，尤其不适用于确定 population 整体分布的 characterization scenario
- 在 tomographic WL 中，PDF tail 的信息也非常重要，因为 critical density 对红移的依赖是非线性的
当前的 stage-III survey 一般会使用额外的校准步骤，对 template/ML 的结果用 spec-z/高质量 photo-z 进行 calibration 或者针对所需的 population 分布进行合适的 re-weight
- fig2 给出了当前 characterization 能够达到的最佳精度，距离 LSST Y1/Y10 的统计精度还有距离
未来最 promising 的方法是分层 Bayesian 方法：在原先星系红移（单层）的基础上加入第二层需要推断/微调的超参数（模板参数、prior 等）
- reference: Leistedt 2016, 2019
- 有一个 variant 更偏向 forward modelling
- 相当于把 data 中包含的信息加入到第二层中，包含了足够的灵活性以解决训练集不完备、先验不准确等问题

Spec-z #

无论使用什么方法，最终都需要一个高质量的、足够精确的 spec-z 样本
- 或者任何方法得到的已知红移的样本，比如高质量的 photo-z、无缝光谱
- template 对 spec-z 的依赖是隐式的：高质量的 template 最终仍然需要 spec-z 进行优化和 calibration
spec-z 的作用包括 training 和 calibration 两类
- 如果具有足够好（具有代表性并且足够大）的 spec-z，photo-z 的性能瓶颈将会转移到 photometric data 一端（photometric error）
- calibration 指的是用 spec-z 检验 characterization 的效果，最终目的是实现对单个星系 population 红移测量的无偏
  - 一般方法是对一个 spec-z sample 进行 re-weight 以构建 nz distribution
- 针对两个阶段实际上需要不同特点的 spec-z 样本
  - training 需要的是能够覆盖到暗星系，以避免某种形式的外推
  - 而 calibration 需要的是规模足够大、足够完备以给出 population 的整体性质
对于 training purpose 来说，光谱样本的大小以及覆盖程度是最关键的因素
- LSST 的模拟表明不使用图像信息的情况下训练集数量达到 20-30k 是足够的（前提是完全覆盖/足够的代表性），如果加入 pixel 信息可能要达到 100k 甚至 400k
  - 针对其他巡天数目应该会降低一些
calibration 得到的数目也在 20-30k 左右（针对 LSST），并且对光谱的要求更加严格
- 不能存在严重的选择效应，也就是针对某类特殊天体无法计算出 spec-z 或者无法进行 spec 观测的情况
- 不能存在过多的 catastrophic failure，会导致整体红移分布出错
- 光谱观测必须覆盖足够大的天区以避免 cosmic variance（fig3c）

Challenges #

Performance #

大部分的 photo-z 给出的 PDF 在统计学上是不严谨的，在 PIT (Probability Integral Transform) 检验下并不会给出 0, 1 之间的均匀分布
- fig4 证明 BPZ 和 FlexZBoost（二者分别代表了最好的 template 和 ML 方法）在 PIT 检验下都表现不佳，这里用于对比的 trainZ 是专用于生成完美 PIT 的测试算法，本身不能用于测量红移
- template 的问题在于 template/prior 本身是不准确的，而这种不准确性无法包括在 PDF 中
- ML 的问题在于 optimize loss function 的过程本身不包括 PDF 的定义，即使可以给出一个 PDF 也无法保证 PDF 是符合统计定义的
  - 这种 optimization 可能会为了追求完整样本上的表现而牺牲某些子样本的 PDF 准确性
- 可能的处理方式包括根据 PIT 的结果进行 remapping 或者用 ML 预测 PIT 偏差然后进行 local calibration
大部分情况下只是简单取多个方法的 median 就可以实现 photo-z 效果的提升
- 主要的原因是：不同方法假设了不同的 template/prior/assumptions 所以在底层是互补的，并且 catastrophic failure 一般发生在不同的星系上
- fig5 展示了在 bright end 表现很好的五个算法在 faint end 表现完全不一致的情况
- 结合多个 PDF 的方法包括层次 Bayes 或者 Fréchet mean，后者指的是在输入 PDF 中选择一个到所有给定 PDF 的总「距离」最小（相当于对 PDF 求中位数）
例如 BAGPIPES 或者 BEAGLE 的软件可以给出红移和其他属性的联合分布
- 原因是红移和其他物理属性之间存在简并性
- 强烈依赖于 SPS model 的准确性，但是 SPS 自身仍然存在 AGB、恒星光谱、dust extinction 等方面的问题
- 另外的问题是维度升高会导致计算成本上升，无法适用于 billion 量级数量的星系
  - 需要用更高效的方法取代 MCMC，比如 nested sampling 或者使用 emulator
- 除了计算成本上升之外，存储这些高维空间中的 PDF 也非常困难
  - 事实上当前存储一维红移 PDF 已经需要进行数据压缩
  - 可能的解决办法是仅存储一些 sample 结果、仅在用到时进行计算（或者 emulator）、将多维空间分布转化为多个条件概率乘积
引入额外的 morphology 可以提升 photo-z 效果
- motivation 包括
  - 椭圆（de Vaucouleurs profile）和盘状星系（exponent?）具有完全不同的形态学参数
  - 角直径大小和星系红移直接相关，比如一个角直径很大的星系更可能位于低红移
  - 表面亮度也和红移直接相关（Tolman test 给出的衰减规律是指数 -4 的幂律）
- 可以利用 CNN 这样的网络直接根据星系图像提取颜色、形态、结构等用于 photo-z
  - 对于近邻宇宙的 SDSS 星系这种方法表现优于仅使用 color 的传统算法（fig6 蓝色曲线对比红色 cross，后者来自 SDSS DR12 photo-z）
- 对于 ground-based 提升不明显，因为形态学信息基本不可用
  - 类似 Roman 的空间望远镜可以提供高红移星系的清晰图像，但是高红移的形态-颜色关系又和 local 有所不同
- 另外可以考虑某种统计量将 pixel 中的全部信息结合到几个总结的统计量中，以将形态学信息利用扩展到 CNN 之外的其他方法
- 将 morphology 融入到 template 中也是一个挑战
所有 photo-z 方法在低红移（0.05-0.1）的表现都很差
- 原因包括
  - 对于 ML 方法来说：低红移的体积很小，样本稀疏，无法被训练集充分覆盖
    - 在 24 mag cut-off 下 z<0.02 的星系密度只有 10 deg-2 左右（fig7b）
  - 标准的测光流程对于低红移的延展明亮天体可能不适用
  - ML 方法可能会因为低红移星系因为数量较少而牺牲算法在这部分星系上的表现
  - 红移的 z=0 的物理边界和误差对称分布的假设相矛盾，算法很难给出一个接近甚至低于 0 的红移估计
  - template 的问题主要是缺少 u-band 数据会导致最显著的 4000A break 特征无法捕捉
- 解决方法包括
  - DESI 和 SAGA 可以提供很多低红移星系的光谱
  - morphology 的加入可以解决这一问题
  - ML 中可以将 loss function 的自变量改为 log(z)，相当于人为增加了低红移的权重

Characterization #

光谱样本很难无偏/完美地代表实际的 target population，或者说 spectroscopy incompleteness 很难被纠正
- 一般的想法是 re-weight，也就是每个光谱的权重等同于「星系被光谱观测并且成功计算 spec-z 的概率」除以「该样本被纳入感兴趣的 target population 的概率」，但是前者（光谱观测的 selection effect）很难被确切地确定，因为无法通过光谱观测（没有红移）的星系无法进入统计样本中
  - 假设一个颜色可能对应两个红移，而其中一个红移的星系因为暗弱/无法被观测或者得到 spec-z，那么我们会认为这个颜色的星系仅在另一个红移存在
- 选择效应有时是 survey 自身的 preference，比如偏好蓝色的强发射线星系；有时是完全未知的选择效应
  - 前者的问题是只能通过外推来得知 photometric object 的红移，但是选择效应本身还是已知的
  - 后者可能源自关键 feature 不够强/位于观测的 wavelength 范围之外/被大气吸收、或者星系密度过高导致光谱 blending 严重等
    - fig10 展示了 spec-z 成功率随着星系颜色的变化
- 解决方法是包括更多的 band/filter，比如用 COSMOS field 的多波段数据
光谱红移中存在的错误也可能会影响 calibration
- 即使对于高质量的 spec-z 来说错误率也在 1/100 或者 1/1000 量级，可能的原因包括发射线/吸收线/噪声错误识别
  - 使用高质量 photo-z 的问题会更严重
- LSST 统计精度的要求是错误率达到 0.1% 左右
sample/cosmic variance 主要影响小天区的观测
- 可能来自于
  - 指定天区给定颜色星系密度更高
  - 指定天区的同一颜色的星系的红移偏离 global 关系
  - 指定天区有限样本产生的 shot noise
- 如果目标巡天和校准样本都具有多波段的测光，可以用 global 颜色密度来校准以上第一层效应
photometric object 的选择同样具有选择效应，但是可以通过 image injection 来校准
blending 对于 faint object 有很强的影响
clustering-z 是一种可以规避 incompleteness 的方法：计算未知红移的测光样本和已知红移的（很窄的红移区间内的）光谱样本之间的 cross correlation，可以重构出测光红移的 redshift distribution
- 但是也存在一些问题，比如 lens magnification、non-linear bias 以及 photometric galaxy 的 bias 偏差/演化

Vision for future #

应该用一个统一的层次 Bayesian 框架描述 galaxy population 的性质，而 population 性质本身受到测光和光谱数据的约束，最终可以用这个 model 给出人工训练集，然后应用 ML 方法
最终还是需要宽视场、多路的光谱仪以获得足够多的光谱

Thoughts #

Stage-IV 在提出更高要求的同时也会提供更好的测光精度，并且同时期也会出现质量更高、覆盖更广泛的 spec-z 数据
fig3 只是一个示意图，不代表实际的 sampling 对应的 photo-z 效果
用 PIT 检验 PDF validity 是非常好的思路
clustering-z 可以参考 Yang2026CalibratingOpticalGalaxy
对于 galaxy cluster 的意义是
- 使用 bagpipes 得到红移和性质联合分布的想法可以用于分离 red/all 两类 cluster finder
- 对于 pure color
  - 可以用 UMAP+HDBSCAN 来分析一下 photometric catalog 的颜色分布
    - 更进一步的方法是针对 UMAP 降维之后的二维网格中的每个颜色，在天空中寻找 over-density
  - 或者用五个 flux 计算 Mahalanobis Distance
    - 这里使用 flux 和 mag 有本质的区别