Black2022RedDragonRedshiftevolving

January 12, 2026

gemini https://aistudio.google.com/prompts/1W4Us_p1sHKMOVhtVIp8k16zAuZOST4_q
感兴趣的 topic 是 red sequence 的 intrinsic scatter 是否随着 magnitude 变化
简单来说是用 GMM 对 red sequence 进行建模，检验的 benchmark 是是否可以区分 quiescent/SF galaxy（因为 GMM 的自然结果是 blue cloud 和 red sequence 是由不同 component 表征的）
代码地址是 https://bitbucket.org/wkblack/red-dragon-gamma
- tutorial 里面有一个 section 是 “How to train your dragon”

Brief #

GMM 指的是用两个 component 描述星系的 blue cloud 和 red sequence 的区分，具体做法是红移切 bin 然后把不同 bin 里面的 population 对应到一起
- 每个 component 用一个颜色均值向量和一个协方差矩阵描述
- truth value 来自 sSFR
核心的任务是区分 red sequence/blue cloud 星系，所以没有考虑 photo-z 相关的事情
可以作为 red sequence model 的一个 reference
核心的想法是 4000A break 不是 blue/red 星系之间的唯一区别

Intro #

基本的观测事实是星系的颜色分布可以划分为 blue cloud 和 red sequence，中间的区域称为 green valley
- red galaxy 更倾向于出现在 cluster 这样的 dense environment 中
sSFR 的分布大致是向 low end 偏斜的 log normal 形式，并且低于一定 sSFR 的星系几乎呈现相同的颜色，总之用 GMM 描述 red sequence 是很合理的
literature review (2022) 中基于 red sequence 的 cluster finder 的脉络是 G00 -> maxBCG -> redMaPPer/ECGMM
- red dragon 相比之前的提升在于离散/二元到连续/概率的转变，以及利用了更丰富的颜色信息

Data & motivations #

选取了 SDSS 的 z=0.1 附近很窄的 slice 的样本，红移和 sSFR 都非常可靠，可以用于检验算法表现
- 另外还有一个 0.3~0.5 红移范围的样本，用于检验从 gr 到 ri 切换过程中算法的表现
Illustris TNG 的模拟数据的颜色和真实颜色存在很大差异，所以只能用于检验 robustness
Buzzard 提供了一个模拟的星系样本，是在 N-body simulation 中插入 SDSS 校准过的 template galaxy 生成的，红移覆盖 0.05~0.84
选用了和 R12 相同的 0.2 Lstar cutoff
4000A break 产生原因是 Balmer break 和金属吸收线（line blanketing）
- 最好的探测 4000A break 的方式是两个位于 break 两侧的 filter 构成的颜色
- tab2 给出了 SDSS/DES 的经验性的 break 位置随红移的变化
基于单一颜色信息的 cluster finder 的问题是需要人为设置颜色切换点，并且切换点两侧的 red galaxy fraction 等物理量会出现跳变
多颜色实际上是包括 4000A break 之外的其他信息的，可以建立更加精细的模型描述 red sequence
fig1 左右的 color 分别代表 sSFR 和 $(g-r)-(r-i)$，后者相比 x/y 轴所代表的单一颜色实际上更能区分 red/blue galaxy
- 但是 x/y 轴之间是有相关性的？
- 相比包含 4000A break 的 ur 颜色，ri 颜色中包含了额外的信息

Method #

算法的具体实现是
- 输入数据包括星系的红移（及误差）和多波段测光数据
- 在每一个红移 bin 内拟合一个 GMM 用于描述这个红移下的 red sequence
- 将不同红移 bin 内的同一个 component 联结在一起（尤其是代表 red sequence 的组分），之后对每一个参数进行插值形成一个连续函数
- 最后可以更新初始猜测对模型进行迭代的优化
将测光误差通过 ECGMM 方式纳入 model 中（和 redMaPPer 的方差叠加是一样的效果？）
- 虽然最终计算似然函数的时候还是针对每个星系进行的，但是 GMM 的参数优化也会受到误差的影响，所以说「纳入模型中」
- 颜色的观测误差之间的相关性来源于使用同一个 band 计算相邻 color
- 最后的似然函数是 Eq. 6/7
每一个高斯组分由权重、平均颜色以及描述误差的协方差矩阵定义
最终的效果是可以很轻易地计算出单个星系属于 blue cloud 以及 red sequence 的概率
相比总体的准确率（判断正确的星系占总星系的比例），使用 true positive rate 和 true negative rate 的平均值是更好的做法，相当于给 red/blue 两个群体的正确判断赋予了相同的权重
- 检验算法用的 truth value 来自 sSFR 的硬性切分（Eq. 9）
- fig3 展示了使用不同颜色组合的准确率，使用三个颜色就可以达到最佳效果，选用四种 principal color 和经过特殊选择的三种颜色表现相同
模型的基准是 2 个 Gaussian component 用于描述 BC 和 RS，在此基础上提升 kernel 数量可以模拟 green valley 或者包含 red sequence 中的非高斯特征（比如 mass/environment quench 的区分）
this work 忽略了颜色-星等关系，因为会增加模型的复杂度
- App. D: 这种依赖关系是足够显著的，但是对于 BC/RS 的区分影响不大

Results #

SDSS/TNG 数据是包括 sSFR truth value 的，所以可以用于检验算法
- 对于无监督学习使用相同样本作为训练和测试是可行的
- fig4 比较了不同方法在两个数据集上的表现，red dragon 的表现和根据 truth value 优化的 hard cut 的最优方法持平
- TNG 数据上所有算法的表现都更好，因为模拟相比真实观测缺乏复杂性
- 引入额外的 Gaussian component 会轻微降低准确率
fig5 对比了红移演化切换颜色方面的表现，red dragon 相比切换颜色的单色方法表现更优（其实是在切换点附近能同时利用两边的不充足信息）
fig6-8 给出了算法在 Buzzard 上的应用结果
- fig6 红/蓝星系比例随红移增加而降低，说明邻近宇宙中的 quench 是持续进行的
- fig7 两个 population 的颜色随红移变化关系，还对比了 redMaPPer 以及 Hao 2009 的结果
  - caption 里面说 DES Y3 应该是 typo 吧？
- fig8 scatter 和 correlation 随红移的变化
  - 可预期的结果是 red scatter 低于 blue
  - 红移高于 0.4 时测光误差超过了 intrinsic scatter
  - 相关系数变化范围很大，前两个颜色的相关性在所有 color pair 中是最显著的
fig9-11 提升 component 数量带来的改变
- fig10 是最直观的展现，基本就是将 population 进一步细分（这里的 scatter 有点 over-plot 的问题）
- fig9 追踪了多个 component 中最红的组分的变化：均值和 scatter 的变化不明显，但是 weight 会降低
- fig11 三个组分情况下，green component 的性质在低红移趋向于 red sequence，而在高红移趋向于 blue cloud
- 总之引入超过两个成分之后对每个成分的解释会变得模糊

Appendix #

figA1 对比了 SDSS 和 TNG 的颜色分布：TNG 的 bimodal 分布是清晰很多的，而在 ri, iz 等颜色上 SDSS 的 bimodality 基本消失，所以对 TNG 的分类是更简单的
- 而且 u-g 上的颜色存在很大的相对偏差
figB1 做了一个简单的 cartoon 展示 D4000 之外的信息对于区分 red/blue 的重要性
AppC 不同数量的 Gaussian component 的 BIC，发现从 2 到 3 有大约 2sigma 的提升，在此基础上继续提升的收益不再显著
AppD red sequence slope 确实显著地存在
- 定义了一个量化指标 $\varsigma$，计算为颜色随星等变化的斜率和 red sequence 自身 intrinsic scatter 的比值（不是无量纲的吧？），发现大部分情况下小于 1.3

Thoughts #

「利用多颜色之间的关联」其实是超出单纯的「利用多颜色信息」的范畴的
this work 没有利用无光谱的星系的数据吗？
- 这里的主要任务不是 cluster finder（甚至也不是准确地描述给定红移处的 red sequence 性质）而是用一个 model 描述 BC/RS 两个组分然后对星系进行分类
- 所以对于一个二元分类任务完全没有必要引入超过 2 个 component
所以这里的 GMM 的多个组分用于描述 red sequence 和 blue cloud 而不是 red sequence 的可变的 variance
- 比如 imag 和 g-r 之间的线性关系可以用单个 Gaussian component 的多个维度之间的相关系数描述，但是这个系数是不会变化的
红移分 bin 其实会带来一些问题？比如 binsize 也是手动指定的
用 GMM 区分 red/blue 星系确实比某种 sigma clipping 更科学
一件可以做的事情是用这个算法根据 spec-z 数据拟合一个 red sequence 模型出来，然后和 redMaPPer model 对比，因为这里的 red dragon 也是开源的
- HectoMAP 的数据是对红色星系有偏好，所以应该用 DESI
bimodality 仅在比较红的颜色上显著存在，这个现象在 HSC 上也比较明显