Black2022RedDragonRedshiftevolving

  • gemini https://aistudio.google.com/prompts/1W4Us_p1sHKMOVhtVIp8k16zAuZOST4_q
  • 感兴趣的 topic 是 red sequence 的 intrinsic scatter 是否随着 magnitude 变化
  • 简单来说是用 GMM 对 red sequence 进行建模,检验的 benchmark 是是否可以区分 quiescent/SF galaxy(因为 GMM 的自然结果是 blue cloud 和 red sequence 是由不同 component 表征的)
  • 代码地址是 https://bitbucket.org/wkblack/red-dragon-gamma
    • tutorial 里面有一个 section 是 “How to train your dragon”

Brief #

  • GMM 指的是用两个 component 描述星系的 blue cloud 和 red sequence 的区分,具体做法是红移切 bin 然后把不同 bin 里面的 population 对应到一起
    • 每个 component 用一个颜色均值向量和一个协方差矩阵描述
    • truth value 来自 sSFR
  • 核心的任务是区分 red sequence/blue cloud 星系,所以没有考虑 photo-z 相关的事情
  • 可以作为 red sequence model 的一个 reference
  • 核心的想法是 4000A break 不是 blue/red 星系之间的唯一区别

Intro #

  • 基本的观测事实是星系的颜色分布可以划分为 blue cloud 和 red sequence,中间的区域称为 green valley
    • red galaxy 更倾向于出现在 cluster 这样的 dense environment 中
  • sSFR 的分布大致是向 low end 偏斜的 log normal 形式,并且低于一定 sSFR 的星系几乎呈现相同的颜色,总之用 GMM 描述 red sequence 是很合理的
  • literature review (2022) 中基于 red sequence 的 cluster finder 的脉络是 G00 -> maxBCG -> redMaPPer/ECGMM
    • red dragon 相比之前的提升在于离散/二元到连续/概率的转变,以及利用了更丰富的颜色信息

Data & motivations #

  • 选取了 SDSS 的 z=0.1 附近很窄的 slice 的样本,红移和 sSFR 都非常可靠,可以用于检验算法表现
    • 另外还有一个 0.3~0.5 红移范围的样本,用于检验从 gr 到 ri 切换过程中算法的表现
  • Illustris TNG 的模拟数据的颜色和真实颜色存在很大差异,所以只能用于检验 robustness
  • Buzzard 提供了一个模拟的星系样本,是在 N-body simulation 中插入 SDSS 校准过的 template galaxy 生成的,红移覆盖 0.05~0.84
  • 选用了和 R12 相同的 0.2 Lstar cutoff
  • 4000A break 产生原因是 Balmer break 和金属吸收线(line blanketing)
    • 最好的探测 4000A break 的方式是两个位于 break 两侧的 filter 构成的颜色
    • tab2 给出了 SDSS/DES 的经验性的 break 位置随红移的变化
  • 基于单一颜色信息的 cluster finder 的问题是需要人为设置颜色切换点,并且切换点两侧的 red galaxy fraction 等物理量会出现跳变
  • 多颜色实际上是包括 4000A break 之外的其他信息的,可以建立更加精细的模型描述 red sequence
  • fig1 左右的 color 分别代表 sSFR 和 $(g-r)-(r-i)$,后者相比 x/y 轴所代表的单一颜色实际上更能区分 red/blue galaxy
    • 但是 x/y 轴之间是有相关性的?
    • 相比包含 4000A break 的 ur 颜色,ri 颜色中包含了额外的信息

Method #

  • 算法的具体实现是
    • 输入数据包括星系的红移(及误差)和多波段测光数据
    • 在每一个红移 bin 内拟合一个 GMM 用于描述这个红移下的 red sequence
    • 将不同红移 bin 内的同一个 component 联结在一起(尤其是代表 red sequence 的组分),之后对每一个参数进行插值形成一个连续函数
    • 最后可以更新初始猜测对模型进行迭代的优化
  • 将测光误差通过 ECGMM 方式纳入 model 中(和 redMaPPer 的方差叠加是一样的效果?)
    • 虽然最终计算似然函数的时候还是针对每个星系进行的,但是 GMM 的参数优化也会受到误差的影响,所以说「纳入模型中」
    • 颜色的观测误差之间的相关性来源于使用同一个 band 计算相邻 color
    • 最后的似然函数是 Eq. 6/7
  • 每一个高斯组分由权重、平均颜色以及描述误差的协方差矩阵定义
  • 最终的效果是可以很轻易地计算出单个星系属于 blue cloud 以及 red sequence 的概率
  • 相比总体的准确率(判断正确的星系占总星系的比例),使用 true positive rate 和 true negative rate 的平均值是更好的做法,相当于给 red/blue 两个群体的正确判断赋予了相同的权重
    • 检验算法用的 truth value 来自 sSFR 的硬性切分(Eq. 9)
    • fig3 展示了使用不同颜色组合的准确率,使用三个颜色就可以达到最佳效果,选用四种 principal color 和经过特殊选择的三种颜色表现相同
  • 模型的基准是 2 个 Gaussian component 用于描述 BC 和 RS,在此基础上提升 kernel 数量可以模拟 green valley 或者包含 red sequence 中的非高斯特征(比如 mass/environment quench 的区分)
  • this work 忽略了颜色-星等关系,因为会增加模型的复杂度
    • App. D: 这种依赖关系是足够显著的,但是对于 BC/RS 的区分影响不大

Results #

  • SDSS/TNG 数据是包括 sSFR truth value 的,所以可以用于检验算法
    • 对于无监督学习使用相同样本作为训练和测试是可行的
    • fig4 比较了不同方法在两个数据集上的表现,red dragon 的表现和根据 truth value 优化的 hard cut 的最优方法持平
    • TNG 数据上所有算法的表现都更好,因为模拟相比真实观测缺乏复杂性
    • 引入额外的 Gaussian component 会轻微降低准确率
  • fig5 对比了红移演化切换颜色方面的表现,red dragon 相比切换颜色的单色方法表现更优(其实是在切换点附近能同时利用两边的不充足信息)
  • fig6-8 给出了算法在 Buzzard 上的应用结果
    • fig6 红/蓝星系比例随红移增加而降低,说明邻近宇宙中的 quench 是持续进行的
    • fig7 两个 population 的颜色随红移变化关系,还对比了 redMaPPer 以及 Hao 2009 的结果
      • caption 里面说 DES Y3 应该是 typo 吧?
    • fig8 scatter 和 correlation 随红移的变化
      • 可预期的结果是 red scatter 低于 blue
      • 红移高于 0.4 时测光误差超过了 intrinsic scatter
      • 相关系数变化范围很大,前两个颜色的相关性在所有 color pair 中是最显著的
  • fig9-11 提升 component 数量带来的改变
    • fig10 是最直观的展现,基本就是将 population 进一步细分(这里的 scatter 有点 over-plot 的问题)
    • fig9 追踪了多个 component 中最红的组分的变化:均值和 scatter 的变化不明显,但是 weight 会降低
    • fig11 三个组分情况下,green component 的性质在低红移趋向于 red sequence,而在高红移趋向于 blue cloud
    • 总之引入超过两个成分之后对每个成分的解释会变得模糊

Appendix #

  • figA1 对比了 SDSS 和 TNG 的颜色分布:TNG 的 bimodal 分布是清晰很多的,而在 ri, iz 等颜色上 SDSS 的 bimodality 基本消失,所以对 TNG 的分类是更简单的
    • 而且 u-g 上的颜色存在很大的相对偏差
  • figB1 做了一个简单的 cartoon 展示 D4000 之外的信息对于区分 red/blue 的重要性
  • AppC 不同数量的 Gaussian component 的 BIC,发现从 2 到 3 有大约 2sigma 的提升,在此基础上继续提升的收益不再显著
  • AppD red sequence slope 确实显著地存在
    • 定义了一个量化指标 $\varsigma$,计算为颜色随星等变化的斜率和 red sequence 自身 intrinsic scatter 的比值(不是无量纲的吧?),发现大部分情况下小于 1.3

Thoughts #

  • 「利用多颜色之间的关联」其实是超出单纯的「利用多颜色信息」的范畴的
  • this work 没有利用无光谱的星系的数据吗?
    • 这里的主要任务不是 cluster finder(甚至也不是准确地描述给定红移处的 red sequence 性质)而是用一个 model 描述 BC/RS 两个组分然后对星系进行分类
    • 所以对于一个二元分类任务完全没有必要引入超过 2 个 component
  • 所以这里的 GMM 的多个组分用于描述 red sequence 和 blue cloud 而不是 red sequence 的可变的 variance
    • 比如 imag 和 g-r 之间的线性关系可以用单个 Gaussian component 的多个维度之间的相关系数描述,但是这个系数是不会变化的
  • 红移分 bin 其实会带来一些问题?比如 binsize 也是手动指定的
  • 用 GMM 区分 red/blue 星系确实比某种 sigma clipping 更科学
  • 一件可以做的事情是用这个算法根据 spec-z 数据拟合一个 red sequence 模型出来,然后和 redMaPPer model 对比,因为这里的 red dragon 也是开源的
    • HectoMAP 的数据是对红色星系有偏好,所以应该用 DESI
  • bimodality 仅在比较红的颜色上显著存在,这个现象在 HSC 上也比较明显