Hao2025FindingBoundaryUsing

November 18, 2025

1112 arxiv paper
主题是 cluster 和 field galaxy 之间的过渡区域，或者说 cluster 的模糊边界
方法是用 ML 识别 TNG300 中的星系是 cluster galaxy 还是 field galaxy
gemini https://aistudio.google.com/prompts/1pAzTIokSycSoIIW5tZEkMDIBBH9Bsluk

Brief #

用 ML 建立星系属性和是否属于 cluster member 之间的联系，可以提供一个 cluster 的环境作用范围的大致量化
- ML 的训练集是通过对距离 cluster 很近和很远的星系分别打上 0/1 tag 得到的
主要结论是过渡半径和 halo mass 存在指数大约 -0.1 的幂律关系，和 rs 类似，说明两种 radius 有某种关联（比如都和气体 density 及其分布有关）
- 但是这个结论主要依赖于 TNG 中对星系受外部环境影响的建模
另外一个结论是 cluster 对星系的影响首先体现在气体性质上，之后依次是恒星和星系动力学
最值得思考的是以 cluster 对星系的环境作用的影响范围得到的 radius 定义

Intro #

确定 cluster 的影响延伸至何种范围对于理解 cluster 环境对于星系的影响是重要的
cluster 中的星系更倾向于具有红色、年老、quenched、椭圆（early-type）的特性
- 一般认为 cluster 会对星系施加 environmental quenching，包括 ram-pressure stripping、tidal disruption、strangulation、harassment（？）
  - 另一种 quenching 是 mass quenching，由 SNe、AGN 等星系内部机制导致（两种 quenching 机制是 Peng 2012 的结论）
目前对 cluster 范围的定义主要包括 splash-back radius、cosmic accretion shock，后者一般更大一些
- Diemer & Kravtsov 2014 描述了 splash-back radius 的概念
this work 试图用 data driven 方法（而非基于物理）给出 cluster 边界的定义，也就是在什么范围内星系会受到 cluster 环境的影响

Method #

TNG300-1 的气体和 DM 分辨率分别是 1e7 和 6e7 左右，粒子总数是 2500e3，并且这个模拟包括了很多星系物理过程
- 使用 z=0 的 snapshot
用 FoF 和 SUBFIND 寻找 halo 和星系，标准分别是 M200 > 13 和 stellar mass > 9.5
将每一个星系关联到最近的一个大质量 halo（也就是 cluster）上，星系到 cluster 的距离用 cluster 的 R200 进行 normalization
给距离 cluster 足够近的和足够远的设置 cluster member 和 field galaxy 的 tag，供训练集使用
- 两个距离 threshold 在 fiducial setting 中设置为 0.5 和 5.0 倍的 splash-back radius
- 还有一种变式是考虑历史信息，曾经是 cluster 成员的星系也被打上 member tag
使用 6 个星系属性：恒星质量占总质量的比例、气体质量占重子质量的比例、sSFR、g-r color、气体金属丰度、恒星金属丰度
- 一个变式是使用 15 种属性，额外属性包括自旋、速度弥散等
- 作为预处理，将一些数据进行变换以得到更优质的分布，最后归一化到 -1, 1 区间
神经网络使用一个 MLP，包括一个输入层、3 个隐藏层（48、24、12）和一个输出层
- dropout 可以增强模型的泛化能力
- 来自同一个 cluster 的星系整体划分到训练/验证/测试的其中一个，防止过拟合到一个具体的 cluster 上
最后训练结果表现为一条 logit vs. normalized radius 的曲线，logit 穿过 0 的位置就定义为过渡半径

Results #

通过改变训练集的外侧 threshold 进行 convergence test (fig4)：从 1.0 增加到 5.0 的过程中，过渡半径的位置变化不大
- 花了好久才搞懂 0.5/x 的意思是固定内阈值是 0.5，外层是这里的 x-axis
fig3 展示了 logit 曲线，变化比较平缓，其中有一些 logit 靠近 0 的实际上对应首次下落、splash-back 的星系，也就是模型的 intrinsic scatter 有物理实际上的来源
一个重要的结论是（normalize 过后的）transition region 随着 halo mass 而增加（fig5）
- 比如高质量 cluster 可能影响到 R200 之外的区域（1.0-1.1），而低质量 cluster 的影响范围大约在 0.8 R200 范围内
- 这个趋势和 splash-back radius 的趋势相反（fig5 中的两个 reference 曲线），所以两种 radius 本质上是不一样的
  - 高质量 cluster 的 splash-back 和 R200 的比值更小一些
- 尝试的解释是借助 mass-concentration relationship 作出的：这里归一化的 r0 和 M200 的幂律关系大约是 0.1，所以可以大致认为 r0 和 rs 是完全成比例的（二者比值不依赖于质量），也就是 cluster 内气体分布过渡的尺度和这里的过渡半径是强相关的
  - 可能因为 TNG 中 cluster 对星系属性的影响（以 ram pressure 的形式）主要取决于气体密度，而气体密度的分布尺度用 rs 描述
fig6 里面应该在 y-axis 用对数 scale
另一个变式是分别仅使用动力学属性、气体属性和恒星属性进行模型的推断
- 星系的动力学属性被影响的范围最小，而气体属性被影响的范围最大，恒星属性居中
- 解释为对气体性质的改变对应的物理过程是发生最快的，而动力学属性是最后被改变的

Limitation & Future #

最开始打 tag 的过程最好可以省略，也就是让 model 进行无监督的训练
可以用于 TNG 之外的其他 simulation 中验证结论
可以纳入除 mass 之外的其他 cluster 属性研究其对过渡半径的影响

Thoughts #

对于两侧训练集的预测肯定是真实的，模型的 performance 关键在于对中间区域的预测结果，而这一结果量化为一个 transition region 的半径
这里的归一化为什么用 R200 来进行？因为 R200 是不具有物理意义的一种半径吗？
但是这里的结论不是依赖于 TNG 里面的重子物理过程的设置吗？如果 TNG 里面调高 ram pressure 之外的其他 quenching 机制重要性，结论又会不一样
这里 ML 的各种设置都很合理，结果很有说服力

Supplement #

MLP (Multilayer Perceptron) #

MLP 是一种比较基础的 feedforward NN，包括多个 hidden layers
特征是全连接，也就是上一层和下一层之间的所有 neuron 之间全部是相连的
需要应用一个非线性的激活函数
CNN 在 MLP 的基础上加入了卷积层和 pooling layer，适用于参数量比较大、尤其是相邻数据点之间有关联的情况（图像处理）
- MLP 可以在 CNN 中作为分类器
RNN 的特征是引入 recurrent 连接，也就是隐藏层额外接收自身的上一步输出，适合处理时间序列或者自然语言等序列化数据
- 在此基础上 transformer 用 self attention 替代了循环结构，也就是序列之间的关联不会随着序列之间距离的增加而衰减

Mass-concentration relationship #

concentration 定义为 virial radius 和 NFW 的特征半径的比值 $c=R_\mathrm{vir} /r_s$
- 前者表示 halo 的边界，后者表示发生从 -1 到 -3 的 profile 转变的尺度，可以理解为 halo core 大小
一般认为 concentration 和 halo mass 有一个幂律关系，指数 $\alpha$ 在 -0.1 左右
- 这里反比关系的原因是低质量 halo 形成时候的宇宙背景密度更高，所以中心密度也更高