DeVicente2016DNFGalaxyPhotometric

May 11, 2026

Brief #

相比 Euclidean distance 有两个改进
- 使用介于 Euclidean 和 cosine distance 之间的 directional neighborhood，定义为 Euclidean 距离乘以 $\sin \alpha$
- 不用 kNN 的加权平均，而是 local fitting 一个 hyper-surface 出来
  - local fitting 得到的 residual 可以帮助 error 的计算，甚至可以得到非高斯/bimodal PDF
在 SDSS spec-z 上进行了测试（1m），加入 DNF 的 directional neighborhood 方法是最优的（相比 Euclidean/Angular distance）

在 ML 中 kNN 方法的优势在于简单和 robust
- 在传统的 Euclidean distance 之外还有改进空间：这里的做法是 angular/directional neighborhood

可观测量是多个 band 的 magnitude/flux，红移可以看作一个额外的独立维度（高度），也就是在 n 维空间的基础上构成一个 hyper-surface
- hyper-surface 在不同方向上的变化不同，而 Euclidean 无法捕捉到这样的不同
fig1 展示了三种距离定义下各个点到 (20, 20) 的距离
- angular neighborhood 指的就是 cosine distance：两个类型相同、亮度不同的星系应该具有非常小的 cosine distance
- directional neighborhood 是两种距离的 hybrid，定义为 Euclidean 和夹角 sine 乘积的平方

数据来自 SDSS DR10
- SQL 查询的条件是红移 0.1-0.7、具有五个波段的数据以及精确 spec-z、共计 1e6 星系
- 将 1e6 星系分为 5k 训练集以及其余测试集
  - fig2 说明划分之后两个样本的性质是类似的
判断算法性能的 metric 包括 bias、scatter/scatter_68、2/3 sigma outlier fraction、N_poisson、KS test
- KS test 大致可以实现 PDF 之间的比较

kNN 距离定义为几个最近邻居的加权平均，权重和距离成反比
fig3 中的黄色线对应了三种 kNN 方法的性能和邻居数目的对应关系
- k 太小会导致噪声过大，太大会导致局部信息过于模糊
- euclidean 在 k=15-20 之间达到最小 scatter，之后缓慢增大
- angular 方法的问题是 bias 随着 k 逐渐增大，原因是将颜色类似但是亮度差异很大的不同红移星系判定为 neighbor
- directional kNN 表现最佳，scatter 随着 k 增加没有明显上升

DNF 是相对于简单加权平均的改进：针对 k neighbors 组成的数据集，拟合一个 local magnitude-redshift 关系出来
- kNN 方法相当于 0 阶近似，认为 local 环境中的红移近似为一个常数
- 各个 neighbor 相对于 plane 的 residual 可以用作 error estimation
fig3 中的深色曲线描述了加入 DNF 之后的效果，bias 和 scatter 都有明显的改善
- 加入 DNF 之后三种方法内部的横向比较仍然是 d-kNN 最佳
fig4/5/6 中加入了其他 metric 以及其他方法（ANNz）的比较
- fig6 给出了真值和预测值的 2D 分布
- 总体来说 DNF 和 ANNz 效果近似
DNF 的 PDF 来自 residual 的统计
- fig7 展示了一些 example，表明 DNF 可以捕捉到非高斯甚至 bimodal 情况下的 PDF
- fig8/9 对比了 PDF 或者说 nz 的性质

之前的想法是 color space 中用 cosine distance，但是其实应该在 flux/mag space 使用，这个空间中不同亮度的同类天体之间确实是倍数的关系
直接乘一个 $\sin \alpha$ 的方法可能带有经验性质，比如换成 $1-\cos \alpha$（正是 cosine distance 的定义）会有什么改变？
拟合应该有 intercept 自由度吧？
训练集和测试集都来自 spec-z 可能会有问题（？）
- 没有使用类似 PIT 的方法检验 PDF

cosine distance 一般定义为 $1-\cos \alpha$，也就是范围在 $[0,2]$ 之间
- https://aistudio.google.com/prompts/1XYU82-_R5KUxV2vRszhZ9kqjQfcy-zDv
ANN 相比 CNN/RNN 是更加 general 的概念，大致可以等价于 Neural Network
- FCNN/MLP 这样的比较原始/基础的结构有时候也和 ANN 联系起来