DeVicente2016DNFGalaxyPhotometric

Brief #

  • 相比 Euclidean distance 有两个改进
    • 使用介于 Euclidean 和 cosine distance 之间的 directional neighborhood,定义为 Euclidean 距离乘以 $\sin \alpha$
    • 不用 kNN 的加权平均,而是 local fitting 一个 hyper-surface 出来
      • local fitting 得到的 residual 可以帮助 error 的计算,甚至可以得到非高斯/bimodal PDF
  • 在 SDSS spec-z 上进行了测试(1m),加入 DNF 的 directional neighborhood 方法是最优的(相比 Euclidean/Angular distance)

Intro #

  • 在 ML 中 kNN 方法的优势在于简单和 robust
    • 在传统的 Euclidean distance 之外还有改进空间:这里的做法是 angular/directional neighborhood

Distance #

  • 可观测量是多个 band 的 magnitude/flux,红移可以看作一个额外的独立维度(高度),也就是在 n 维空间的基础上构成一个 hyper-surface
    • hyper-surface 在不同方向上的变化不同,而 Euclidean 无法捕捉到这样的不同
  • fig1 展示了三种距离定义下各个点到 (20, 20) 的距离
    • angular neighborhood 指的就是 cosine distance:两个类型相同、亮度不同的星系应该具有非常小的 cosine distance
    • directional neighborhood 是两种距离的 hybrid,定义为 Euclidean 和夹角 sine 乘积的平方

Data and method #

  • 数据来自 SDSS DR10
    • SQL 查询的条件是红移 0.1-0.7、具有五个波段的数据以及精确 spec-z、共计 1e6 星系
    • 将 1e6 星系分为 5k 训练集以及其余测试集
      • fig2 说明划分之后两个样本的性质是类似的
  • 判断算法性能的 metric 包括 bias、scatter/scatter_68、2/3 sigma outlier fraction、N_poisson、KS test
    • KS test 大致可以实现 PDF 之间的比较

NN comparison #

  • kNN 距离定义为几个最近邻居的加权平均,权重和距离成反比
  • fig3 中的黄色线对应了三种 kNN 方法的性能和邻居数目的对应关系
    • k 太小会导致噪声过大,太大会导致局部信息过于模糊
    • euclidean 在 k=15-20 之间达到最小 scatter,之后缓慢增大
    • angular 方法的问题是 bias 随着 k 逐渐增大,原因是将颜色类似但是亮度差异很大的不同红移星系判定为 neighbor
    • directional kNN 表现最佳,scatter 随着 k 增加没有明显上升

Directional neighborhood fitting #

  • DNF 是相对于简单加权平均的改进:针对 k neighbors 组成的数据集,拟合一个 local magnitude-redshift 关系出来
    • kNN 方法相当于 0 阶近似,认为 local 环境中的红移近似为一个常数
    • 各个 neighbor 相对于 plane 的 residual 可以用作 error estimation
  • fig3 中的深色曲线描述了加入 DNF 之后的效果,bias 和 scatter 都有明显的改善
    • 加入 DNF 之后三种方法内部的横向比较仍然是 d-kNN 最佳
  • fig4/5/6 中加入了其他 metric 以及其他方法(ANNz)的比较
    • fig6 给出了真值和预测值的 2D 分布
    • 总体来说 DNF 和 ANNz 效果近似
  • DNF 的 PDF 来自 residual 的统计
    • fig7 展示了一些 example,表明 DNF 可以捕捉到非高斯甚至 bimodal 情况下的 PDF
    • fig8/9 对比了 PDF 或者说 nz 的性质

Thoughts #

  • 之前的想法是 color space 中用 cosine distance,但是其实应该在 flux/mag space 使用,这个空间中不同亮度的同类天体之间确实是倍数的关系
  • 直接乘一个 $\sin \alpha$ 的方法可能带有经验性质,比如换成 $1-\cos \alpha$(正是 cosine distance 的定义)会有什么改变?
  • 拟合应该有 intercept 自由度吧?
  • 训练集和测试集都来自 spec-z 可能会有问题(?)
    • 没有使用类似 PIT 的方法检验 PDF

Supplement #

  • cosine distance 一般定义为 $1-\cos \alpha$,也就是范围在 $[0,2]$ 之间
  • ANN 相比 CNN/RNN 是更加 general 的概念,大致可以等价于 Neural Network
    • FCNN/MLP 这样的比较原始/基础的结构有时候也和 ANN 联系起来