DeVicente2016DNFGalaxyPhotometric
Brief
#
- 相比 Euclidean distance 有两个改进
- 使用介于 Euclidean 和 cosine distance 之间的 directional neighborhood,定义为 Euclidean 距离乘以 $\sin \alpha$
- 不用 kNN 的加权平均,而是 local fitting 一个 hyper-surface 出来
- local fitting 得到的 residual 可以帮助 error 的计算,甚至可以得到非高斯/bimodal PDF
- 在 SDSS spec-z 上进行了测试(1m),加入 DNF 的 directional neighborhood 方法是最优的(相比 Euclidean/Angular distance)
Intro
#
- 在 ML 中 kNN 方法的优势在于简单和 robust
- 在传统的 Euclidean distance 之外还有改进空间:这里的做法是 angular/directional neighborhood
Distance
#
- 可观测量是多个 band 的 magnitude/flux,红移可以看作一个额外的独立维度(高度),也就是在 n 维空间的基础上构成一个 hyper-surface
- hyper-surface 在不同方向上的变化不同,而 Euclidean 无法捕捉到这样的不同
- fig1 展示了三种距离定义下各个点到 (20, 20) 的距离
- angular neighborhood 指的就是 cosine distance:两个类型相同、亮度不同的星系应该具有非常小的 cosine distance
- directional neighborhood 是两种距离的 hybrid,定义为 Euclidean 和夹角 sine 乘积的平方
Data and method
#
- 数据来自 SDSS DR10
- SQL 查询的条件是红移 0.1-0.7、具有五个波段的数据以及精确 spec-z、共计 1e6 星系
- 将 1e6 星系分为 5k 训练集以及其余测试集
- 判断算法性能的 metric 包括 bias、scatter/scatter_68、2/3 sigma outlier fraction、N_poisson、KS test
NN comparison
#
- kNN 距离定义为几个最近邻居的加权平均,权重和距离成反比
- fig3 中的黄色线对应了三种 kNN 方法的性能和邻居数目的对应关系
- k 太小会导致噪声过大,太大会导致局部信息过于模糊
- euclidean 在 k=15-20 之间达到最小 scatter,之后缓慢增大
- angular 方法的问题是 bias 随着 k 逐渐增大,原因是将颜色类似但是亮度差异很大的不同红移星系判定为 neighbor
- directional kNN 表现最佳,scatter 随着 k 增加没有明显上升
Directional neighborhood fitting
#
- DNF 是相对于简单加权平均的改进:针对 k neighbors 组成的数据集,拟合一个 local magnitude-redshift 关系出来
- kNN 方法相当于 0 阶近似,认为 local 环境中的红移近似为一个常数
- 各个 neighbor 相对于 plane 的 residual 可以用作 error estimation
- fig3 中的深色曲线描述了加入 DNF 之后的效果,bias 和 scatter 都有明显的改善
- 加入 DNF 之后三种方法内部的横向比较仍然是 d-kNN 最佳
- fig4/5/6 中加入了其他 metric 以及其他方法(ANNz)的比较
- fig6 给出了真值和预测值的 2D 分布
- 总体来说 DNF 和 ANNz 效果近似
- DNF 的 PDF 来自 residual 的统计
- fig7 展示了一些 example,表明 DNF 可以捕捉到非高斯甚至 bimodal 情况下的 PDF
- fig8/9 对比了 PDF 或者说 nz 的性质
Thoughts
#
- 之前的想法是 color space 中用 cosine distance,但是其实应该在 flux/mag space 使用,这个空间中不同亮度的同类天体之间确实是倍数的关系
- 直接乘一个 $\sin \alpha$ 的方法可能带有经验性质,比如换成 $1-\cos \alpha$(正是 cosine distance 的定义)会有什么改变?
- 拟合应该有 intercept 自由度吧?
- 训练集和测试集都来自 spec-z 可能会有问题(?)
Supplement
#
- cosine distance 一般定义为 $1-\cos \alpha$,也就是范围在 $[0,2]$ 之间
- ANN 相比 CNN/RNN 是更加 general 的概念,大致可以等价于 Neural Network
- FCNN/MLP 这样的比较原始/基础的结构有时候也和 ANN 联系起来