随机森林算法实现小行星分类∗

2016-07-03 15:41马月华赵海斌卢晓平
天文学报 2016年5期
关键词:小行星反射率波段

黄 超 马月华 赵海斌 卢晓平

(1中国科学院紫金山天文台 南京 210008) (2中国科学院行星科学重点实验室 南京 210008) (3中国科学院大学 北京 100049) (4澳门科技大学月球与行星科学实验室—中国科学院月球与深空探测重点实验室伙伴实验室 澳门 000853) (5澳门科技大学资讯科技学院 澳门 000853)

随机森林算法实现小行星分类∗

黄 超1,2,3马月华1,2†赵海斌1,2,4卢晓平5

(1中国科学院紫金山天文台 南京 210008) (2中国科学院行星科学重点实验室 南京 210008) (3中国科学院大学 北京 100049) (4澳门科技大学月球与行星科学实验室—中国科学院月球与深空探测重点实验室伙伴实验室 澳门 000853) (5澳门科技大学资讯科技学院 澳门 000853)

随着小行星光谱和测光数据不断增加,以此为基础已有多种分类方法对小行星进行分类.使用随机森林算法对Sloan D igital Sky Survey(SDSS)M oving Ob ject Catalogue(MOC)的观测结果进行小行星分类.根据小行星g、r、i、z 4个波段的星等,结合Tholen、Bus、Lazzaro、DeM eo等人已有的分类工作和主成分分析,对多达48642颗的小行星进行了分类,实现了大数据集的小行星类别判定,把这些小行星分为8个类别(C、X、S、B、D、K、L和V).

小行星:普通,谱线:轮廓,方法:随机森林算法

1 引言

小行星是太阳系中重要的小天体,对其观测研究已经成为当代天文学中的一个活跃领域.获得小行星确切的组成成分,能更加深入地了解在太阳系形成时期的环境条件及演化过程.太阳系中地球、火星等类地行星,由于其本身的演化过程和大气环境等因素的影响,已经很难在此类行星上发现太阳系早期形成所留下的证据,而小行星作为类地行星形成时期的组成成分,特别是处于主带和特洛伊带的小行星,依然保持着数十亿年前的状态,留下了太阳系早期形成时期的重要证据[1].小行星测光数据分析是研究小行星组成成分的一种重要手段,也为小行星分类方法的研究提供了一个重要的依据.

1929年,Bobrovnikoff[2]发表了对小行星光谱测量的研究报告,但是受当时技术发展的限制,光谱测量效率低下且不够精确.20世纪50年代中期,随着UBV光度测量的使用,研究人员拥有了大量小行星的分光观测资料.利用这些资料,Wood等[3]、Chapman等[4]获得了小行星光谱的反射特性,并以此把小行星分为了两个大类,一类即为“S”类小行星,另一类为“C”类小行星.Zellner[5]发现小行星反射率有着双峰分布的特点,由此把小行星分为暗碳质和亮石质两个大类.随后几年,越来越多的科研项目投入到了小行星光学特性的研究中,为20世纪70年代中期提出一种更为精确且严格的小行星分类法提供了可能性.Chapman等[6]在分析了一些小行星光度测量的反照率后,进一步把小行星细分为“C”、“S”、“U”3类:“C”代表暗的碳质类;“S”代表具有石质类特性;“U”代表还不能确定类别.不同类别小行星在一定意义上揭示了其物质组成成分的不同.

我们结合已有的分类结果,用随机森林算法对Sloan Digital Sky Survey(SDSS) Moving Ob ject Catalogue(MOC)1h ttp://sbn.psi.edu/p ds/resou rce/sdssm oc.h tm l观测的大部分小行星进行类别判定.SDSS使用美国新墨西哥州阿帕奇天文台的2.5m口径望远镜作为观测设备,望远镜的测光系统使用了多个波段滤光片,分别为u、g、r、i、z波段,中心波长分别为:3551、4686、6166、7480和8932[7].该巡天项目观测成果丰硕,得到了大量高精度的观测数据.叶嘉晖等[8−9]利用主成分分析法对SDSS的数据进行了小行星分类,有效区分了S大类和C大类小行星反射率特点,但受主成分分析方法的限制,得到的数据分辨率不高,只把小行星分作了两个大类.随机森林算法能克服该方法的局限性,能以更高精度识别出不同小行星反射率的特点,从而分出多个类别.

2 随机森林算法

传统的分类模型存在容易出现过拟合、精度不高等缺点[10],很多研究者开始集合多个分类模型来提高分类的精度.根据训练集创建一组基分类模型,然后对每个基分类模型得到的预测值进行投票来最终决定预测值.

随机森林算法正是这样一种包含一组基分类模型的算法,利用bootstrap重抽样方法在原始样本中抽取若干样本,对每个样本都进行决策树建模.通过训练集的训练,每棵决策树产生一个类别的判定准则.对于每一个需要判定类别的小行星,每棵决策树会产生一个分类结果,最终,采用多数表决的方法作为预测结果输出.

随机森林优越的分类性能使其在学术研究中得到了广泛的应用,我们使用R语言软件包random Forest来实现.通过训练集的训练,随机森林能识别出训练集中不同类别小行星反射光谱特点,对比未知类别小行星的反射光谱,实现分类.

2.1 数据处理

在SDSS MOC观测数据中,去除了有较大观测误差的个体,且只选取已得到编号的小行星,这样得到了48642颗小行星.对于一颗小行星,我们用g、r、i、z、v 5个波段的星等求得色指数(由于u波段的星等数据相对于其他波段误差显著过大,参照以往对SDSS数据进行小行星分类的方法,采用了SDSSMOC数据中提供的v波段星等,v波段的星等由g和r波段的星等计算得出).由以下色指数计算公式[11],求得:

上式中g、r、i、z、v分别指该波段星等,Cg−v、Cv−r、Cv−i、Cv−z分别为计算得到的色指数.

在计算相对反射率时,利用M isra等人的结果[11],小行星相对反射率的计算公式为:

Fg、Fr、Fi、Fz分别为g、r、i、z波段的相对反射率.我们利用以上式子得到的相对反射率对小行星进行分类.

2.2 训练集的选取

在选取训练集的过程中,参考了Tholen[12]、Bus等[13]、Lazzaro等[14]、DeMeo等[15]的分类结果,在SDSS的数据中找出了210颗已有分类结果的小行星.但是有些类别的小行星只根据SDSS的星等数据不能得到区分:比如在Bus分类的26个类别中, C和Ch类在0.7µm处的吸收峰特征有所不同,然而这些特点在SDSS数据中得不到体现,我们不能依据SDSS的数据区分出C和Ch类.因此,我们把这210颗小行星分作了8个类别,这8个类别与Bus分类结果的对应关系见表1.

要对48642颗小行星分类,如果只以这210颗小行星作为训练集,数量太少,不能得到一个预期的分类结果,因此需要扩充训练集的小行星数量.小行星分类的依据是相对反射率,就是把相对反射率相似的小行星分为一类.我们使用主成分分析法,选取相对反射率与已知分类小行星相似的小行星,判定其类别.

主成分分析为数学变换方法的一种,把相关变量转换成互不相关的变量,转换后的变量以方差大小排列,方差最大的作为第1个变量,命名为第1主成分(PC1),方差次大的作为第2个变量,命名为第2主成分(PC2),以此类推.方差越大,变量包含的信息越多,因此,由主成分分析得到的第1主成分包含原变量的主要信息.通过主成分分析,我们就能以少数几个主成分变量替代原先多个变量,实现降维.

在小行星色指数研究中,计算主成分的公式为:

PC为主成分,C为色指数,B是色指数均值,E是色指数协方差矩阵的特征向量.由此得到的第1主成分反映了反射光谱的颜色特征.

表1 本文的分类与Bus分类的对应关系Tab le 1 Ou r taxonom ic system com pared to the Bus taxonom ic system

对48642颗小行星进行主成分分析后,我们得到的第1主成分和第2主成分包含了95.98%的相对反照率信息(见表2),第1主成分和第2主成分基本就代表了相对反照率的全部信息,并以此作出图1,从图1中我们可以明显地看出小行星双峰分布的特点.

表2 本文计算得到的主成分包含信息百分比Tab le 2 Percen tage o f varian ce accoun ted by the p rincipal com p onen t

结合得到的第1、第2主成分,选取出PC1和PC2与上文已知分类小行星相近的个体,并结合它们相对反射率的特点,我们又选出910颗小行星,进行了类别的判定(训练集中小行星在PC空间的分布见图2).以这样的方式,我们把训练集扩充到了1120颗.

3 结果与分析

在以训练集训练分类模型时,我们尝试选取了500到1000棵决策树的随机森林进行训练,发现决策树超过600棵后分类模型就不再显著地改进,我们把决策树设定为600棵.训练集训练好模型后,我们得到了一个随机森林的分类模型,就可以对余下的绝大部分小行星进行分类.得到的分类结果见表3和图3.

图1 通过PC 1和PC 2空间分布图能看到明显的双峰结构Fig.1 The b im oda l structu re o f asteroids show n in the PC space

图2 训练集中的小行星在PC空间的分布Fig.2 The d istribu tion o f asteroids of the train ing sets in the PC space

表3 各类别小行星所含数量Tab le 3 Percen tages o f asteroid s c lassified in to each asteroid typ e

图3 分类结果在PC空间中的分布,从中可以看到每个类别的小行星都聚集成类Fig.3 The d istribu tion of d ifferent classes of asteroids in the PC space,in w h ich each class of asteroids are clustered

为了与已有的小行星分类结果进行对比,我们根据每个类别小行星在各个波段反射率的均值,做出了小行星的反射光谱图,见图4.可以看到,每个类别的小行星反射光谱与已有分类结果的小行星反射光谱特点基本保持一致:S类小行星反射光谱有明显的波峰、C和X类小行星反射光谱比较平坦等,表明我们的分类取得了较好的结果.

4 总结

基于g,r,i和z波段获得的星等数据,用随机森林算法实现了大数据量的小行星分类.通过得到的分类结果,可以看出随机森林算法准确地分辨了每个类别小行星相对反射率的特点.

但是,有些类别的分类结果还需要后续的改进.比如K类小行星,由于训练集中该类别小行星数量较少,且与S和X类小行星相对反射率特点区分度不高,随机森林模型对于该类别的小行星分类结果有一定的弥散.

对于大量小行星观测数据,通过主成分分析法,在PC空间中划分区域来实现小行星分类的方法效率不高,随机森林算法能高效率地实现大数据量小行星的分类.随着小行星观测数据量的不断增加,随机森林算法的快速分类应用价值更能得到体现.

图4 8个类别小行星相对反射光谱图Fig.4 The relative reflectance spectra of the eigh t classes o f asteroids

[1]Ga ffey M J,Bu rb ine T H,P iatek J L,et a l.Icarus,1993,106:573

[2]Bob rovnikoff N T.Lick Observatory Bu lletin,1929,14:18

[3]W ood J H,K u iper G P.A p J,1963,137:1279

[4]Chapm an C R,Johnson T V,M cCord T B.NASA Specia l Pub lication,1971,267:51

[5]Zellner B.Bu lletin of the Am erican A stronom ica l Society,1973,5:388

[6]Chapm an C R,M orrison D,Zellner B.Icarus,1975,25:104

[7]Ivezi´cˇZ,Tabachn ik S,Ra fikov R,et a l.A J,2001,122:2479

[8]叶嘉晖,赵海斌,李彬.天文学报,2015,56:243

[9]Ye J H,Zhao H B,Li B.ChA&A,2016,40:54

[10]方匡南,吴见彬,朱建平,等.统计与信息论坛,2011,26:32

[11]M isra A,Bus S J.BAAS,2008,40:508

[12]Tho len D J.A steroid Taxonom ic C lassifications.Tucson:Un iversity o f A rizona P ress,1989

[13]Bus S J,B inzel R P.Icarus,2002,158:146

[14]Lazzaro D,Angeli C A,Carvano J M,et a l.Icarus,2004,172:179

[15]DeM eo F E,B inzel R P,Slivan S M,et al.Icarus,2009,202:160

Spectral C lassification of A steroids by Random Forest

HUANG Chao1,2,3MA Yue-hua1,2ZHAO Hai-bin1,4LU Xiao-ping5

(1 Pu rp le M oun tain O bserva to ry,Chinese A cadem y o f Scien ces,Nan jing 210008) (2 K ey Laboratory for P lanetary Science,Chinese A cadem y of Sciences,Nan jing 210008) (3 Un iversity o f Chinese A cadem y o f Scien ces,Beijing 100049) (4 Lunar and P lanetary Scien ce Laboratory,M acau Un iversity o f Scien ce and Techno logy—Par tner Labo ra to ry o f K ey Labo ra tory o f Luna r an d D eep Space Exp lora tion,Chinese A cadem y o f Scien ces, M acau 000853) (5 Facu lty o f In fo rm a tion Techno logy,M acau Un iversity o f Scien ce an d Techno logy,M acau 000853)

W ith the increasing asteroid spectral and photometric data,a variety of classification methods for asteroids have been proposed.This paper classifies asteroids based on theobservationsof Sloan Digital Sky Survey(SDSS)Moving Ob ject Catalogue (MOC)by using the random forest algorithm.W ith the training data derived from the taxonom ies of Tholen,Bus,Lazzaro,DeMeo,and Principal Component Analysis,we classify 48642 asteroids according to g,r,i,and z SDSS magnitudes.In this way, asteroids are divided into 8 spectral classes(C,X,S,B,D,K,L,and V).

asteroids:general,line:profiles,methods:random forest

P185;

A

10.15940/j.cnki.0001-5245.2016.05.003

2016-03-28收到原稿,2016-04-22收到修改稿

∗国家自然科学基金项目(11573075,11403107,11273067)、江苏省自然科学基金项目(BK 20141045)、澳门科学技术发展基金项目(095/2013/A 3)、紫金山天文台小行星基金会及澳门科技大学月球与行星科学实验室—中国科学院月球与深空探测重点实验室伙伴实验室资助

†yhm a@pm o.ac.cn

猜你喜欢
小行星反射率波段
NASA宣布成功撞击小行星
我国发现2022年首颗近地小行星
近岸水体异源遥感反射率产品的融合方法研究
最佳波段组合的典型地物信息提取
具有颜色恒常性的光谱反射率重建
基于地面边缘反射率网格地图的自动驾驶车辆定位技术
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
L波段kw级固态功放测试技术
小行星:往左走