气象数据挖掘与可视化
——展现数据之美

2018-10-11 07:03刘丹妮王颖周丹
浙江气象 2018年3期
关键词:日数结论数据挖掘

刘丹妮 王颖 周丹

(浙江省气象服务中心,浙江 杭州 310017)

0 引 言

“大数据”一词是随着信息时代发展而产生的,是当前当仁不让的热词。随着数据源的多样化,数据量的积累,当前信息时代也被称为“大数据时代”。无论在科学研究、应用还是互联网领域,“大数据”都占据不可忽视的地位。韩学艳等利用大数据方法分析了探索治疗心力衰竭常见证型的用药规律[1];郑杨利用大数据方法,实现了档案数据从采集、整理、分析到展示4个层次的优化管理[2];贾应丽分析销售数据,指导客户分类,实现了差异化的客户关系管理[3];施丽等将大数据方法应用于分析电网用户需求,实现了主动服务,降低了服务成本,提高了服务效率[4];何泰伯将大数据分析应用于教学多媒体信息检索系统,在速度、精度和检索能力上较传统检索系统有明显提高[5];吕梅认为大数据在电视新闻策划中的应用可以增强节目的竞争力[6];高子初等在分析了各种复杂多车道道路上的车辆行驶行为的基础上,提出了用大数据智能交通技术管理复杂多车道道路的新策略[7]。

大数据真正的价值不在于数量的庞大,而在于数据背后潜藏的关系和规律。海量的数据提高了信息的复杂程度[3],要寻找数据背后的关系和规律,需要通过“数据挖掘”来实现。“数据挖掘”,即从数据中挖掘出有价值的信息和知识的过程,它建立在对数据集全面而深刻认识的基础上,是对数据内在和本质的高度抽象与概括,也是对数据从理性认识到感性认识的升华。数据背后的关系和规律的呈现,则称为数据的可视化。

气象部门本身积累了大量的观测数据,是“大数据”的一种。气象数据与许多其他类型数据(交通出行、用电/水量、服装销售、电器销售数据等)相关联,反映了气象条件对行业的影响。但就气象数据本身而言,其隐含的气候背景和规律,是为公众答疑解惑的“原材料”,也是判断当前天气是否异常的标准,因此历史气象数据挖掘对公众气象服务而言不可或缺。

此外,随着智能手机的普及和天气类APP的涌现,公众获取常规气象信息的途径大大增加,气象部门发布的常规文字信息权威性和吸引力已大大削弱。网络时代新媒体的传播方式和公众的阅读习惯,要求气象信息有“吸睛”、“有趣”,这就必然要对气象数据进行深加工和热点挖掘。可视化是数据背后规律的表达,成功的可视化能够提高气象信息的展现能力和美观度。经历“数据挖掘”和“可视化”过程的原创气象数据新闻或预报、科普产品,在增强气象信息可读性的同时,可以避免其他媒体对于文字类气象信息的错误解读,从而维护气象部门的权威发布品牌。中国天气网原创的“数据会说话”、“数据帝扒天气”等栏目就是气象数据挖掘和可视化的典范。

1 气象数据挖掘的关键

1.1 “气象+生活”,找准切入点

天气条件影响着生活的多个方面,单纯的气象数据分析并不一定能引起阅读者的兴趣,但从人们的认知、感知或身边的事、物入手,则更容易引发人阅读的欲望。

1)以认知、感知为切入点。人们看到熟悉的认知或类似的感知,比较容易产生共鸣,引发探究的欲望。例如,夏季高温科普作品《扒一扒三伏天那些事儿》、《越来越热是你的错觉吗?》,前者从人们熟知的“三伏天”出发,后者从人们对“天越来越热”的感知入手,分析了夏季高温的特征;冬季科普作品《“大寒”PK“小寒”》,对比两个节气的寒冷程度,让冬季低温特征更有趣;《清明时节雨纷纷的降雨魔咒》从“清明时节雨纷纷”诗句出发,分析了清明假期浙江各地的降水特点;《冻成狗?数据告诉你我国寒潮变少了》把感知与数据的冲突点相结合,对我国寒潮发生的频次和降温幅度进行了分析。

2)以身边的事、物为切入点。每个人的生活都离不开“衣食住行”四个字,以公众身边的事或物为切入点也能够引发关注。《气温降1℃,关跑步什么事儿?》从跑步运动入手,揭示了气温、大风和降水对于跑步的影响;《一天过两季4月乱穿衣指数大放送》从4月“乱穿衣”入手,引出4月昼夜温差大的特点;《暴雨和高温是怎么影响我们的菜篮子的?》把天气和菜价相结合,指出了高温髙湿天气对于蔬菜种植、运输等的影响;《大数据教你应对高考“意外”天气》以高考为着眼点,分析了全国多个城市在高考期间可能出现的不利天气,并给出了防范措施。

1.2 数据挖掘≠数据罗列

数据挖掘本身是从数据的表象升华到数据背后规律的过程,通过挖掘得到的数据背后的规律必然要用数据呈现,但规律的呈现并不是历史数据的简单罗列,而需要发现其内涵并凝练成结论。以科普长图《越来越热是你的错觉吗?》为例,阐述结论在数据挖掘中的重要性。

《越来越热是你的错觉吗?》利用1961—2016年浙江11地市气温记录分析了高温和暖夜的变化特征。图1a展现的结论是1961年以来浙江的高温日数呈增长趋势,但逐年的高温日数序列并不是逐年增长的而是波动的,因此高温日逐年的罗列并不能表现高温日的变化趋势。为此加入了序列的趋势线,高温日数趋势线呈明显增长趋势,有力地体现了“高温日数越来越多”这一结论。除添加趋势线方法外,还可以按照年代将54个时次的时间序列分成6段,缩减后的高温序列也能够较明确地表现高温日数量的增加(图1b)。

图1a 1961—2016年浙江平均高温日数

图1b 1961—2016各年代平均高温日数

图2需体现的结论是“7、8月高温最凶猛”。图中以饼图的形式表示各月高温日(最高气温≥35 ℃)、酷热日(最高气温≥40 ℃)出现的比例,不仅说明了4—9月曾出现高温日、7—9月曾出现酷热日,还通过扇形的面积大小明确展示了高温日和酷热日主要出现在7月、8月,对结论起到了充分支撑作用。

图2 浙江平均高温日月分布占比

数据证明了浙江的高温日的增加趋势和集中月份后,图3将省内11地市高温日数进行了对比,得出“丽水是浙江的吐鲁番”这一结论。从条形图上可以明确的看出,丽水平均高温日数达45.8 d,高居榜首;最少的是舟山平均仅3.5 d。

图3 浙江11地市高温日排行(单位:d)

高温代表了白天热的程度,到了夜里是否还热?图4利用暖夜(最低气温≥28 ℃)日数序列进行说明。这里值得注意的是,暖夜并不是每年都出现,且与高温日数一样也存在序列过长,难以表现的问题,图4采用5 a暖夜总日数展现暖夜变化趋势,有效地避免了有些年份不出现暖夜的问题,同时也达到了缩减序列长度的目的,清晰地展现出“夜间越来越热”这一结论。

图4 1961—2016年浙江暖夜日数变化(单位:d)

由上面案例可知,每组数据规律的呈现都需落脚到结论,并且成为结论的有力支撑,这就涉及到数据规律的挖掘方法。气象数据挖掘的常用方法有平均、极值、趋势线、频率统计等,有时还可根据对数据进行分类对比。

2 数据的可视化

数据挖掘是“深入”的过程,那么可视化则是“浅出”的展现。可视化就是把数据、信息和知识转化为可视的表示形式的过程[8]。在“全媒体”时代,以文字呈现的信息不具备图片的视觉冲击力,富有创意的视觉语言更能帮助人们快速获得信息,因此“看图说话”的形式能更好地传播气象信息。

随着大数据技术的发展,可视化技术也不断提高,目前数据可视化技术已实现借助计算机的强大处理能力、计算机图形学算法和可视化算法,将大量的数据集转化为静态或者动态图像,并具有一定的人机交互能力。互联网上已有许多在线可视化平台如Google Chart、Data Driven Documents[9]、“镝数”及“百度?图说”等,中国气象局华风创新2015年也推出了气象数据的可视化解决方案——“蓝PI蚂蚁”[10]。

在数据规律的展现方式上需要考虑多样化和美观,除常见的柱状和折线表达方式外,饼图、玉玦图、瀑布图、玫瑰图、面积图、象形图、甘特图等的搭配使用能给人耳目一新的感觉,更好地诠释数据规律(如图5)。

在可视化工具选择上,Excel和Power point可以呈现大部分图形的制作,例如柱状图、折线图、饼图、玫瑰图、雷达图、面积图,玉玦图等,但相对复杂的图形制作则需要借助线上工具或编程语言(Matlab、R语言)来实现。当然,Photoshop也可以帮助实现图形的美化。值得注意的是,气象数据的可视化并不局限于图表,还可以用视频、动画、H5等多多种形式进行展现,甚至可以根据用户数据来实现“私人订制”,例如“今日头条”政务号的年度数据解读。

3 结 语

本文以气象大数据为出发点,简述了在当前的“全媒体”时代气象数据挖掘的关键点,以及数据可视化的重要性,主要结论如下:

图5 气象数据可视化图形举例(统计时段为1961—2016年)

1)对于公众气象服务而言,历史气象数据挖掘与可视化是适应当前信息获取方式的必然选择,也是气象部门掌握信息主动权,制作原创新闻,打造品牌效应的重要手段。历史气象数据挖掘不仅有利于对当前天气的判断,也有利于气象规律的总结和传递。

2)气象数据挖掘要引起公众的关注,需要找准切入点,从人们的认知、感知或身边的事、物进行切入,能够取得较好的效果。

3)气象数据的可视化是数据规律表达的重要步骤,需要设计人员的思考和经验。除却简单的柱状和折线表达方式外,面积图、象形图、玫瑰图、玉玦图等的使用可以为规律的呈现增色、吸睛。

在大数据火爆的今天,有人把数据比作新的“石油”或“尚未发掘的金矿”,数据新闻是大数据时代的精品,也是许多大型网站保留的原创栏目,例如搜狐的“数字之道”、网易的“数读”。将数据挖掘与可视化技术应用于气象数据,可以大大增强气象信息的趣味性,给气象信息传播带来新机遇、开拓新思路。不同视角、不同形式呈现出创新性的气象信息,其传播将获得“1+1>2”的效果。盘活历史气象数据,让数据诉说自己的故事,能够丰富公众气象服务产品,提升公众服务水平,真正体现气象数据之美。

猜你喜欢
日数结论数据挖掘
由一个简单结论联想到的数论题
汉江上游汉中区域不同等级降水日数的气候变化特征分析
立体几何中的一个有用结论
探讨人工智能与数据挖掘发展趋势
1961—2016年汛期东天山北坡不同量级降水日数时空变化特征
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
天津市滨海新区塘沽地域雷暴日数变化规律及特征分析
结论
ESSENTIAL NORMS OF PRODUCTS OF WEIGHTED COMPOSITION OPERATORS AND DIFFERENTIATION OPERATORS BETWEEN BANACH SPACES OF ANALYTIC FUNCTIONS∗
高级数据挖掘与应用国际学术会议