大数据时代需要更多“词云”钥匙

2013-06-11 07:45新华社中国网事总编李俊
中国记者 2013年4期
关键词:词云新华社可视化

文/新华社“中国网事”总编 李俊

《“词云”提醒:城镇化还需以人为本》配图。(新华社/发)

“天上一片云,地上一张网”。数字时代的瞭望者以此描述新的传播格局。一方面,海量数据以几何级数在“云端”汇聚;另一方面,媒体、自媒体井喷般地采集、生产新数据和知识。

这是大数据时代令人兴奋的信息图谱,也是摆在媒体工作者面前的时代难题。大数据采之为财富,存之则如粪土。未经分析、挖掘的大数据,百无一用。大数据时代的主要矛盾是社会日益增长的庞大的数据生产、存储能力和媒体、受众贫瘠的数据分析、加工能力间的矛盾。

今年3月,新华社新媒体专线首次采用“词云”技术报道全国两会,媒体用户和读者盛赞“新风扑面”。但如果把这项小小的技术升级放在“大数据之问”的时代背景下,它的意义和启示也许才能彰显。

所谓词云,就是利用语言分析技术,对大数据文本进行词频分析,并生成可视化图像的技术。由清华大学计算机系自然语言分析实验室开发的中文“词云”就像一把打开数据之门的钥匙——十万字的文本,“读懂”只需几秒钟,还能飞快生成“趋势化、可视化”的图表。

十年来的两会文本、文献浩如烟海。政府工作报告如何让公众“听得懂,愿意听,记得住,能管用”?艰深专业的预算报告如何让公众像“看紧”自家账本一样“看紧”公共账本?如何看懂文字背后十年来的成就与变迁?

新华社采编人员和清华大学年轻的工程师们在“摸着石头过河”的状态中,“试”出了《“词云”提醒:城镇化还需以人为本》等一批新报道。在这些稿件中,词云技术分别被用来分析文本本身,得出带有趋势性的结论,并配以精准解读。

在一个越来越开放透明、公众和媒体拥有同步获取大数据能力的时代,在图阅读、浅阅读盛行的时代,媒体的价值在于将那些看起来杂乱无序的数据进行筛选、分析、解读,让读者“见所未见”,和读者一起发现数据背后的真相。这需要人性化的眼界,也需要智能化的技术。词云只是朵朵白云中的一朵,而已。

猜你喜欢
词云新华社可视化
基于CiteSpace的足三里穴研究可视化分析
再创新高
基于Power BI的油田注水运行动态分析与可视化展示
基于PyQt5界面的词云制作软件设计
基于CGAL和OpenGL的海底地形三维可视化
视界
“融评”:党媒评论的可视化创新
应用“8K+5G”技术创新国庆阅兵报道——新华社的实践与思考
Web文本挖掘及可视化
“刚刚体”走红,新华社“小编”如何专业卖萌