基于拼音分析的网民密码行为研究

2014-06-06 10:46王云凯洪瑞隆
计算机工程 2014年9期
关键词:中国网民多音字拼音

杨 城,王云凯,洪瑞隆

(1.西南财经大学经济信息工程学院,成都611130;

2.博伊斯州立大学计算机学院,美国博伊斯83725)

基于拼音分析的网民密码行为研究

杨 城1,王云凯1,洪瑞隆2

(1.西南财经大学经济信息工程学院,成都611130;

2.博伊斯州立大学计算机学院,美国博伊斯83725)

从网民密码字符中26个字母与汉语拼音的关系入手,研究中国网民密码的文化特征。基于网络汉字频率及多音字处理方法进行拼音字母的频率统计,在简单阐述网民密码的一般性统计特征后,重点分析中西方网民密码与拼音文本、英语文本中字母频率之间的相似性,揭示中国网民的密码设计与汉语拼音密切相关,并且习惯于采用拼音式的助记符密码。

信息安全;密码;拼音;文化特色;相关性分析;助记符密码

1 概述

2011年12月下旬,中国互联网爆发了一场最大规模的用户资料泄密事件。从最初程序员网站CSDN(CSDN.net)的640万用户数据被泄露,到天涯(Tianya.cn)被曝出3 000万用户密码遭泄露,而后人人网(renren.com)、多玩网(duowan.com)、7K7K网(7K7K.com)、百合网(baihe.com)、猫扑(maopu.com)等知名网站相继传出用户信息被盗用的消息。截至12月29日,CNCERT通过公开渠道获得疑似泄露的数据库有26个,涉及账号、密码2.78亿条。其中,具有与网站、论坛相关联信息的数据库有12个,涉及数据1.36亿条[1]。

由于这次泄密事件的涉及面相当广,不仅数量惊人,而且很多泄露账户采用明文密码,没有加密存储,由此引发了一场席卷中国互联网的安全恐慌。但对于学术界而言,它却为密码安全和网络行为学的研究提供了宝贵数据和绝好机遇。这是因为基于用户密码的特殊性,以往的研究要么是针对少量泄密数据的统计分析,要么采用问卷调查或小范围测试的间接方式,还从未有过针对如此巨量密码数据的直接研究[2-4]。更为重要的是,现有文献的研究对象多为英语母语国家的密码数据,很少有专门针对非英语国家密码特征的研究,而这些密码数据中往往蕴含着许多网民所在国特有的、新奇的、反映其文化特征的东西。

鉴于此,本文拟从网民密码字符中26个字母与汉语拼音的关系入手,研究中国网民密码的文化特征。重新计算网络文献中拼音字母的统计频率,介绍本次研究所选密码数据的概况,在简单阐述网民密码的一般性统计特征之后,详细对比分析中西方网民密码与拼音文本、英语文本中字母频率之间的相似关系,并给出相关建议。

2 拼音字母的统计特性

自上世纪50年代中后期中国文字改革委员会研究制定汉语拼音方案以来,国内对拼音字母的频率统计主要分为2个时期。第1阶段是在汉字刚刚推行拉丁化拼音标注后,相关学者和专家对纸质文献进行的手工统计,其代表人物有吴越、柳棉等[5-6]。第2阶段是在进入90年代以后,随着计算机性能的不断提升和应用的广泛普及,研究人员借助计算机进行了更大规模的统计。其中,比较有代表性的是张春生、关薇薇的《汉语全拼码中26个英文字母出现概率研究》,他们利用Visual Foxpro和汉字逆码表,对文学、科技、政治三类文献,总计超过500万汉字所作的统计分析[7]。但是,上述研究成果若直接应用于网民密码的特征分析,在针对性和准确性上还有所欠缺,这主要表现在以下3个方面:

(1)在语料选择上,前期研究多为纸质文献(包括扫描)或电子书籍和报刊,真正的网络文献并不多见,这与网络时代汉字“远离纸笔、亲近键盘”的现实相违背,因而无法体现网民用词用字的习惯。

(2)语料数量有限,即使是文献[7]中的500万汉字也远未达到真正意义的大规模统计,只能满足常用汉字的拼音统计分析。

(3)在多音字问题上,文献[7]中汉字逆码表将汉字与拼音简单地一一对应,缺乏对多音字的有效处理。虽然多音字常以某个单一读音为主读音(甚至部分读音仅用于古文,现实中用得极少),并且很多仅仅是音调变化,但由于它们在3 500个常用汉字中的比例高达15.94%[8],因此对拼音字母的统计仍然具有不可忽视的影响。

因此,为了取得更精准的统计数据,本文对网络文献中拼音字母的出现频率重新进行了统计。出于时间和人力的考虑,本次研究没有直接进行大规模的统计分析,而是借鉴前人对网络汉字的统计结果,结合多音字分析的方法进行计算。

首先利用郭曙纶、方有林在《网络汉字的大规模统计与分析》和《网络汉字使用频率统计数据及其说明》两篇文章中的研究成果,得到每个汉字的频率数据[9-10]。他们的研究是基于对14.06亿网络语料的统计,其来源包括门户网站、文学网站和报纸网站等,总共涉及 6 932个汉字,几乎覆盖一级字库(3 755)和二级字库(3 008)的全部汉字。然后利用类似成分的语料结合多音字处理软件,对前1 001个高频常用汉字(累计频率为90%[9])中的非音调变化型的多音字进行辨音统计,得出每个多音字的每个读音对应的比例(例如“的”字,“de”音占99.4%,而“di”音仅占0.6%),如表1所示。

表1 包含多音字处理的汉字拼音统计结果

最后,利用式(1)计算出每个拼音字母的频率数值。

其中,hz表示每个汉字;Rate1(hz)表示该汉字的字频;Rate2(hz)表示该汉字对应读音的比例;Letter(hz,α)表示该汉字的全拼是否包含字母α(包含为1,否则为0)。

图1是本文的统计结果与文献[7]的对比分析(字母顺序按本文的统计值由高到低排列)。可以看出,虽然2次统计在整体趋势上差异不大(除字母u和e外,相同字母频率的绝对差值都在0.01以下),但在字母频率的大小排序上仍有较大变化(有14个字母的排序位发生改变)。更为重要的是,新的统计数据更加准确地反映了网络时代中国人(尤其中国网民)的拼音输入习惯,为网民密码分析提供了更加可靠的数据支持。

图1 字母频率统计结果

3 密码数据概况

虽然本次密码泄露事件涉及多家不同类型、不同主题的网站,但本文仅选取了最具代表性的天涯社区(Tianya)的泄露数据作为主要的分析对象,而将其他数据用作对比分析和辅助验证。这是因为Tianya作为一个以论坛、博客、微博为基础交流方式,并以人文情感为特色的综合性虚拟社区和大型网络社交平台,是目前最具影响力的全球华人网上家园,其用户群体分布广泛,包含不同年龄、不同阶层、不同职业的网民。同时,Tianya也是此次数据泄露事件中被盗数据量最多、数据项最完备的一家网站。因此,它能够基本反映中国网民的账户特征,将其选为分析对象是十分合适的。

此次Tianya的泄露数据为2009年的备份数据,共计29 865 731条账户记录,每条记录包含账号ID、密码PWD和Email信息。由于原始数据不够规范并且包含一些错误的数据记录,因此在数据分析前需要先进行数据清洗,删除那些密码为空和E-mail存在明显错误的记录(例如没有@符号,@符号前后部分为空等),以及一些公共的和内部专用的账户对应的记录,例如马甲A军团***@163.com(注:“马甲”用于论坛隐身发帖)、user@hainan.net、idreg@tianya.cn、idreg@ hainan.cn等,以保证账户数据的普遍性。经过清洗,最终用于分析的有效数据共计28 988 172条。

4 网民密码分析

4.1 一般性密码特征

通过一些简单的SQL语句,可以很快得出中国网民密码的一些基本结构特征。

例如,2/3以上的密码长度集中在6位~8位,平均长度为7.94位,其中数字与字母的比例约为3:1,即一个8位的平均密码中大约包含6位数字和2位字母。可见,中国网民更加偏好于数字型密码。就字符结构而言,63.8%的账户为纯数字型密码,10.3%的为纯字母型密码,仅24%的为数字字母混合型,而选用特殊字符的密码更是低至1.9%(后两个数字在MySpace的网民中分别为81.0%和8.3%[11])。这表明中国网民的密码安全意识普遍偏低。

在对常用密码的分析上,笔者发现许多有别于西方的、独具中国文化特色的密码现象:除了传统的123456,111111,000000,还有被国人视为吉祥数字的666666,888888,更有中文数字的谐音密码,如5201314(我爱你一生一世)、7758520(亲亲我吧我爱你),以及拼音密码woaini(我爱你)、woshishui(我是谁)、woaiwojia(我爱我家)等。

此外,通过分析最常见的密码子串,笔者发现除123,000,111,520/521,1314这类数字子串的出现频率极高外(都在1%以上,123更是超过10%),一些常用汉字的拼音子串的频率也非常高,如jia(家)、hao(好)、wan(玩)、xiao(小)等都在0.5%左右。而经常出现在西方密码中的password,baby,ball,boy等子串的频率却都在万分之五以下,仅abc和love的频率接近0.5%。

最后,针对常用数字字符的分析显示,除了最常用的1/2/0,数字8排在第4位(通“发”的音),而数字4则排在最后(通“死”的音)。但 Burnett和Kleiman的研究却发现,在西方的密码字符中,数字8的频率最低[12]。

4.2 密码字母频率分析

由于文化习惯和思维模式上的差异,中西方网民在选择26个字母(不区分大小写)作为密码字符时存在较大差异。表2详细展示了这些字母在不同应用环境中的出现频率,4组数据依次对应英语文本(Type_A)[13]、西方网民密码(Type_B)[12]、汉字拼音文本(Type_C)和中国网民密码(Type_D)的具体频率值,其中,灰色数值表示每一组数据中出现频率最高的3位,下划线数值表示出现频率最低的一位。

表2 基于不同应用环境的字母频率分布 %

从表2可以看出,中国网民密码中最常见的字母依次为A/I/N,出现频率最低的字母为V;而西方网民密码中最高和最低的字母依次为E/A/R和Q。同时,虽然具体数值有差异,但Type_D同Type_C最为相似。深入比较还可以发现,在频率最高的前10个字母中,Type_D与Type_C有9个相同项,而与Type_A仅有6个相同项。

以上比较表明中国人的密码字母频率更加接近于拼音字母的频率,说明国人在设置密码时较多地参考了汉语字词和短语,而非英文单词或短语。为了进一步验证这一特征,本文对4组数据两两一组进行相关性分析,利用空间向量的余弦公式来计算它们之间的相关性:

其中,D1,D2分别表示一个26维的空间向量;W1i和W2i分别表示对应维度的权重(即字母的频率值), Sim(D1,D2)表示2个向量的空间夹角的余弦值,该值越接近于1相似性越高。计算结果如表3所示。

表3 4组字母频率数据的相关性分析结果

可以看出,西方网民密码与英语文本高度相关,而国内网民密码与拼音文本的相关性也非常高,印证了前面的分析。同时注意到,后者的相关性(0.928)相对于前者(0.961)略微偏低,原因可能是西方网民设置密码的模式较为单一,只能参照英语文本;而国内网民虽然主要基于汉语拼音设置密码(尤其体现在年龄层次偏高、文化程度偏低的网民中),但也有少部分人参照英语单词和短语。这一点从下面的数据能够得到一定的印证:用类似的方法分析CSDN(中国软件开发联盟)的密码特征,可以看到CSDN的网民密码同英语文本的相关性为0.862,略高于此处Tianya网民的0.841。这是由于CSDN作为中国最大的程序开发者技术社区,其网民年龄普遍偏低,文化程度整体高于Tianya,并且他们在工作中大量接触英语,因此其密码结构中的英语成分也体现得相对较多。

表2中Type_C与Type_D相比,网民密码中辅音字母的频率值普遍偏高(仅D/G/H/N例外)。这反映出国人喜欢采用拼音式助记符密码,即基于某个汉语短语(称为助记符短语)中每个汉字的拼音首字母来设置密码。例如,参照成语“塞翁失马,焉知非福”,其密码可以设置为“swsmyzff”。对于4个密码频率较拼音文本偏低的辅音字母,H是因为翘舌音zh/ch/sh在缩写时屏蔽了第2个字母,N/G是因为全拼中的前鼻韵母(an/en/in/un/vn)和后鼻韵母(ang/eng/ing/ong)在缩写时都被删除,而D是因为汉字中的第一高频字“的”(de)一般很少出现在助记符短语中。由此可见,这些所谓的“例外”,恰好印证了本文对拼音式助记符密码的分析。

此外,本文用同样的方法分析拼音文本同中国网民的账户ID、Email账号(@符号前面的部分)的相关性,2个数值分别为0.943和0.958,都高于同密码的相似度(0.928)。这说明网民在命名账户ID和Email账号时,比设置密码更加习惯于参照汉字拼音。

5 结束语

综上所述,中国网民的密码设计与汉语拼音密切相关,习惯于采用基于拼音短语式的助记符密码。

需要注意的是,这些结论一方面为网络安全、密码分析以及行为学分析方面的专家学者提供了重要的研究素材和参考依据,但另一方面它也暴露了网民密码的结构特点,为居心叵测者提供了便利。例如,过去有很多文献都认为助记符密码是一种不错的密码设计模式,既方便记忆,又难于破解。但最近的研究表明[14],助记符密码也并非万能,它并不比“普通”密码更安全。只要熟悉密码人群的设计模式和短语来源,通过构造一个足够广泛的“助记符短语词典”,结合常用的字符/短语变换模式(如o/0,1/L,我爱你/521,二月/Feb等相互替换),那么助记符密码将变得同样脆弱。

因此,本文建议中国网民在设计助记符密码时,助记符元素的选择应该更加广泛,避免采用单纯的拼音字母,而应尽量选择拼音与英语混合的助记符模式,并通过谐音或象形等方式添加数字和特殊字符,从而在保持易记性的同时进一步增强密码强度。例如,一个被网友戏称为“CSDN杯我最喜欢的密码评选”最具诗意的密码:“ppnn13%dkstFeb.1st”,其助记符短语为“娉娉袅袅十三余,豆蔻梢头二月初”(杜牧《赠别·其一》),它的密码主体依旧是拼音式的助记符,但同时巧妙地结合了数字、单词缩写和特殊符号。

[1] 国家互联网应急中心.关于相关网站用户信息泄露事件的通报[EB/OL].(2011-12-30).http://www.cert. org.cn/articles/bulletin/common/2011123025709.shtml.

[2] Riley S.Password Security:What Users Know and What They Actually Do[J/OL].[2013-08-11].http://www. surl.org/usabilitynews/81/Passwords.asp.

[3] Florencio D,Herley C.A Large-scale Study of Web Password Habits[C]//Proc.of WWW'07.Banff, Canada:[s.n.],2007:657-666.

[4] Gilbert N,Clark T.Passwords and Perceptions[C]//Proc. of AISC'09.Wellington,New Zealand:[s.n.],2009.

[5] 吴 越.声母和韵母出现率的统计[J].拼音,1956,8: 46-48.

[6] 柳 棉.关于字母和数字的相关统计[J].语文建设, 1962,3:9.

[7] 张春生,关薇薇.汉语全拼码中26个英文字母出现概率研究[J].计算机工程与应用,2006,42(7):146-147.

[8] 许艳平,张金城.现代汉语多音字定量考察[J].长江学术,2010,(2):168-172.

[9] 郭曙纶,方有林.网络汉字的大规模统计与分析[M].汉字研究(第1辑).北京:学苑出版社,2005.12-18.

[10] 郭曙纶,方有林.网络汉字使用频率统计数据及其说明[EB/OL].http://wenku.baidu.com/view/7ebd9b1 db7360b4c2e3f644f.html.

[11] Schneier B.Real-world Passwords[EB/OL].[2013-08-11].http://www.schneier.com/blog/archives/2006/12/ realworld_passw.html.

[12] Burnett M,Kleiman D.Perfect Password:Selection, Protection,Authentication[M].[S.l.]:Syngress,2006.

[13] 维基百科.字母频率[EB/OL].[2013-08-11].http:// zh.wikipedia.org/wiki/%E5%AD%97%E6%AF% 8D%E9%A2%91%E7%8E%87.

[14] Cynthia K,Sasha R,Lorrie F C.Human Selection of Mnemonic Phrase-based[J/OL].[2013-08-11].http:// repository.cmu.edu/isr/36/.

编辑 金胡考

Behavior Research of Internet User Passwords Based on Pinyin Analysis

YANG Cheng1,WANG Yun-kai1,HONG Rui-long2
(1.School of Economic Information Engineering,Southwestern University of Finance and Economics,Chengdu 611130,China;
2.School of Computer Science and Engineering,Boise State University,Boise 83725,USA)

This paper studies the cultural features of Chinese Internet users password by studying the relationship of 26 letters from Internet users password characters with Pinyin.It does the frequency statistics based on the network of Chinese phonetic alphabet frequency and polyphone treatment method.After briefly general statistical characteristic of password,it is focus on analysis of the similarity between Internet users'password and the frequency of letters in the Pinyin text and English text in western countries and in China.It reveals that the password of Chinese Internet users design is closely related to Pinyin,and accustomed to using phrases mnemonic phrase-based passwords like Pinyin.

information security;password;Pinyin;culturalfeature;correlation analysis;mnemonic phrasebased password

1000-3428(2014)09-0174-04

A

TN918.1

10.3969/j.issn.1000-3428.2014.09.035

中央高校基本科研业务费专项基金资助项目(JBK130503);国家社会科学基金资助项目(11AZD077)。

杨 城(1977-),男,副教授、博士,主研方向:复杂系统仿真,经济博弈论,数据挖掘;王云凯(通讯作者),硕士研究生;洪瑞隆,副教授、博士。

2013-07-11

2013-10-28E-mail:tairur@yeah.net

猜你喜欢
中国网民多音字拼音
认识多音字
认识多音字
中国网民爱视频7亿人网购
你会读多音字吗?
多音字也能出糗
中国网民大数据
快乐拼音
中国网民爱国主义的实证研究
快乐拼音