拼音输入法词库广度及选词精度全测试

2009-05-28 03:48IUY
网络与信息 2009年10期
关键词:词库短句长句

IUY

据艾瑞咨询前不久发布的桌面软件市场数据显示,搜狗输入法已经成功抢占了80%以上的输入法市场份额,成为输入法市场上无可争议的领头羊。搜狗输入法自正式上线以来就迅速吸引了众多输入法用户,紫光输入法、微软拼音等一大批输入法老将纷纷折戟。时至今日,输入法市场上依然硝烟不断。继搜狗之后,谷歌输入法和QQ拼音也相继面世,面对输入法市场上的众多优秀品牌,用户究竟该选择哪一种呢?笔者将从下列几个方面对目前市场上的三大主流输入法:搜狗、谷歌以及QQ拼音,进行一番深入的品质评测。

一、词库覆盖率评测

词库功能的强弱在一定程度上关系着一款输入法的强弱。在智能ABC、微软拼音占有市场主流用户的时代里,输入法自带的固定词库是用户打字的词汇基础。而后随着搜狗输入法面世,率先采取了二元结构组词造句,这一现状被彻底打破。搜狗输入法融合了搜索引擎技术,使网络新词等可以即时在线更新至固有词库,从而实现了词库的无限扩充,这也就是后来业界所定义的“网络化输入法”。事实上,网络化输入法较之以往,最大的改进就是对固有词库边界的打破。搜狗作为网络化输入法的鼻祖,是否真正达到了词库覆盖率上的突破呢?谷歌、00输入法等后进者又能否在模仿的基础上超越搜狗呢?笔者采用百度百科的一个子集作为评测集合。得到了以下三大输入法词库覆盖率的统计数据:

从表中可以看出。搜狗输入法的词库覆盖率远高于谷歌输入法和QQ拼音。单纯的统计数据似乎并不能完全令人信服,但下面这个评测或许更能说明问题。

对于既定的词语样本,搜狗输入法反馈的输入结果的确出乎意料,甚至连“田鹨”、“蚰蜒草”这样的生僻词汇都能够完全覆盖,一定程度上彰显了搜狗输入法词库大而全的特点。而相比之下。谷歌输入法和QQ拼音却没能全面覆盖这些词语,打出来的文字结果不伦不类,这样就需要用户增加操作步骤、进行人工选择,十分影响用户输入速度。由此可见,庞大的词库系统依然是搜狗输入法的一家之长,其搜索引擎的抓取能力和中文分词处理能力,以及后期研发的细胞词库功能,都使搜狗词库实现了极高的词汇覆盖率。相比之下,谷歌输入法和QQ拼音还需要进一步的升级和完善。

二、新词发现覆盖率评测

随着互联网的进一步发展和普及,中国网民数量不断攀升,网络热词和新词也随之大量涌现。这种情况下,既有的输入法词库若不能与时俱进,就很难继续满足用户的需求。因而新词的发现速度和覆盖度也相应成为评测输入法品质的一大标准。这里采用谷歌热榜作为评测集合,对三大输入法的词库对最新网络词汇的发现能力和每周平均覆盖率进行评测,大概对比情况如下:

通过数据。搜狗输入法在新词发现覆盖率方面也颇具优势。据笔者了解,搜狗输入法能够随时搜索、查询日志和用户词库以及时跟踪到新词、热词的出现,从而助力搜狗输入法将新词、热词一网打尽。下面以具体的新词发现情况为例说明。

上表中的两个例子可以看出,搜狗输入法通过随时追踪网络新词、热词并及时更新至用户词库,使得最新产生的词汇能够便捷打出,对于热衷网络的用户而言极为适用。而谷歌输入法和QQ拼音还不能够实现对网络热词和新词的即时监控和更新,相比之下甚显滞后,难以满足用户对于新词、热词的输入需求,因而再次不敌搜狗输入法。

三、用户短句首选率评测

句子的输入相对于固定的词汇而言就要灵活得多。用户在使用输入法时会因为各自不同的打字习惯,通过不同的断句模式输入拼音,这就使得拼音输入法厂商必须想办法优化智能组词算法,来提高首选短句的准确率(即候选的第一个结果就是用户要输入的短句的比例)。搜狗拼音输入法的首选词准确率目前被认为是拼音输入法中最高的。具体举例可见下表:

上表中,短句样本一栏中提供的都是有具体语意的短句,但通过搜狗输入法、谷歌输入法和QQ拼音打出来的文字结果的第一个选项却很不同。搜狗输入法能够智能分析用户的输入数据,并将最有意义、最准确的短句放在结果的第一位,大大减少了用户的输入环节:而谷歌输入法和QQ拼音在短句首选率这一评测中仍旧无法与其相比,首个反馈结果只是对词汇模块的硬性组拼,而不是有实际语意的短句,从而使用户不得不进行更多的选择操作以达到自己的输入需求。

四、用户长句首选率评测

用户输入的数据有长有短,对于短句的处理已经不易,对于长句的处理就给输入法提出了更高的要求。如何才能为用户提供最想要的长句结果呢?输入法需要从用户的输入心理入手,分析语义结构。更加灵活、更加智能的处理用户的输入需求并提供有意义的文字结果。以用户词库中的长句输入作为评测集合,在用户长句组词能力上可以得到下面这组对比数据:

搜狗输入法在数据上依然领先干谷歌输入法和QQ拼音。谷歌输入法和QQ拼音对长句的数据处理还很呆板、不够灵活,提供的首位选项词不达意,有的甚至令人哭笑不得:而搜狗在进行短句数据处理的基础上,同样是利用大规模数据分析能力和嗓声过滤技术。提升自动断词辨义的能力,将固定的词语进行有规律、有意义的组合,使长句结果符合句法和语义,从而提升用户在日常使用长句上的体验。下面这三组长句首选率评测示例,更加能够说明搜狗输入法在产品品质上的卓越与优势。

以上是从词库覆盖率、新词发现覆盖率、短句首选率、长句首选率等最关乎输入法用户体验的四个方面,对搜狗输入法、谷歌输入法和QQ拼音进行的品质评测。简单来说,在词库覆盖率方面,作为网络化输入法领导者的搜狗优势最为明显,真可谓“姜还是老的辣”:新词发现覆盖率方面,搜狗依然一家独大,但QQ拼音的表现也可圈可点,不愧是模仿者中的典范:在短句首选率这一项测评中。谷歌输入法和QQ拼音两者之间的差距不是很大、难辨雌雄,但谷歌在准确率上较之搜狗还是有很大的差距:在最后一项长句首选率评测中,搜狗当仁不让、再夺第一,但同时也应该看到在此项评测中,三大主流输入法的差距较小,长句首选率的提高仍然是未来各大输入法亟须改进的主要领域之一。

猜你喜欢
词库短句长句
一“吃”多用
短句—副词+谓语
短句—谓语+宾语
短句(主语+谓语)
科技英语长句的理解与翻译
输入法词库乾坤大挪移
初探《计算机专业英语》教学
将用户词库快速导入搜狗五笔词库
长句变短句方法例谈