自制语料库(第4讲)制作简易语料库

2011-07-13 03:18日本关西学院大学
东北亚外语研究 2011年11期
关键词:文件名文件夹语料

日本关西学院大学 于 康

4.1 制作“语料库”时需要使用的软件

前几讲我们介绍了制作语料库时所需要的一些前期操作程序,这一讲主要介绍如何制作自己专用的语料库。制作语料库时需要使用的软件叫作「ひまわり」,电脑上显示的文件名为Himawari_1_3b05(版本会不断升级,升级后的文件名会有所变动)。不过,「ひまわり」只是一个具有检索功能的软件,其本身不带可供检索的语料。语料需要自己收集,收集到的语料放进检索软件「ひまわり」后就可以进行检索了。

第3讲我们介绍了收集到的语料是不能直接放进「ひまわり」中去的,因为,「ひまわり」不能识别文本格式的文件,需要用「えだまめ」将收集到的语料进行一次文件格式的转换。用「えだまめ」转换完毕的文件会直接保存在电脑的Desktop上,保存在Desktop上的文件有两个,一个是「Corpora」,一个是「config_日本語書き言葉コーパス(或读者自己命名的文件名)」。有了这两个文件我们就可以制作语料库了。

4.2 语料库制作的程序

①点击文件夹中的Himawari_1_3b05。出现下图。

②将保存在Desktop上的「Corpora」文件拖放至Himawari_1_3b05中的空白处,出现问话框,点击「はい」,这时Desktop上的「Corpora」便会移至Himawari_1_3b05中去。

③ 将保存在Desktop上的「config_日本語書き言葉コーパス」拖放至Himawari_1_3b05中的空白处。如果界面上出现「config_日本語書き言葉コーパス(或读者自己命名的文件名)」文件名,表示操作正常结束。

④点击Himawari,启动检索软件。

⑤点击「実行」,出现检索用图框。

⑥点击「ツール」,选择最后一行的「インデックス生成」。

⑦出现问话框,点击「はい」。

⑧如果操作正常结束的话,会出现正常结束的通知,点击「了解」结束操作。有的时候该操作要花费一些时间,需要耐心等待。所需时间的长短将根据语料量的大小来决定。

⑨至此为止,取名为『日本語書き言葉コーパス』的语料库便制作完毕,最后一步就是如何检索了。

4.3 小结

制作语料库,最重要的是切勿忘记将两个文件放进检索软件Himawari_1_3b05后,需要进行一次「インデックス」,这是保证语料库正常使用的一个非常关键的步骤。

有的时候,实行「インデックス」之后会出现错误。此时不用慌张,请按照下列程序,删除两个文件,回到原来的状态,重复一遍保存和进行「インデックス」的程序,通常就可以解决问题了。

① 在Himawari_1_3b05中找到「config_日本語書き言葉コーパス」这个文件,并删除它。

② 在Himawari_1_3b05中找到文件夹「Corpora」,并打开文件夹,找到文件夹中的「日本語書き言葉コーパス」这个文件,删除它。

③ 用「えだまめ」重新进行文件的格式转换。当电脑的Desktop上出现「Corpora」和「config_日本語書き言葉コーパス」这两个文件后,从本讲介绍的第一个步骤开始重新进行操作。

猜你喜欢
文件名文件夹语料
右键调用多重更名更方便
Excel轻松提取文件名
把我的秘密藏起来
摸清超标源头 大文件夹这样处理
调动右键 解决文件夹管理三大难题
基于语料调查的“连……都(也)……”出现的语义背景分析
挂在墙上的文件夹
华语电影作为真实语料在翻译教学中的应用
不容忽视的空文件夹
《苗防备览》中的湘西语料