【自制语料库】第2讲 收集和保存语料
2011-04-24日本关西学院大学
日本关西学院大学 于 康
2.1 收集和保存语料的条件
收集和保存语料需要一个软件、两道手续和一个绝对条件。软件指的是「秀丸」,两道手续指的是在电脑里建立文件夹和给需要保存的文件起名,绝对条件指的是文件必须以文本文件即以扩展名为“.txt”的格式保存。
2.2 建立文件夹
建立文件夹也就是建立保存语料的仓库,为了便于提取货物,需要在仓库里按货物的内容建立不同的货架。为了达到这个目的,首先必须在“我的文档”中建立一个文件夹,然后再在这个文件夹里根据需要建立各种小类的文件夹。比如,以制作「現代日本語書き言葉コーパス」为例,先在“我的文档”中建立新文件夹「現代日本語書き言葉コーパス」,然后在这个文件夹里再建立「現代小説」「社説」「国会議事録」「新聞記事」「週刊誌」等小类文件夹。这样就可以将下载和剪贴下来的各类文章分门别类地保存在专门的文件夹里。这里需要注意的是,制作语料库时,包括文件夹在内,所有的文件名都不能使用中国汉字,或用日语、或用英语、或用拼音,否则会因乱码而无法保证检索的顺利进行。
2.3 收集和保存语料
2.3.1 直接下载和保存
下面以下载和保存夏目漱石的小说『三四郎』为例来说明操作程序。先在「現代日本語書き言葉コーパス」文件夹里建立小类文件夹「夏目漱石」,然后进行以下操作:
①上网,在检索框中输入「青空文庫」,打开「青空文庫」网页,点击「公開中作家別」中的「な行」,找到「21.夏目漱石(公開中:102)」,下载「30.三四郎」。
下载步骤为:a.点击「30.三四郎」。b.点击「ファイルのダウンロード」中「テキストファイル(ルビあり)」后的「773_ruby_5968.zip」。c.保存文件。此为压缩文件,解压后将解压的文件直接拖放到「夏目漱石」文件夹中,此时文件夹中会出现两个文件,一个是解压后的文件「kokoro」,一个是压缩的文件「心」,删除压缩文件「心」。
②确认保存格式。当电脑中已装有「秀丸」时,下载的小说会自动保存为「秀丸」(.txt)的格式,只要点击文件名,「秀丸」就会自动启动并打开文件,而无需其他操作。此时保存的小说中,如「私は実に先生をこの雑沓(ざっとう)の間(あいだ)に見付け出したのである。」所示,汉字的读法以「ざっとう」的形式出现,在实际引用时,这个部分是多余的。如何一次性删除这些多余的信息,将在以后的高级篇中讨论。
2.3.2 信息的剪贴和保存
当网站不提供下载服务时,需要自己从网上剪贴所需的信息。下面以剪贴日文版yahoo的信息为例来说明剪贴和保存的程序。先在「現代日本語書き言葉コーパス」文件夹里建立小类文件夹「yahoo記事」,然后进行以下操作:
①上网,在日文版yahoo网页中选择所需的信息,复制该信息。
②启动「秀丸」。③将剪取的信息粘贴在「秀丸」中。④给文件取名并保存。
2.4 小结
保存文件时有两个非常重要的内容。一个是文件保存的格式,一个是如何给文件取名。文件名是显示例句信息来源的重要手段,因此,在保存文件时,需要充分考虑到如何给文件取名这个问题。