■これが読み日記?■
本日、夏風邪なのか、頭痛と眩暈に苦しむ。特に眩暈がヒドイ。
さて、「step by step」の31日付の日記の中で、筆者の日記が再び取り上げられ、コーパス講習会で、具体的に何をしたのかが気になっておられるようであります。昨日の更新時に気づいてはいたのですが、回答は今日になってしまいました。
まず、WordSmith には、以下のような機能があります。
1. Wordlist 2. Keywords 3. Concord 4. Splitter(ファイル分割) 5. Text Converter(テキスト処理) 6. Dual Text Aligner(2つのファイル中の文を並べて比較)
講習会で行ったのは、1〜3であります。1.「Wordlist」とは、まあそのまんまなんですけど、アルファベット順や頻度順で、あるテキストに関する単語リストを作成する機能です。単語の総数や、文の長さなどの数値も出ますが、あまり役に立ちそうにないです。一番気になってくるのは、やはり頻度であると思われます。
続いて、2.「Keywords」ですが、これは、あるテキストを基準として、別のテキストを比較し、その別のテキストを特徴付ける語や、キーワードを抽出するものです。例えば、政治ネタや経済ネタ、スポーツネタなどを引っくるめた大きなテキストを基準として、ある経済ネタのテキストと比較してみます。すると、finance だとか consumer といった経済ネタ特有の単語が抽出されるというワケです。
最後は、メインイベントであった 3.「Concord」。またそのままですけど、KWIC(Key Word In Context)コンコーダンスを作成するものです。作成してからは、コロケーション機能(語と語のつながりを見る)・クラスター機能(単語の連鎖をみる)・プロット機能(単語の出現位置を見る)を利用し、分析を試みるわけであります。ここが、一番オモロイでしょうね。というか、コーパスを扱う上での必須作業なんですが。
とまあ、たった二日間で、こんなことをやりました。作業結果として、以下の参考 URL に挙げたスクリーンショットを見ていただければ良いかと思います。付け加えることとしては、WordSmith の試用版は、機能が限定されるということです。検索語も10か20ぐらいまでしか表示しれくれません。一方で、同じコンコーダンスソフトである TXTANA の試用版であれば、期間が限定されてしまうんですが、フルで機能を試すことができます。ちなみに、筆者は専ら TXTANA を使ってます。
では、ご無理なさらず、ご自愛下さいませ。
■参考URL ・WordSmithのスクリーンショット(Mike Scott's Web 内) http://www.lexically.net/wordsmith/version3/screenshots/index.htm ・コーパス言語学(徳島大学総合科学部 井上研究室より) http://lexis.ias.tokushima-u.ac.jp/corpus_ling/menu.html ・Lago Homepage(TXTANAのダウンロード・スクリーンショット) http://www.biwa.ne.jp/~aka-san/
|