ta@NO DOUBT

はじめに
目次
メイルはこちら

初めての方は、投票者登録(無料)が必要です
マイ日記才人に登録
My Enpitu に追加
はてなアンテナに追加
/ /
以上のサイトにて、更新報告をしています


2002年08月05日(月)
■これが読み日記?■

 本日、夏風邪なのか、頭痛と眩暈に苦しむ。特に眩暈がヒドイ。


 さて、「step by step」の31日付の日記の中で、筆者の日記が再び取り上げられ、コーパス講習会で、具体的に何をしたのかが気になっておられるようであります。昨日の更新時に気づいてはいたのですが、回答は今日になってしまいました。


 まず、WordSmith には、以下のような機能があります。


  1. Wordlist
  2. Keywords
  3. Concord
  4. Splitter(ファイル分割)
  5. Text Converter(テキスト処理)
  6. Dual Text Aligner(2つのファイル中の文を並べて比較)


 講習会で行ったのは、1〜3であります。1.「Wordlist」とは、まあそのまんまなんですけど、アルファベット順や頻度順で、あるテキストに関する単語リストを作成する機能です。単語の総数や、文の長さなどの数値も出ますが、あまり役に立ちそうにないです。一番気になってくるのは、やはり頻度であると思われます。


 続いて、2.「Keywords」ですが、これは、あるテキストを基準として、別のテキストを比較し、その別のテキストを特徴付ける語や、キーワードを抽出するものです。例えば、政治ネタや経済ネタ、スポーツネタなどを引っくるめた大きなテキストを基準として、ある経済ネタのテキストと比較してみます。すると、finance だとか consumer といった経済ネタ特有の単語が抽出されるというワケです。


 最後は、メインイベントであった 3.「Concord」。またそのままですけど、KWIC(Key Word In Context)コンコーダンスを作成するものです。作成してからは、コロケーション機能(語と語のつながりを見る)・クラスター機能(単語の連鎖をみる)・プロット機能(単語の出現位置を見る)を利用し、分析を試みるわけであります。ここが、一番オモロイでしょうね。というか、コーパスを扱う上での必須作業なんですが。


 とまあ、たった二日間で、こんなことをやりました。作業結果として、以下の参考 URL に挙げたスクリーンショットを見ていただければ良いかと思います。付け加えることとしては、WordSmith の試用版は、機能が限定されるということです。検索語も10か20ぐらいまでしか表示しれくれません。一方で、同じコンコーダンスソフトである TXTANA の試用版であれば、期間が限定されてしまうんですが、フルで機能を試すことができます。ちなみに、筆者は専ら TXTANA を使ってます。






では、ご無理なさらず、ご自愛下さいませ。







■参考URL
 ・WordSmithのスクリーンショット(Mike Scott's Web 内)
   http://www.lexically.net/wordsmith/version3/screenshots/index.htm
 ・コーパス言語学(徳島大学総合科学部 井上研究室より)
   http://lexis.ias.tokushima-u.ac.jp/corpus_ling/menu.html
 ・Lago Homepage(TXTANAのダウンロード・スクリーンショット)
   http://www.biwa.ne.jp/~aka-san/


  最新