« 中島長文校・伊藤令子補正『魯迅『古小説鈎沈』校本』(全780ページ、10.99 MB)のデータを公開@京都大学学術情報リポジトリ紅 | トップページ | 選挙前に安倍ちゃん擁護の保守系の意見を書いてお小遣いを稼ごう@9/16締切済→クラウドワークスが掲載中断@9/21 »

2017-09-21

国立国語研究所が提供する日本語歴史コーパスに『万葉集』約10万語分の「奈良時代編Ⅰ万葉集」が加わる@9/29

これは画期的! 今から公開が待ち遠しい。
先ほど、国立国語研究所から来た告知メール。


このたび、国立国語研究所では『日本語歴史コーパス』(CHJ)の一部として、下記のデータ(ver.2017.9)をコーパス検索アプリケーション「中納言」上で公開します。

  「奈良時代編Ⅰ万葉集」(短単位データ 1.0 / 長単位データ 1.0)
  http://pj.ninjal.ac.jp/corpus_center/chj/nara.html

奈良時代編の第一弾として、日本最古の和歌集である『万葉集』約10万語分が加わりました。
あわせて、今回より、校訂本文と原文(万葉仮名)の両方の前後文脈(KWIC)が確認できるようになっています。ぜひ、お試しください。

なお、公開時期は、2017年9月29日18時以降 を予定しています。
この間、一時的にCHJ中納言が利用できなくなります。

今後ともどうぞよろしくお願いいたします。

何がうれしいと言って
 校訂本文原文(万葉仮名)の両方の前後文脈(KWIC)が確認できる
点だ。

従来の文学研究では
 比較的恣意的な語彙選択に基づく研究
が許されていた。簡単に言うと
 研究者が「気になった文字列」だけを抜き出して、論じる
というのが
 文学研究の論文
として成立していた。例えば
 『万葉集』に見える〜という語の用法について
なんて題名の論文がその類だ。

いまや
 コーパスがそうした研究の「不備」や「思い込み」を正す
時代だ。同じことは
 思想史や文学史
にも起きている。
 思想史や文学史を「編集」する側の好み
ではなく、原典資料の電子化によって
 どのような思想や文学が存在したか
を示せるようになってきている。

こうした状況下では、もちろん
 データベースを駆使する能力
は前提になるが、それ以上に
 文脈に沿って正確に読み込む能力
が必要だ。これまで電子化テクスト利用下の
 用例研究
が陥りがちだったのは、電子化の副産物とも言える
 大量の用例
を前にした読み手が
 個々の用例の緻密な読みを放棄
して持つに至る
 同じ文字列であれば一意に定まるといった「誤解」
で、
 きちんと読めば意味が異なっているのが理解出来る「同じ文字列」を同列に論じる瑕疵
が、少なからぬ論文で見られる。特に
 比較文学・比較思想の分野
では
 当該言語の習熟度の違い
によって、
 本来あり得ない「誤読」が論文の主眼になる
ことすらあった。例えば、日中で意味の異なる「鬼」などがそうだ。

こうした「誤解」を撃破するのが、コーパスを用いた研究だろう。
今後の進展を期待したい。

|

« 中島長文校・伊藤令子補正『魯迅『古小説鈎沈』校本』(全780ページ、10.99 MB)のデータを公開@京都大学学術情報リポジトリ紅 | トップページ | 選挙前に安倍ちゃん擁護の保守系の意見を書いてお小遣いを稼ごう@9/16締切済→クラウドワークスが掲載中断@9/21 »

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/109312/65818627

この記事へのトラックバック一覧です: 国立国語研究所が提供する日本語歴史コーパスに『万葉集』約10万語分の「奈良時代編Ⅰ万葉集」が加わる@9/29:

« 中島長文校・伊藤令子補正『魯迅『古小説鈎沈』校本』(全780ページ、10.99 MB)のデータを公開@京都大学学術情報リポジトリ紅 | トップページ | 選挙前に安倍ちゃん擁護の保守系の意見を書いてお小遣いを稼ごう@9/16締切済→クラウドワークスが掲載中断@9/21 »