« 会場音声のみで見る全日本フィギュア選手権@BSフジ | トップページ | 西田敏行畏るべし@大河ドラマ »

2013-01-07

国は日本を代表する文学作品(本当は全集まで)を責任をもって電子化して世界に公開せよ 青空文庫など個人が入力した電子化テクストについて

TLやFacebookで
 青空文庫のテクストが「不正確」だ
という指摘と、それに対しての反論とが飛び交っている。

で。
普段写本や版本等から翻字している立場から言うと
 他人の翻字は信用するな
でおしまい。
更に言えば
 他人が電子化してくれたテクストは感謝しつつ使用すべき
であって、
 正確を期すために、信用すべき底本と参照するのは自分の仕事
である。

わたしは87年に初めてパソコン(98互換機のEPSON 286-V STD)を使い始めた時から
 OCRによる電子化テクスト
をその使用目的としていた。残念ながら87年当時は、いまのように個人が気軽に
 自炊
できるようなスペックの機器はなく、まだOCR入力は自前の装置ではできなかったが、HAL研のハンディスキャナで、冷僻字を画像入力したりしつつ、遠からず、そうなると確信していた。それから8年後の95年以降は、Mac Reader Proを使って、博論のために、さまざまな文献をOCRで読み込み、以前なら
 すべて個人が手入力していた手間暇を大幅に軽減
した。ちなみにその頃は、現代日本語はそこそこの精度で読めたのだが、漢文や古文は、かなり大変だったので、辞書を鍛えて、読めるようにした。

青空文庫が生まれたのは、94年。
青空文庫のしくみ
わたしがせっせとOCR入力していたのは、ちょうど
 個人が電子化テクストをボランティアで入力しようとしてた時期
である。この前後には、全国のあちこちで
 研究等のために個人的に入力した電子化テクストが公開
されていた。わたしも、92年頃に個人的に『周易』の繋辞伝等を手で入力して、FDで配付したことがある。ただ、まだ
 入力できない文字が多数
あって、電子化テクストには制限があった。もちろん、それは今もある制限だが、現在は90年代の状況に比べれば、格段に文字入力の制限は減っている。

漢文というか
 中国の古典語文献
の話をするならば、
 圧倒的潜在的人力を誇る中国および香港・台湾
では、
 古典文献の電子化
が、物凄い勢いで進んでいる。四書五経はもちろんのこと、先秦から唐代までの文献の主なものはほとんど電子化されているといってもいいんじゃないか。
印刷術の発達する宋代以降は、出版点数が増えるけれども、それでもかなりの書物が電子化されている。なんと言っても
 『四庫全書』が電子化されて販売されている
のである。高価なデータベースなのだが、東洋学の学部のある大学図書館なら、すくなくとも内部で利用できるんじゃないのかな。今中国・台湾・香港では、大規模な叢書類が次々と電子化され、データベースとして販売されている。
それ以外にも、ボランティアベースで入力された中国古典文献とその研究の電子化テクストは、google検索すれば、webに山のように落ちている。
その上、日本では問題になった
 自炊サービス完備のコピー屋
というのが、中国にはあちこちに存在して、書物を持って行けば、PDF等にして返してくれる。
というわけで
 電子化テクストの量において、中国は圧倒的
だ。
もちろん
 著作権がとっくに切れていて、海外の研究者が使用したがる古典の電子化テクスト
については、有名な文献であれば取捨選択に困るほど存在する。そんなに有名ではない文献でもWikisourceに上がっていたりして、驚く。

わたしは、
 電子化テクストは、自分で使うときは、必ず底本を横に置いて読む
ように指導しているし、自分もそうする。最初に言ったように
 他人の翻字は信用できない
からだ。そしてこの
 他人の翻字は信用できないという立場

 文献学の初歩
だ。

写本で伝わった文献が、印刷される。その時、何種類かの写本をもとにして本文を校訂するのだが、文字の異なる
 異本(variant)
の情報はどこかに付記するのがルールだ。
その
 variant
に初めて触れたのは、小学生のころ、宮沢賢治全集を読んだときだった。宮沢賢治は、何度も原稿に手を入れ、そのたびに作品が成長していく作家の代表格といっていいかと思うが、小学5年の時に読んだ宮沢賢治全集は、小学生にとっては、未知のダンジョンに満ちていた。
『銀河鉄道の夜』を読みたいだけだった小学生には
 本文は一つじゃない
というのが、
 めんどくさい
のだったが、その異本というものがいかに大切かは、それから10年後に印度学の授業を通して、身に浸みることになった。
卒論では、もっぱらパーリ語の律蔵を始めとする仏典の原典を読んでいたが、PTSのテクストでは脚注にvariantが示される。
 パーリ文献ではvariantをいかに読みこなすことが必要か
というのは、その時痛感した。ちなみに、『南伝大蔵経』はvariantを重視していない傾向があるので、しんどい訳が散見される。

テクストは一つではない。
それだけ覚えていれば、別に
 他人の入力した電子化テクストを読む
のは差し支えない。ただし、もし学術論文等に用いるつもりなら
 きちんとした底本を用意して、自分で本文を校正して使用し、電子化してくれた人に謝辞をつけること
が、礼儀だろう。

で、
 私的活動の青空文庫が問題になる
のは
 国がきちんとした電子化テクストを作らない
からだ。少なくとも
 文学史に載ってるような作品は国が責任を持って電子化テクストを作れ
といいたい。
 電子化テクストは日本文化が海外で理解されるための基礎
だ。それをこれまで青空文庫のようなボランティアベースの活動が支えていたこと自体
 日本の文化宣伝の「大きな落ち度」
だと、わたしは思う。
 漱石全集も鴎外全集も全文検索できない状態

 海外の研究者から見れば「日本研究の閉鎖性・後進性」を表す
もの以外の何物でもない。

Cool Japanもいいけど、
 基底となる「日本文化」の紹介
に、目を注いで欲しいモノだ。

具体的には
 本文校訂もしくは底本決定には文学の研究者が当たる(日本文学だけでなく、比較文学や中国文学等隣接分野の研究者が参加することが望ましい)
 本文入力には、ある程度の専門知識をもつ人材を投入する(PDの仕事かなあ。。。最近の博論のレベルを考えると)
 variantはリンク等ですぐに見られるようにしておく(東大のSATほど重くなくていいので、インターネット回線の速度の遅い国でも利用できる軽めのシステムで)
ってあたりか。

古典に関しては、国文研の岩波古典大系データベースを流用するのもありかもしれないけど、海外の研究者は、注釈の方を読みたいだろうなあ。

|

« 会場音声のみで見る全日本フィギュア選手権@BSフジ | トップページ | 西田敏行畏るべし@大河ドラマ »

コメント

今朝のNHKのニュースで、日本に、4世紀の中国の書家、王羲之の双鉤填墨による王羲之の模本についての報道がありましたね。
http://www3.nhk.or.jp/news/html/20130108/k10014646631000.html

昔は、フィルムに撮影するしかなかった時代ですから、さまざまなものを電子化して、共有できたらすばらしいと思います。

http://book.asahi.com/booknews/update/2013010100001.html
あっという間に本を電子化 大日本印刷と東大が共同開発

高速で、本を痛めずに電子化(PDF化)されたら、データも残らず処分されることが少しでも減るのではないかと思います。

個人的には、35年以上の歴史のあるコミケの同人誌の電子化でしょうか。
アニメやマンガの発展とほぼ、同時に歩んできたコミケの膨大なデータは、書き手、読み手の年齢を考えると、所有者の死によって流動化する時代を迎えつつありますから。

投稿: 麻酔科医 | 2013-01-08 08:50

とりあえず、古い書籍を写真データ化する事業は始まっているようです。一部公開されています。
http://dl.ndl.go.jp/

そこから先ですよね...

投稿: att460 | 2013-01-08 19:29

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 国は日本を代表する文学作品(本当は全集まで)を責任をもって電子化して世界に公開せよ 青空文庫など個人が入力した電子化テクストについて:

« 会場音声のみで見る全日本フィギュア選手権@BSフジ | トップページ | 西田敏行畏るべし@大河ドラマ »