OCRソフトWinReaderPro v.9.0エライ! 『雲笈七籤』が楽に入る
12月末締切の論文を書くために、
『雲笈七籤』をWinReaderPro v.9.0でOCR認識
させたら、わりにまともだった。手で入れるよりは遙かにマシ。道教典籍なんて変態な漢字ばかりの中国語文献でも、結構認識している。ま、学習させないでそのまま入れてるけどね。
入れたのは
道教典籍選刊『雲笈七籤』中華書局
だ。印刷が綺麗なので認識しやすいというのもあるだろうけどな。
WinReaderProは、今はバージョンが上がってるはずだけど、9.0でも十分使える。
ちなみに
吉川忠夫編『中国古道教史研究』同朋舍
に収録されている論文も、バリバリOCR入力出来てしまった。エライ!よくあんな
絶対に普通の日本語では使わない特殊な文字列
を、結構いい認識率で拾えるものだ。もちろん、手直しは必要だけど、
直接手打ち
する悪夢を回避できて嬉しい。大体、道教とか東洋医学とか仏教とか日本古代史とかの論文を書くときに、何がイヤかって
テクニカルタームの手打ち
がイヤ。ある程度、単語登録はしておくんだけど、わたしみたいに、いろんな範囲の文献を使う人間にとっては、
単語登録するのもかったるい
のである。文献によって、使う漢字とか違うしな。
今回の論文は、他に日本の史書なども使うから、OCR大活躍だ。ま、電子化されてるテクストは出来るだけ拾って使うってことで、労力を軽減しないとな〜。
電子化で何が良くなったかっていえば、
切り貼りの恐怖から逃れられるようになった
ことだろう。糊と鋏が必須だった時代に、こんな道教・仏教・史書など多岐にわたる文献から引用しまくる論文を書いていたら、ちょっと訂正しようとしたときに、絶対発狂していただろう。今なら一発コピーアンドペーストで済む。
システム構成は
Let'note CF-W2+CanoScan LiDE80
で、認識後の文字訂正は、ネットワーク上で共有しているLet's noteのファイルをPowerMacG5で開き、TextEditで処理している。いまんところ、日本語内で文字コードは抑えてあるけど、文字抜けのない論文を書くために、GBから日本語の漢字表にない文字を拾って埋める予定。最後に正字で縦書き出力が求められてるけど、たぶん、GBはWord通るだろう。横書きでイイなら、そのままTextEditかJeditで印刷して出すんだけどな。
しかし、今回の論文の最初のアイデアを書いたドキュメントの作成日をみたら、去年の8月じゃん。一体、今まで何して怠けてたんだか。他にアイデアを書いて、資料を集めた論文のファイルが10個以上あるのは、単なる怠け者というしかあるまい。「未執筆」論文ファイルの数を数えると、とっても恐くなるのでやめた。たぶん、単行本三冊分はあると思う。
| 固定リンク
« 忍び寄る鳥インフルエンザ 韓国中部、ソウル近郊の港湾都市・平沢でも鳥インフルエンザ発生か 日本政府は韓国産鶏肉の一時輸入停止と韓国からの帰国者の靴底消毒などを指示 | トップページ | 忍び寄る鳥インフルエンザ 韓国でのH5N1型鳥インフルエンザ発生に伴い、鶏肉・卵の輸入禁止・空港での靴底の消毒開始 »
コメント