« 福建省福州で「ドブ川の水製氷」もれなくアンモニウム塩入り | トップページ | 毎日新聞の英文記事、主婦および看護師を始めとする医療従事者の怒りを買う(その63)Kioskの新聞は「押し紙」だらけ「買い取り、返品不可」 »

2008-07-27

OCR環境を整備する

暑すぎて、寝付けない。昼間はもっと作業能率が落ちる。
頭が回らない時は、校勘でもするに限る。

今使っているLet's note CF-W2は、年末に修理に出してHDDを換装したので、細かいところが整備できてない。それまで使っていた環境がゼロになったのだが、ユーティリティとか、ネット周りとかに手を入れてなかった。気がついたら、シェアウェアの秀丸が入ってないのだが、登録キーもHDD換装前の不調で飛ばしてしまった。
しょうがないので、フリーのエディタを落として、WinReaderPro9で『医心方』活字本を読ませた後、校正してみたのだが、キーアサインが手に馴染まないので、どうしても使い勝手が悪い。おまけにATOKが使い込んでない状態なので、変換スピードがもどかしい。
そこで、以前と同じように、共有ファイルにOCRで読み込んだテクストを落として、Macで見られるように設定した。
MacではJedit Xで作業をしている。マルチファイルの検索や置換が可能なので、仕事が早い。レ点など余計なものをさっさと削るのには適している。それに、unicodeを通すので、『医心方』みたいな変な漢字だらけのテクストをいじるのは楽だ。

いまOCRで読ませている『医心方』活字本は、テクストの出来が余り良くないので、どのみち、手元にある安政刊本(臺灣リプリント)で軽く直してから、半井家本・仁和寺本などできっちり校勘する予定。対校のために、見なきゃいけない他の宋版もあり、そこら辺の精度をどこまで上げるかが課題だ。
中国の医学書には、所謂「宋改」の問題がある。今手にできるテクストがどこまで遡れるかの壁が「宋改」なのだが、対校用の諸本が、宋改後のテクストだったりするので、難しい。リニアにいかないんだよね。
『医心方』のテクスト成立を探る上で、丹波康頼が何を見たかは、考えないといけないし。

ATOK用中国医学用語辞書は、東亜医学協会のサイトの以下から落とした。
ユニコード辞書(漢方用語)を使って論文作成を!!
Windows用にはATOK/MS-IME、Mac用にはATOK/ことえりの辞書が入っている。

今日はフジの27時間テレビをBGVにして、20頁ほど読み込ませた。校勘は2頁分。
 活字本をOCR読み取り→活字本で最初の校勘
まで。安政刊本や写本での校勘は、まず、たたき台の底本を作ってから。WinReaderPro9.0がびっくりするような漢字まで読んでくれていて、時々驚く。どういう推定エンジン使ってるんだろうな。
字の落ちているところや、読みにくい部分は、とりあえずは学苑出版社の『医心方校釈』で補う。

|

« 福建省福州で「ドブ川の水製氷」もれなくアンモニウム塩入り | トップページ | 毎日新聞の英文記事、主婦および看護師を始めとする医療従事者の怒りを買う(その63)Kioskの新聞は「押し紙」だらけ「買い取り、返品不可」 »

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/109312/41980464

この記事へのトラックバック一覧です: OCR環境を整備する:

« 福建省福州で「ドブ川の水製氷」もれなくアンモニウム塩入り | トップページ | 毎日新聞の英文記事、主婦および看護師を始めとする医療従事者の怒りを買う(その63)Kioskの新聞は「押し紙」だらけ「買い取り、返品不可」 »