文献をwebで拾う
昨日の晩から今朝早くにかけて、断続的に何をやっていたかと言えば
『外台秘要方』をwebのデータベースから拾う作業
だった。
時間が掛かった理由は、40巻の『外台秘要方』を処方ごとに新たにページを立てているデータベースだったから。一括ダウンロードができないので、ちまちまとurlを手で入れながら1200ページ近い分を落とした。この『外台秘要方』は、出来がいいので、それだけ時間を掛ける甲斐があったというモノだ。
最初は、どういうurlの番号付けになっているか分からなかったんだけど、別ルートで、近接しているページを拾い、urlを比較して、urlとデータベース番号の違いを解読した。解読した、と言っても、そんなに大したことではなかった。ま、作ってる方も文系だろうし、あまり難しい命名法を使うと、自滅するもんね。
ただ、1200ページもあると、入力する方がページ番号を打ち間違ったりするわけで、間違ったり、ずれたりしているのを拾うがちょっと面倒だったかな。
結局1ページだけ拾えないんだけど、urlがどうなってるんだろ。
別ルートで拾えばいいので、取りあえず放置。
最初にこのデータベースに気がついたのが午後5時くらいで、ほぼ拾い上げたのが日付が変わるくらい。別な観点から補助的に拾ったのが夜中の2時くらいまで。
昔は『漢書』『史記』『文選』をEPSON 286-V STDで、手で入力してたんだから、そのことを考えると、これくらいの作業量なら、大したことはない。
| 固定リンク
コメント
目に気をつけてください
投稿: kazueasano | 2008-10-14 21:34