「AIは元号を決められるか」に挑む@Qiita
来年は改元がある。
新元号がどうなるか、日付に関わる業務がある各業界は、1日でも早く知りたいだろうけど、なかなかそうはいかない。
で。
元号をAIに決めさせる
という
斬新な発想
で、実際に計算して、
第一候補 孝天
第二候補 元清
をはじき出したのが、@youwhtさんのQiita6/3の記事
平成の次の元号を、AIだけで決めさせる物語
である。凄い力作。
アプローチの中心は
読みやすい二字の漢字で、元号に良く使われる文字を選んで組み合わせる
という辺り。あくまで
元号は「単なる二字の漢字の組み合わせ」として処理
している。
というわけで、この計算では、元号選出にあたって
一番重要な条件
である
中国の古典に出典がある
が無視されているのと、これも重要な原則である
既に他の国で使われている元号/年号を除外する
が抜けているので、あくまで
AIでの近似計算
としてお読み下さい。
@youwhtさんはAI研究者の立場として
各学者先生やエライ人のいろいろな調整や思惑
と
出典があるのがおかしい
と思ってるみたいなんだけど、
平安中期以降、日本の元号は中国の古典からの「出典」付
なので、ここを無視すると
年号としては成立しない
ということになる。
単なる二字の漢字の組み合わせではない
のだ。
中国古典に出典がある「佳字」を組み合わせる
のが、一番のポイント。だから難しいのよね。
理系の方のために説明すると
中国古典に出典がある「佳字」
とは
めでたい文意の短い文脈中にその2つの文字が現れる
ということ。具体的には
概ね4字〜8字前後の、意味が区切れている文字列の中に2つの文字が含まれる
という条件で、人間が探し出すのが、これまでの元号候補の選出方法である。従って
元号候補を選出する
には
中国古典に知悉していて、漢文の読みのエキスパートである必要
がある。
おまけ。
中国語の形態素解析は結構大変。古典で人名切り出しを試みている論文はこちら。
安岡孝一; クリスティアン ウィッテルン; 守岡知彦; 池田巧; 山崎直樹; 二階堂善弘; 鈴木慎吾; 師茂樹: 古典中国語(漢文)の形態素解析とその応用, 情報処理学会論文誌 (2018), 59(2): 323-331(PDF)
| 固定リンク
コメント