急に寒くなったせいか、昨日あたりから体調が悪く、寒気がしたり、鼻炎が悪化したりしたので自宅作業。
とはいえ、今は子供たちも冬休みなので、作業がはかどらない。 家族全員で引きこもり状態。 結局仕事もたいして進まないし。
これではいくらなんでもいかんだろうと、夜は温泉にでかける。 結構寒いのね。
で、仕事が進まないなりにRuby M17Nについて考えていたのだが、CHISEあたりをヒントに
という方針でなんとかなるのではないかと考える。 これだと、たとえば「文字=コードポイント」という仮定もないのでより広い範囲で対応できるだろう。 ステートフルなエンコーディングにはいずれにせよ対応できないけど(効率上の問題であきらめた方が良さそう)。
もっとも、これだと以前作ったもの(ruby_m17nブランチ)の実装はほとんど流用できないなあ。
課題は
だな。特に前者。 エンジンの自作はできれば避けたいけど、鬼車をフォークするってのもなあ。
This work is licensed under a Creative Commons License.
拡張ライブラリには何らかのエンコーディングを施した「文字列」を渡すことになりますよね。正規表現ライブラリもそれと同等の位置づけということにすれば齟齬なく扱えないでしょうか。ちょっとRubyとの「一体感」に欠けるかもしれませんが。
m17nのことについては、BSDのCitrus Projectの人たちにも聞いてみてはいかがでしょうか。
文字オブジェクトは導入するんでしょうか?<br>複数の文字列表現をサポートし文字列を code point の列とする場合、多分、文字オブジェクトがあった方が良いと思います。また、文字オブジェクトの列も使えるとうれしいかも。<br><br>それから、CHISE 的文字素性サポートが入るなら、師さんが Perl/CHISE で試作している CHISE-grep (正規表現で文字素性を利用する)機能が入ると非常にうれしいです。<br><br>あと、libchise 付きで build できるようになるとうれしいです。