«前の日記(2004-05-17) 最新 次の日記(2004-05-19)» 編集

Matzにっき


2004-05-18 [長年日記]

_ [OSS]メールオーガナイザー

〆切が終わったので、なにかまとまったことをはじめようと決心する。 ここ10年、Rubyの世話ばかりしていたので、 「なにか新しいことをはじめる力」は確実に鈍ったような気がする。 1日程度で片づく仕事に関する能力は向上しているように思うんだけどな。

新しいことをはじめるためには、何日も集中を続ける必要があるんだけど、 それだけの集中力を維持できない。歳とったかな。

で、まずはメールオーガナイザーのために下調べ。 先日来、ごみ以外のメールを削除していないので、だんだん今までのソフトウェアでは切迫してきたのだ。

いろいろ調査を行うが、自分が物を知らないのにあきれる。 そうか、検索というのはこうやって行うのか。とか、特徴的単語の抽出方法とか。

できれば車輪の再発明は避けたいので、 既存のものも調べる。

基本的には、以下のような条件を満たす全文検索エンジンがあれば良い。

  1. インクリメンタルにインデックスを追加できる。
  2. メールの削除に対応できる(できれば)
  3. TF・IDF法などで特徴的単語が抽出できる(類似メール検索のため)
  4. 日本語に対応している

候補に挙がったのはGETANamazuMairixなどだ。

機能が一番そろっているのはGETAだ。 インデックスさえ用意できれば、ほしい機能は全てある。 ただ、これはインクリメンタルなインデックス操作はできないらしい。 毎回巨大なfreqファイルを作るのは避けたいなあ。

些細だが、OSD準拠でないライセンスもできればなんとかしてほしい(単なる要望)。

4. あなたは、本ソフトウェアを原子力関連、航空管制その他の交通関連、医療、救急関連、警備関連その他人の生命、身体、財産等に重大な損害が発生する危険を有するシステムに使用してはいけません。

付則1. 本ソフトウェアを利用して、インターネット上での交換検索サービス等を実施する場合には、その入り口となるようなページなど、通常利用者の目に触れると考えられる位置に下のロゴマークを掲示し、「IPAが開発した本ソフトウェアを利用している」旨を明記しなければなりません。

類似のライセンスだったGalatea Projectも ライセンス変更したことだし。

Mairixも面白そうだが、日本語には対応していないし、 対応させるのも簡単ではなさそうだ。

となると、Namazuベースか。特徴的単語の抽出とかできたかな。 ファイル削除に対応していないのは暇な時にインデックスを作り直すことで対応できるか。

できれば自前で作るというのは(楽しそうではあるけど)やめたほうがよさそうだ。

本日のツッコミ(全15件) [ツッコミを入れる]
_ かずひこ (2004-05-20 16:42)

http://estraier.sourceforge.net/spex-ja.html<br>はどうでしょう? TF-IDF 法もサポートしているみたい。Ruby バインディングはないみたいだけど。

_ MMX (2004-05-20 17:26)

Windowsサーバ開発担当シニアバイスプレジデントのBob MugliaがCNET News.comに対して語ったところでは、Gatesが次期Windowsの大型リリース「Longhorn」の「聖杯」と呼んだ高度な検索機能は、 2009年にならないと完成しないという。<br>http://japan.cnet.com/news/ent/story/0,2000047623,20066483,00.htm<br><br>メールの整理は要求をまとめられない、整理の方法は人により様々。<br>野口悠紀雄・超整理法は分類せずに、ヒストリGrep指向です。<br><br>Windowsの全文検索はシステムが作ったインデックスを使うタイプが<br>あります。(ヒマなデスクトップならこの運用ができます)<br>http://www.forest.impress.co.jp/article/2003/07/15/satori.html<br><br>自然言語処理は永久不滅のテーマですから、ポチポチ前進でいいでしょう。

_ 通りすがり (2004-05-21 02:50)

そういやLuceneのRuby portってまだないのかな。他の言語はひと通り出揃っているのですが。

_ やまさき (2004-06-11 02:10)

NikkeiBP IT Proに「米国空軍式 電子メール活用法」という記事があります.MS Outlookを使ったメール術ということですが,Outlookのフラグのつけ方から,「部下と交流を避けるために電子メールを使わないこと」まで,メーラ術じゃなくメール術という感じで面白いです.<br>メールオーガナイザ仕様策定の参考になるかもしれません.<br><br><br>http://itpro.nikkeibp.co.jp/free/NT/WinColumn/20040604/2/

_ MMX (2004-06-11 10:33)

WinFS を先取りするような、ハードディスク・オルガナイザー<br>のほうがメール単体のものより開発の流行では? デジタル家電の<br>コンテンツ検索とかもホットです。<br>米Ask Jeeves、デスクトップ検索技術ベンチャーの米Tukarooを買収 <br>http://internet.watch.impress.co.jp/cda/news/2004/06/10/3437.html <br>常駐のインデクサーがファイルの変化を監視しているタイプ。<br>MS-Office関連の文書ならWimdowsには入っていますが。

_ MMX (2004-06-11 12:14)

ニュース 2004/06/10 19:22 更新<br>[WSJ] PC内の「迷子ファイル」を探すソフト、注目高まる<br>http://www.itmedia.co.jp/news/articles/0406/10/news071.html

_ やまさき (2004-06-12 00:06)

Bloomba - http://www.statalabs.com/<br>Chika Watanabeさんの日記 - http://blog.neoteny.com/chika/archives/006905.html<br>「メールがやってくると、逐次index化」、「検索結果をViewと呼ばれるカタマリで見せてくれる。」だそうです。

_ MMX (2004-06-16 10:15)

用語: search-based email application<br> がニュースに拾われるようになって来ました。 http://pcweb.mycom.co.jp/news/2004/06/15/011.html

_ MMX (2004-07-01 00:07)

Appleの新しい検索エンジン Spotlight<br>http://internet.watch.impress.co.jp/www/column/kensaku/040630.htm

_ MMX (2004-07-02 10:30)

デスクトップ検索(Sun Java)<br>「対処しなくてはならない大量の情報→ 高度な検索機能の開発」<br>http://japan.cnet.com/news/ent/story/0,2000047623,20069591,00.htm

_ MMX (2004-07-02 11:27)

検索できないコンテンツは存在していない?<br>http://blog.japan.cnet.com/umeda/archives/001355.html

_ MMX (2004-07-18 12:09)

MSN、検索会社Lookout Softwareを買収<br>http://www.itmedia.co.jp/news/articles/0407/17/news008.html<br>金で時間を買える

_ MMX (2004-08-27 15:13)

Gmailの余震はまだ続いている?<br>KDE、次期バージョンにグーグルふうの検索機能搭載を計画 <br>http://japan.cnet.com/news/ent/story/0,2000047623,20071123,00.htm<br>進化するLinux用ファイルシステム、Reiser4は数倍の高速化<br>http://www.itmedia.co.jp/enterprise/articles/0408/26/news039.html

_ MMX (2004-10-12 16:16)

大富豪に似合う大風呂敷(3ページ、新用語もある)<br>http://japan.cnet.com/interview/story/0,2000050154,20075038,00.htm

_ MMX (2004-10-15 11:52)

グーグル、デスクトップ検索に一番乗り--Google Desktop Searchを公開<br>http://japan.cnet.com/news/media/story/0,2000047715,20075166,00.htm

お名前:
E-mail:
コメント:
[]

«前の日記(2004-05-17) 最新 次の日記(2004-05-19)» 編集

track feed Matzにっき Creative Commons License This work is licensed under a Creative Commons License.