ふいんきり〜だ〜は、任意の日本語文書の内容を解析して、 2ちゃんねる(+まちBBS)でいうとどこの板のふいんき(←なぜか変換できない)に似ているかを教えてくれるプログラムです。文書のトピックの判定、未訪問URLの内容把握、知らない板の発掘などにどうぞ。 現在、この機能を真面目ツールとしてウェブブラウジング中に使えるように Firefox の機能拡張へと発展させました。(作者の webサイト入り口 / blog / 大所帯私設応援団)
● 基本的に長い文章ほど精度は上がります。短いとノイズが効いてきます。● ウェブサービスとして API 公開しました。開発者向け。振り分けに! タグ付けに!
● 類似度スコアの目安として1000以上が大いに類似、500がちょっと似てるくらい。
● 07/18/2007、解析結果を保存してあとから見られるようになりました(例)。
● 解析から1日以内に閲覧のなかったログは削除します。(置き場所に限りがあるんで……)
● 07/19/2007、アルゴリズム微調整。ノイズだいぶ減りました。
● 日本語非ネイティブな方の日本語文書収集を支援するため、英語版を作ろうと画策中。
● おまけリンク : 「←なぜか変換できない」初出スレについての諸説(はてな人力検索より)。
解析中です
webmaster : madin[at]madin.jp
本拠地「硝子の円錐」
blog「光の円錐」
「1024人応援団」