ふいんきり〜だ〜
TOP | 高橋メソッド風GIFアニメジェネレータ | 1024人応援団3D | 1024人応援団 | 1kilofesta

ふいんきり〜だ〜は、任意の日本語文書の内容を解析して、 2ちゃんねる(+まちBBS)でいうとどこの板のふいんき(←なぜか変換できない)に似ているかを教えてくれるプログラムです。文書のトピックの判定、未訪問URLの内容把握、知らない板の発掘などにどうぞ。 現在、この機能を真面目ツールとしてウェブブラウジング中に使えるように Firefox の機能拡張へと発展させました。(作者の webサイト入り口 / blog / 私設応援団)

● 基本的に長い文章ほど精度は上がります。短いとノイズが効いてきます。
● ウェブサービスとして API 公開しました。開発者向け。振り分けに! タグ付けに!
● 類似度スコアの目安として1000以上が大いに類似、500がちょっと似てるくらい。
● 07/18/2007、解析結果を保存してあとから見られるようになりました()。
● 07/19/2007、アルゴリズム微調整。ノイズだいぶ減りました。
● 日本語非ネイティブな方の日本語文書収集を支援するため、英語版を作ろうと画策中。
● おまけリンク : 「←なぜか変換できない」初出スレについての諸説(はてな人力検索より)。


ふいんきり〜だ〜を応用するとどんなことができそうか? とかいう話です。

なぜ2ちゃんねるを選んだのか

実は私は日頃しょっちゅう2ちゃんねるを見ているわけでもありませんが、あれだけ広い話題をカバーし、しかも(好き嫌いはあるにせよ)「誰でも」参加できることを謳っているサイトは凄いと思っています。これは、日本のリアルな文化のスナップショットともいえます。 一昨年の秋に、半分冗談で「各板で使われている漢字ランキング」を作ってみて、ここを調べるのは面白いと確信。面白いのはこんな点。

話題の粒度・幅・軸
自然な粒度で話題が分かれています。ユーザの増減や要望に答えているらしく、カバーされていない分野は新設し(去年は「YouTube 板」ができました)、 肥大化すれば分割。また、大学の学部学科のような「学問分野」という分け方だけでなく、時事問題ならば古いニュース中心の板から速報性の高いものまで、速報の中でも国際ニュースから三面記事まで、といった具合に様々な軸で分けられています。
リアルタイム性
書き込みが即時反映されます。最新の用語などもどんどん反映されます。
参加者を選ばない
書籍ならば、プロの目に止まらないような情報は入ってきません。 テレビなら、マイナーすぎる話題は扱われません。参加に資格を要求しないない2ちゃんねるには、篩がかけられません。堅い専門用語から隠語までがあふれ返ります。
データ形式が良い
テーマが凝縮されたスレッドタイトルの一覧が軽く手早く取得できます。最近はブログなどが RSS を配信し、整理されたサイト情報一覧を扱い易くなりました。2ちゃんねるでは、それ以前から、統一されたフォーマットで板・スレッドの情報を取得しやすくしていました。それを処理する「専用ブラウザ」も開発されてきました。

初音ミク

発見した。かわいい。

実はこれは応用できそうなので

いろいろ画策中……。すでに開発されているものがあるかもしれないので慎重に。

外国語でコレがあると使えるんじゃないか
慣れない言語だと、ざっと目を通すだけでも大変です。せめて「翻訳サイ トで訳してでも読みたいような文書」を拾い出せたら嬉しいはずです。特に分類ツールに特化したデータベースを頑張って作らなくても、(ここで2ちゃんねるを使ったように)既存のソースで十分いける可能性があります。
それと同時に、こういうツールを非日本語圏に向けて作るべき?
日本語がまあまあできるビジネスパーソンや学生に喜ばれるかも。たくさんの文書から自分の守備範囲のものだけじっくり読むとか、訳してもらうとか。
デスクトップで普段から使えるツール
散逸した情報の検索に。2ちゃんねる以外、さまざまな文書群を分類のために利用できるといいかも。 類似度ベースの検索は色々開発されているので、ここは、手元にあるデータでみんなが簡単に使えるようなお手軽なのを。あと、類似度検索も便利だけれど、私が欲しいのは「この文書に似た文書を探す」ことができる道具より、「この文書と似た話題を扱った文書を探す」ことができる道具。 あまり似すぎたものばかり読むのも、場合によっては時間もったいないので。
ウェブブラウジングしながら
Firefox の機能拡張になりました。 閲覧中のページのテーマを推定してくれて便利。
なにかばかばかしいもの
技術をむだづかいして、ただのおもちゃをつくってみる。
ほかにも使い道がありそうなので
……ウェブサービス化です。2007年6月下旬、API公開しました。 解析結果を XML でお送りします。他のネタと組み合わせて、なにかおもしろいことができるかもしれません。

webmaster : madin[at]madin.jp
本拠地「硝子の円錐」
blog「光の円錐」
「1024人応援団」