ふいんきり〜だ〜は、任意の日本語文書の内容を解析して、 2ちゃんねる(+まちBBS)でいうとどこの板のふいんき(←なぜか変換できない)に似ているかを教えてくれるプログラムです。文書のトピックの判定、未訪問URLの内容把握、知らない板の発掘などにどうぞ。 現在、この機能を真面目ツールとしてウェブブラウジング中に使えるように Firefox の機能拡張へと発展させました。(作者の webサイト入り口 / blog / 私設応援団)
● 基本的に長い文章ほど精度は上がります。短いとノイズが効いてきます。● ウェブサービスとして API 公開しました。開発者向け。振り分けに! タグ付けに!
● 類似度スコアの目安として1000以上が大いに類似、500がちょっと似てるくらい。
● 07/18/2007、解析結果を保存してあとから見られるようになりました(例)。
● 07/19/2007、アルゴリズム微調整。ノイズだいぶ減りました。
● 日本語非ネイティブな方の日本語文書収集を支援するため、英語版を作ろうと画策中。
● おまけリンク : 「←なぜか変換できない」初出スレについての諸説(はてな人力検索より)。
ふいんきり〜だ〜のつかいかた
分析したい文書を選んでください。方法は三通り。
- 手元にあるファイルをアップロード (テキスト以外は受け付けません。大きすぎると、途中まで読んだ結果を出します。)
- URLを指定 (あまり日本語部分のすくないものは解析できません。)
- テキスト入力 (テキストエリアにコピペするか、気合でタイピングするかで、直接文章を入力。)
類似度の高い順に、15個の板が出てきます。「まちBBS」も対象にしているので、もしかすると地域ネタが反映されるかもしれません。
# 左上の「気」の中身は wild card の意。
用途
雑談が多そうなイメージの「2ちゃんねる」、実は専門分野や興味の方向、ユーザの属性によって、ほどよい粒度に板が分かれています。その中でどれに似ているかを知ることで、文書の「トピック」がだいたい割り出せます。たとえば、カメラについての文書なら、真面目であろうとふざけていようと、写真関係の板と似た傾向になります。
初めて読むブログ、見慣れない用語がたくさん出てくる文書の傾向を知りたい時や、時間がないのでたくさんの文書から自分の興味に合ったものを拾い読みしたい時などにお使いください。
実はこの仕組み、色々応用できそうじゃないかと考えているところなので、「匿名掲示板」と「簡単なアルゴリズム」だけでどれだけのトピック抽出威力があるか、ちょっと体験していってください。
注意などなど
- あまりへんな使い方をすると「エラー(←なぜか解析できない)」が出るようになっています。
- あまり短い文章だと、どこに似ているか判定のしようがありません。
- URL 入力の場合、うまく取得できないこともあります。
- SNS など、ログインの必要なサイトの文書を読ませることはできません。必要な部分をテキストエリアにコピペして貼り付けてください。
- ブログの場合、サイドバーなどの内容が変な風に効く場合があります。全文入りの RSS を読ませるか、本文をテキストエリアにコピペすると吉。
しくみ
2ちゃんねるの各板(カテゴリのようなもの)のスレッド(タイトルのついた、一連の話題)のタイトルを形態素解析し、使われている言葉の傾向をデータベース化します。たとえば、写真関係の話題を扱うところだと「デジカメ」「レンズ」といったキーワードが高得点です。純粋に個数で数えると、「人」「総合」といったありふれた言葉が多すぎてしまうので、TF-IDF という計算方法で重み付けします。
つぎに、分析したい文章も同じように形態素解析します。これも重み付け。各形態素のスコアを、比較対象とする板においてその形態素の持っているスコアと掛け合わせます。この合計が大きいほど、使われている言葉の傾向が「似ている」ことになります。
イメージしづらいかもしれませんが、高次元のベクトル空間での内積計算をし て類似度を出している……という仕組みです。さらにくわしいことは「2ちゃんねる 板ぐらふ」 (Java Applet)に添えてあります。板同士の相関もこっちで見られます。
webmaster : madin[at]madin.jp
本拠地「硝子の円錐」
blog「光の円錐」
「1024人応援団」