機械的に2ちゃんねるの関連板にご案内
改良版「ふいんきり〜だ〜」のほうがおすすめです。
2ちゃんねる板別スレッド一覧漢字出現頻
度ランキングのデータ(2005/11/21に作成)をもとに、入力した文章に使用されている漢字の分
布から、類似した分布を示す板を機械的におすすめしてしまうというものです。
その文章の分野に関連した板は基本的に上位に決ますが、全然関係ない板でも、分布が似ていれば上位にあがってくることもあります。
たとえば、「建築基準法違反容疑で刑事告発」などという文字列を入れてみると「法学」「土木・建築」などがひっかかってきます。
- 20000文字以上は切られます。
- 計算したテキストの内容を悪用することはありませんが、傍受されて困るようなものはやめておいたほうがいいでしょう。
- 負荷のかかりすぎる使い方をされると使用制限をかけるかもしれません。
- 結果ページにリンクをはっても再現されません。
- 中でやっている計算は、出現頻度のベクトル内積をとって、類似度がの高いものから並べているというだけです。形態素解析すらしないで類似文書を引っぱりだそう、という試みです。
- どんな板と似ているかで、なんとなくその文書のトピックが浮かびあがってきます。
- ちなみに、板同士の類似度は2ちゃんねる 漢字の分布からみた類似板リストにまとまっています。
- その他もろもろのまとめは日本語文書の文字・単語出現頻度解析ツールとデータをどうぞ。
- kfreq-ONLINE
2005-2006 Mariko GODA
mailto : madin[at]madin.jp
http://www.madin.jp/