タグを起点にしたクロールの可能性

第2回SBM研究会に参加してきた。なかなか時間がとれないが、あまり時間がたってもナンなので投稿。全般的には非常に雰囲気の良い、かつ知的刺激を大いに受ける勉強会であった。


かなり面白かったのは上野大樹さんのセレクトブクマ。これはBMされたエントリーについて、さらにBMされるパターンに目をつけ、良質なエントリーだけを絞り込もうというものであった。BMされるページにもパターンがある。すなわち、

  1. はじめの一時だけBMされてその後急減
  2. はじめに多くからBMされて、その後も数は減るが安定的にBMされる
  3. スパイクすることもないがずーっとコンスタントにBMされる

で、(1)は流行りすたりの激しいフロー情報だから、BMされたページから(2)と(3)について検索するとけっこう良質なページが見つかるのではないかという発想に基づいた実装。評価方法はかなり主観的ではあったが、けっこう良さそうな印象を持った。


実は私が最も印象に残ったのは、5大SBMにおいてブックマーク数でシェア75%を誇る、はてなブックマーク伊藤直也さんの話の中の以下の行。「ブックマークされている1100万エントリーから、1ホップないしは2ホップぐらいに限ってクロールして、そこからインデックスを作って、情報の推奨ができないかというようなことを考えている」(やや発言は不正確ですが)。


私は商売柄フロー情報にはあまり興味はなく、ウェブ上のストックするに値する情報に興味がある。もちろん論文DBも使うし、Google Scholarも使うのだが、Web上の事象に関する統計データとか、数字などについてはウェブの情報を注として記すことがしばしばある。このようなデータは自分であらかじめブックマークしておけば良いのだが、ブックマークされていないと後から調べるのが結構大変だ。実はこれまではBMされた全部のエントリーから検索するという習慣はなかったが、これからは試してみよう。


でもさすがに1100万エントリーじゃ少ないわけで、だから伊藤さんが言うようなタグを起点としたクロールというものに期待したい。まずは人間がつけるタグでうんと絞っておいて、そこからはロボットで広げるわけだ。


はてなhttp://preferred.jp/index.htmlと共同開発した関連エントリー推奨エンジンのBsimのアルゴリズムを決める上で、(1)ページ(タイトル+本文)に含まれるキーワード(ただしこれははてなキーワードのみ、と私は理解した)の類似度、よりも(2)誰が何をブックマークしているかといういわゆる協調フィルタリング的類似度、よりも(3)タグの類似度、によって推奨したほうが、精度が高かったという。このことを伊藤さんはタグのセマンティックにはあえて踏み込まないと表現していたが、タグ自体が実は既にセマンティックに踏み込んでいるのだ。


最後のパネルディスカッションは、事業者からは伊藤さんに加え、ライブドアクリップの井原郁央さん、ヤフーBMの澤田哲也さん、Buzzurlの須藤洋一さん。どんなデータが欲しいという研究者からの要望に対して、応えられるかという話。


たまたま聴衆側の席が伊藤さんのとなりだったのだが、名刺交換に訪れる人の流れが途絶えた時に久々に話すと、「情報科学の研究の知見を実装に反映する余地はもちろんあるが、ユーザーの利用促進やビジネスへの貢献につながるインプリケーションを出してくれるようなものの供給量が少なくて」ということなので、わたしのような社会科学の人間にもなんらかの関わり方はできるのではないか。ヤフーの岡本さんも「一番知りたいのは、各事業者のSBMの使い分け≒各社のポジショニング」と言っていたし。


SBMの使用目的は多様である。個人で言えば、記録・投票・コメント・表現といった具合で、お得意のインタビュー調査によるフィールドワークってのもあるな。ともあれ、このツールがどのような使われ方をされていくかということは非常に興味深い。