ロングテールを体感する
最近やっている分析は、あるサイトのpermalinkを持つページに表示されるコンテンツマッチ広告についてである。
まだ予備分析用のデータセットで、ログの抽出期間が2週間と短いため、ページの表示回数、すなわち広告表示回数は多いものだと1000回を超えるのだが、べき分布でほとんどのページの表示回数は1,2回となる。誤って広告がクリックされたケースを排除するために、広告のクリック回数を2回以上という条件(分析してみてわかったけどこれを3回以上にすることが望ましい)で、大体ページ表示回数が30〜200回ぐらいのページについて、ミクロの予備分析をやっているが、驚くのは、コンテンツマッチの精度がかなり高いということである。「たしかに一部が言語一致しているけど、これはこのページで書かれているものとはほとんど関係のないものだよな」という広告が表示されるケースが極めて少ないのだ。
ただし今は、CTRの高いケースについてミクロ分析をしているため、そうなっている可能性はある。数百回以上の広告表示はあるけれど、クリック回数はゼロというようなサンプルを集めると「たしかに一部が言語一致しているけど、これはこのページで書かれているものとはほとんど関係のないものだよな」というケースがとても多くなるのかもしれない。この作業はこれから。
コンテンツマッチの精度がかなり高いということは、私の研究の観点からは望ましいことである。というのは、私が考えている単純なモデルはCTRはコンテンツ合致とコンテキスト合致で決まるというものだからだ。コンテンツ合致の精度がぶれてしまうとコンテキストの違いによる差異が出ても、それはコンテンツの方が合致していないからではないかという反論が出てくるからだ。ラージサンプルで統計的に処理することを考えているが、今は処理するすべての変数のログがまだとれていないので、小さいデータセットでミクロ分析をしているというわけだ。
それにしてもテールの部分のページばかり読んでいると、「世の中には実に色々な人がいるのだな」ということが体感できる。検索サイトからの流入があるようなページなので、本当に見つかりにくいいわゆるDeep Webとは違う世界ではあるが、「この内容を読んでこの広告をクリックした人が2週間に3人もいるんだ」という事実に驚かされることしばしばである。