【論文読み】Adaptive Web Crawler

画像

Adaptive Web Crawler

クラーラーにも色々な種類がある。

例えば、すべてのウェブページをかき集める汎用クローラや
同時に様々なサイトを分担する並列クローラがある。

今回扱うのは集中型クローラである。

集中型クローラ

集中型クローラは特定のトピックに関するページを収集するクローラである。
特定トピックに絞ることで、企業がユーザにレコメンドをしたいときなどに特定のトピックの内容のページだけを集める際に利用したりする。

クローラの仕組みとしては

1.SeedURLを決める
2.そこからスクレイピングする。
3.それらをインデクサが解析する。
4.解析した内容をURLキューに入れる
5.URLキューは優先度付きヒープ木構造のキューになっていて、指標の高いものから使用する。

といった流れで

・クローラ
・インデクサ

に分かれているのが大事。

この論文の伝えたいこと

集中型クローラーがより良くなれば嬉しいよね!

感想

うーん、ちゃんと読めてない気がする、ひどい内容に感じた
あといくつか飛ばして読んでるのでそれをなんとかしないとだめだなぁ