【論文読み】adaptive web search based on a colony of cooperative distributed agents

画像

内容について(+感想)

いつ

2003年の論文らしい。
この時期にすでにやられてたら僕のやることはありますか?
そうです、ないです、うんち

背景

世の中のページを効率的に集めたい。
ユーザの嗜好にあったWebページを集められると嬉しい。
ただ、幅優先探索や深さで集めると非効率。

手法

ACOで収集する。
エージェントを大量に利用することで
蟻を模したエージェントが、

  • 反応的
  • 自律的
  • 協力的

に環境を介して(フェロモンを分泌して)非中央集権的にスクレイピングをする。
これによって、環境に対してロバストになり、誰かが変なしょうもないサイトをスクレイピングしてもシステム全体として打率の高いページ収集が行える。

アルゴリズム

蟻はバーチェルノードから、初期ページ集合のどれかからスクレイピングしていく。

ここで疑問なのが例えば頂点$v$に初めてたどり着いたときに、その時点で次に$v$からたどり着ける頂点集合$V$のページをすべてスクレイピングするかどうか?である。
すべてスクレイピングすれば必然的にどれが関係あるか?がわかりやすいので嬉しい。
ただ、計算量やデータ増加量は著しく増える。
また、スクレイピングしないと$V$からランダムに選ぶことになる。
これはどうなんだろうというお気持ちになる。
ないかうまい方法はないだろうか

また、スコア付の関数がよくわからない。
$M(Q, D_d)$を使っているらしく$tf-idf$を基本的には使っている?

ただ、ここでまた問題があって、スクレイピングをリアルタイムにやるため
TF-IDFの文書の分母IDFが難しい。
なんかうまい方法ないかなっていうのと、ジャンルでやると良さげなのでWord2Vecなどの自然言語処理を学ばないといけなさそう・・・うん

あと数式がうまく理解できてない、結局数学がわからないんだよなぁ

評価

評価はF値を利用している。
ウェブページは毎日変わってしまって安定しないので、ある日付のリポジトリを利用している。
そして、キーワードに関して全体でどれぐらい正しいものを選べているか?
正しいなかで何割持ってこれているか?
というF値を使っていた。
これは使えそう

また、ACOでしかできない収集もあると思うのでそれも出来たらなぁと

感想

頭が悪いので、うまく論文が読めない
英語もわからんし、とくに数学がわからない
この論文の英語なんか長いし、文法合ってないような気がするんだよなぁ(不自然かつ微妙、わかりやすさや再現性が無い気がする