第11課 Web検索
第11課の目標
- Web検索は何を調べているのか理解する
- Web検索の問題点と限界を理解する
↑経済情報処理(2009)ホームページに戻る
準備問題
- Web検索に使う検索エンジンを3つ以上挙げなさい
- 上で挙げた検索エンジンが、どうやって検索対象のページを収集して、どうやってインデックス化しているか自分が知っているかどうか検討しなさい
1 インターネット検索の基本的な仕組
- googleやYahoo!などの強力な検索サービスにより、キーワードによるWeb上の情報検索は便利かつ広範囲に使えるものになった
- 基本的なシカケとしては、
- クローラ、スパイダーなどと呼ばれる専用プログラムがWebページの中に含まれるリンクをたどり、ページを収集
- 集めたページに含まれる語句を抽出して一覧表を作る
- 検索要求があったときに、検索に使われた語句を含むページを表示する
という大まかなところはどこも大して変わらない。
- しかし、どうやってページを表示する際に順番を決めているかは、実はどこも公開していない
- Googleは PageRankという技術を使っているが、実装は公開されていない
- Yahoo!は Yahoo! Search Technology(YST)という技術を使っているが、これも詳細は公開されていない
- MSNも独自方式でランク付けを行っている。これまた詳細は不明
- しかも、SEO(Search Engine Optimization)という、検索エンジンで上位に表示されるようにWebページを改善するという商売もある
2 インターネット検索の強み
- 機械的にページを収集・インデックス作成を行っているため、収録範囲が広い
- 自由なキーワードを指定してページを検索できる→適切なキーワードを使えば、主題検索には便利
- インターフェースが簡単。専用データベースに比べると敷居が低く、誰でも使える
3 インターネット検索の問題点
- ページ収集プログラムは、ページに書いてある内容については評価しない。Webで公開されている記事は玉石混淆なので、たまたまヒットしたページに正しいことが書いてある保証は全くない。たとえば、Wikipediaなども自分が詳しい分野をよく読んでみれば「ホントかよ」というような記述はよくある。
- ページ収集プログラムは「リンク」をたどってページを集める→リンクされていないページは収集できない(ディープ・ウェブ)
- 専門的なデータが収録されているデータベースの多くはページ収集プログラムでアクセスできない
- 専門的なデータは、たとえページとして収集できてもキーワードによるインデックス作成がうまくできない
そこを無視していいのか?
- 多くのユーザは、検索結果の先頭数件しか見ないが、求める主題と一致しているかどうかは不明
- キーワードの意味が統制されていないため、いろいろな意味で使われる言葉だと検索結果の解釈が難しい
- 事実・データの検索は難しい
- 検索事業者が恣意的にページを検索対象から落とす事例がある→Web検索がすべてだと思うと大間違い
- 検索エンジン各社は中国では政府の方針に従い検索結果を制限している→中国でやっているなら他でやってない保証がどこにあるか?
- たとえばGoogleはドイツやフランスでもそれぞれの地域の法令に基づきナチス情報や民族差別情報が検索できないようにしている
- 検索事業者は慈善事業をしているわけではない
- 基本的には、検索結果のページに広告を出すことで収益を得ている
- 検索事業者に金を払う「お客様」は広告主であることを常に意識すること
- 金を払わず検索するだけのユーザは客ではない → 商用データベースとは違う
- 新聞や雑誌でも、大口広告主をあからさまに批判するような記事は載せない
- 下の表はグーグルとヤフーの損益計算書から抜き出した売り上げと純利益。これだけのビッグビジネスに成長している以上、広告主に対して配慮するのはむしろ当然
グーグルと米ヤフーの第1四半期業績(単位:千米ドル)
企業名 |
売上高 |
純利益(税引き後) |
2008年
1〜3月 |
2007年
1〜3月 |
2006年
1〜3月 |
2005年
1〜3月 |
2008年
1〜3月 |
2007年
1〜3月 |
2006年
1〜3月 |
2005年
1〜3月 |
グーグル |
$5,186,043 |
$3,663,971 |
$2,254,755 |
$1,256,516 |
$1,307,086 |
$1,002,162 |
$592,291 |
$369,193 |
ヤフー |
$1,817,602 |
$1,671,850 |
$1,567,055 |
$1,173,742 |
$542,163 |
$142,424 |
$159,859 |
$204,560 |
(参考) |
2007年
10〜12月 |
2006年
10〜12月 |
2005年
10〜12月 |
|
2007年
10〜12月 |
2006年
10〜12月 |
2005年
10〜12月 |
|
トヨタ(連結) |
$67,099,830 |
$61,465,840 |
$53,333,869 |
|
$4,586,680 |
$4,267,710 |
$3,975,739 |
|
資料出所: 各社の損益計算書、トヨタの金額は米国基準により作成された要約財務諸表から、$1=100円で換算したもの
コラム: キャロライン洋子の本名は?
キャロライン洋子は1960年代〜1970年代にかけて子役として活動していた人なので、そもそも存在を知っていること自体がおじさん・おばさんの証拠なのだが、ふと「そういえば、キャロライン洋子って今はなにやってるんだ?」と疑問におもった。とりあえずインターネット検索を掛けてみると、こんな記述が見つかった。
「キャロライン洋子(本名カフ・C・ナーン)は上智大学卒業後、1981年にオレゴン州立大コンピューター学科・同大学院首席卒業し、現在はヒューレット・バッカード社のAI開発指導部でソフトの研究開発のお偉いさん」
へーっと思ったのだが、他の検索結果も一応見てみると …… どれもほとんど同じことが書いてある。どれがオリジナルかはもう分からないけど、どうやらみんなで引き写しあった感じ。みんなでコピーしているとしたら、情報の信憑性はかなり怪しい。(続きを読む…)
Tips. Web検索で出てきた情報をチェックする
確認問題
Web検索サービス(Yahoo!, Google, MSNサーチ, gooなど)の少なくとも2つ以上を使って以下のことがらについて調べてみなさい
- 映画「フラッシュ・ゴードン」のテーマ曲を演奏していたグループ名
- MNSネットワークでの個人使用領域の確認方法
- google八分
- 1995〜2004年の25〜29歳男性の完全失業率(年平均)
↑経済情報処理(2009)ホームページに戻る
©2009, Hiroshi Santa OGAWA
このページにアダルトコンテンツ、XXXコンテンツ類は一切含まれていません。暴力反対.