2006年度経済情報処理

第3回 情報の検索と利用

↑経済情報処理(2006)ホームページに戻る


3.1 情報とは何か

上の図で言えば、「不特定情報の集合」の代表がインターネットで公開されている多種多様なデータであり、「選択された情報の集合」の代表は日経テレコンなどの商用データベースと考えられる。

情報ではないデータの例
過去1年分の新聞が単に積み上げられている山
情報として使えるデータの例
過去1年分の新聞から、興味がある記事を切り抜いて整理したスクラップブック

3.2 情報検索の定義・意義

知的活動のためには必要な情報を

することが重要。「経済情報処理」では、このプロセスを全部カバーする。

記録情報を対象とした情報検索は、大きく「主題を検索する」「データ・事実を検索する」の2つに分類できる

主題の検索
データ・事実の検索

3.3 書誌検索

例題1 神奈川大学図書館で「情報検索」に関する本を探したい

Step 1. http://opaclib.kanagawa-u.ac.jp/ に接続する。正しく接続すれば下のような画面が表示される

Step 2. 「キーワード」欄に探したいキーワードである「情報検索」を入力して、「検索」ボタンをクリックする

Step 3. 検索結果が表示される。この場合は194件あったことがわかる

練習問題3.1

神奈川大学図書館が提供しているOPAC(Online Public Access Catalog)には「タイトル」という検索項目と「キーワード」という検索項目がある。タイトルは、タイトルに含まれる語句の検索を行うが、キーワードは図書館で主題に関して付与した索引語のほか、タイトル、著者名、出版者、出版地、件名、キーワード、ID、ファイル種別での検索が可能である。つまり、キーワードで検索するほうがより広い範囲での検索が可能になるはず。以下の語を「タイトル」に入れて検索した場合と「キーワード」に入れて検索した場合で結果がどう違うかを確認しなさい

Tips. 効率よく検索を行う: AND, OR, NOTを使った検索の考え方

Tips. 神奈川大学図書館OPACでの「キーワード」は何を見ているのか

3.4 商用データベース

練習問題3.2

以下の情報を調べたい。何を使ってどのように調べるといいか考えなさい

3.5 インターネット検索

3.5.1 インターネット検索の基本的な仕組

3.5.2 インターネット検索の強み

3.5.3 インターネット検索の問題点

グーグルと米ヤフーの第1四半期業績(単位:米ドル)

企業名 売上高 純利益(税引き後)
2006年 1〜3月 2005年 1〜3月 2006年 1〜3月 2005年 1〜3月
グーグル $2,254,755,000 $1,256,516,000 $592,291,000 $369,193,000
ヤフー $1,567,055,000 $1,173,742,000 $159,859,000 $204,560,000

資料出所: 各社の損益計算書

コラム: キャロライン洋子の本名は?

キャロライン洋子は1960年代〜1970年代にかけて子役として活動していた人なので、そもそも存在を知っていること自体がおじさん・おばさんの証拠なのだが、ふと「そういえば、キャロライン洋子って今はなにやってるんだ?」と疑問におもった。とりあえずインターネット検索を掛けてみると、こんな記述が見つかった。

「キャロライン洋子(本名カフ・C・ナーン)は上智大学卒業後、1981年にオレゴン州立大コンピューター学科・同大学院首席卒業し、現在はヒューレット・バッカード社のAI開発指導部でソフトの研究開発のお偉いさん」

へーっと思ったのだが、他の検索結果も一応見てみると …… どれもほとんど同じことが書いてある。どれがオリジナルかはもう分からないけど、どうやらみんなで引き写しあった感じ。みんなでコピーしているとしたら、情報の信憑性はかなり怪しい。

そこで、「オレゴン州立大学コンピュータ学科」という情報からオレゴン州立大学の公式webを検索してみる。ふむ。Koff, Caroline N.という人がM.S. in Computer Scienceを 1988年に取ったという記述は見つかった。これは大学の公式サイトの情報だから、自分のところの卒業生に関してはそう大きな嘘はないだろう。あれ? 年が違う。「1981年に卒業した」のに1988年に修士取ったの? 他の情報から生年月日を調べてみると、複数のソースから 1962年生まれらしいとわかった。1981年だとまだ 19歳。日本で上智大学卒業後にオレゴン州立大学行ったなら、 19歳で M. S. 取ったというのはちょっと信じにくいので、1988年が本当なんだろう。ちなみに、上智大学のWebからはキャロライン洋子も Koffも見つからなかったので、上智を卒業したという情報も真偽のほどは確かでない。

オレゴン州立大学の情報と食い違う点は本名にもある。大学の情報だと姓が Koff、ファーストネームがCaroline、ミドルネームが N. となっているけど、日本語の情報だと、ナーンが姓、ファーストネームがカフ、ミドルネームが C.になっている。更に調べると、オレゴン州立大学に居た人の N.は Nanということまでわかった。ひょっとして、 Koff, Caroline Nan と書いてあったのを、","を無視して解釈したのか? 確かに西洋人は ファーストネーム ミドルネーム ラストネーム という順序で名前を書くことが多いけど、文献参照などでは姓を最初に持ってきてその後に ","を入れるという記法もよく使われる。といっても論文などで参考文献を見慣れてない人にはあまり知られてない可能性が高いので Koff, Caroline Nanを誤読した結果「カフ・C・ナーン」になってしまったのか? このへんでWeb検索では無理っぽくなってきたので、検索対象を特許データベースやnetnewsにまで広げる。1980年代のCSの院生が netnewsにポストしたことがないなんて信じられないし、メーカーの技術者で偉い人が特許の1本も出してないわけがないからね。すると、オレゴンにいたKoffさんは、確かに大学院のときは AIの研究をしていて、日本語とのバイリンガルで、HP社に入社して、HPから特許を出願したことがあることまで分かった。

ここまでの調査で、キャロライン洋子の本名と大学卒業年について怪しいことが分かった。こういう基本情報が間違っていると、本当に首席卒業でヒューレットパッカード社でAIの偉い人なのかどうかも疑わしい。卒業年と本名が間違ってるということは、首席という情報も原資料に当たってないことは確かだし、HP内でのポジションもちゃんと調べたとは思えない。そもそも、Koffさんとキャロライン洋子が同一人物であるという確たる証拠は見つからなかった。何分にも古い話なので、インターネット上の情報では厳しいかな。ということでこんどは書誌データベースを検索してみる。すると、1986年に出版された「黒い瞳と星条旗」というキャロライン洋子の本の第1章は「オレゴンだより」と分かったので、キャロライン洋子がオレゴンに行ったことまでは多分本当なのだろう。

「黒い瞳と星条旗」は古い本なので既に絶版。しかし図書館には持っているところもあったので相互貸借サービスで借りてきてみた。するといろいろ面白いことがわかった。特にこの本が有益だったのは、オレゴンからHPに行った Koffさんがキャロライン洋子と同一人物であることがほぼ確認できた点。同じ時期に同じ学科で同じ分野を研究している同姓同名の人が二人以上いるというケースでなければ、キャロライン洋子がHPに行ったという経路は確認できたと見ていいだろう。本から分かったことを整理すると、以下のようになる。

ここで、もう一度 web検索で出てきた情報をチェック。「キャロライン洋子(本名カフ・C・ナーン)は上智大学卒業後、1981年にオレゴン州立大コンピューター学科・同大学院首席卒業し、現在はヒューレット・バッカード社のAI開発指導部でソフトの研究開発のお偉いさん」。もうメタメタですね。

同じフォーマットでここまで分かった情報を情報を書くとこんな感じか? 「キャロライン洋子(本名キャロライン・ナーン・カフ)は上智大学を1年で中退し 1981年にオレゴン州立大学に入学。コンピュータサイエンスを専攻。修士論文を1988年5月に提出して M. S. in Computer Scienceを取得。卒業時に首席だったかどうかは不明。同年8月のAI関係の学会で報告しているが、そのときは HPの人として報告しており、特許もHPの人として出したものがあるので HPに入社してしばらく在籍したことは確か。ただし、現在AI開発指導部のお偉いさんかどうかは確認できていない」

一連の裏取り調査で分かったことは、誰かがもっともらしい嘘(あるいは錯誤)を書くと、それがそのまま大量に引き写されて考えナシな検索エンジンによって提供されるという構造が確実に存在するということ。みんな悪気はないのかもしれないけど、裏を取る手間を掛けずに無責任にコピペしてる姿が浮き彫りになった。

Tips. Web検索で出てきた情報をチェックする

練習問題3.3

Web検索サービス(Yahoo!, Google, MSNサーチ, gooなど)の少なくとも2つ以上を使って以下のことがらについて調べてみなさい

3.6 統計の検索

練習問題3.4

以下の情報について調べてみなさい


↑経済情報処理(2006)ホームページに戻る