現代史のすべての中で何冊の本が出版されたことがありますか? Googleの高度なアルゴリズムによると、答えは正確には約1億3000万冊、つまり129,864,880冊です。
これまでに書かれたすべての本を数えることは事実上不可能ですが、Google Booksが世界の印刷された知識の供給を正常にカタログ化するためには、スキャンする必要がある本の量の見積もりが必要です。 だからこそ、Googleはちょうどそれを行うためのタスクに着手しました。
詳細なブログ記事では、ソフトウェアエンジニアのLeonid Taycherは、本を数えることが実際にどのように複雑になるかを概説しました。 最初のステップは、本が何であるかを正確に定義することです。 会社は理想化された結合された容積ではなかった何でも割引することにした:
“本のメタデータを処理するときにGoogle内で役立つ本の定義の一つは、理想化されたバインドされたボリュームである”トメ”です。 トメは何百万ものコピーを持つことができます(例: ダン*ブラウンによる天使と悪魔の特定の版)または(そのような大学図書館で衰え無名の修士論文など)ただ一つまたは二つのコピーに存在することがで”
Googleは彼らの定義が不完全であることを認めているが、それは実行可能であり、Isbnが表すことになっているものと似ている。 ISBN、または国際標準の書籍番号は、書籍の一意の識別子になるように設計されています。 彼らはわずか30-40年の周りされてきたし、主に西洋諸国で使用されているので、彼らは自分で使用することはできません。 そのため、Googleはできるだけ多くの本を見つけるために米国議会図書館、WorldCatなどからデータを取得しました—会社の数で10億の生の記録。
ここで、Googleのエンジニアリングの才能が発揮されます。 同社は無数のアルゴリズムを使用して重複を特定して破棄し、各書籍レコードが一意であるか、別の書籍の重複であるかを評価するために、世界の書籍 このデータを分析すると、210万冊のユニークな本が得られました。
次に、Googleは何百万ものマイクロフォーム、音声録音、地図、tシャツ、トルコのプローブ(はい、トルコのプローブ)、Ibsnのビデオを減算し、146万人のはるかに合理的な数に到達した。 最後に、同社は、彼らが今日発表した129.8百万カウントになって、彼らの見積もりから16百万の政府文書のボリュームを削除しました。 もちろん、出版社はこの投稿が入力されていても新しい本を発行しているので、会社は常に本の数を再計算しています。
私たちには私たちをバックアップするソフトウェアエンジニアやアルゴリズムの軍隊はありませんが、私の腸はこの数が低すぎて、会社は歴史の年代記から数えるべきより多くの本を持っていると言います。 それでも、世界の本の供給を把握するためのこのプロジェクトは、単に魅力的であり、今後数年間の研究や歴史的な目的のために有用である可能性が
Googleの次の課題:Google Booksで訴えられるのをやめること。