Google: există 129.864.880 de cărți în întreaga lume

câte cărți au fost publicate vreodată în toată istoria modernă? Potrivit algoritmilor avansați ai Google, răspunsul este de aproape 130 de milioane de cărți, sau 129.864.880, mai exact.

vom recunoaște că este practic imposibil să numărăm fiecare carte care a fost scrisă vreodată, dar pentru ca Google Books să catalogheze cu succes oferta mondială de cunoștințe tipărite, compania are nevoie de o estimare a cantității de cărți de care are nevoie pentru a scana. De aceea, Google și-a propus sarcina de a face exact asta.

într-o postare detaliată pe blog, inginerul software Leonid Taycher a subliniat cât de complexe pot deveni cărțile de numărare. Primul pas este definirea exactă a ceea ce este o carte. Compania a decis să reducă orice nu era un volum legat idealizat:

„o definiție a unei cărți pe care o găsim utilă în Google atunci când gestionăm metadatele cărții este un volum, un volum legat idealizat. Un volum poate avea milioane de exemplare (de ex. o ediție specială a Îngeri și demoni de Dan Brown) sau poate exista în doar unul sau două exemplare (cum ar fi o teză de master obscură care se stinge într-o bibliotecă universitară).”

Google admite că definiția lor este imperfectă, dar este funcțională și similară cu ceea ce ar trebui să reprezinte ISBN-urile. ISBN, sau numere internaționale standard de carte, sunt concepute pentru a fi identificatori unici pentru cărți. Pentru că au fost doar în jur de 30-40 de ani și sunt utilizate în cea mai mare parte țările occidentale, ele nu pot fi folosite de ei înșiși. De aceea, Google a luat date de la Biblioteca Congresului, WorldCat și alții pentru a găsi cât mai multe cărți posibil — un miliard de înregistrări brute după numărul companiei.

iată în cazul în care talentul de inginerie Google intră în joc. Compania a folosit nenumărați algoritmi pentru a determina și elimina duplicatele într-un efort care a necesitat mai mult de 150 de piese de metadate legate de cărțile lumii pentru a evalua dacă fiecare înregistrare a cărții a fost unică sau un duplicat al alteia. Analiza acestor date a dus la 210 milioane de cărți unice.

apoi, Google a scăzut milioanele de microforme, înregistrări audio, hărți, tricouri, proburi de curcan (da, sonde de curcan) și videoclipuri cu IBSNs, ajungând la un număr mult mai rezonabil de 146 de milioane. În cele din urmă, compania a eliminat 16 milioane de volume de documente guvernamentale din estimarea lor, ajungând la numărul de 129,8 milioane pe care l-au anunțat astăzi. Desigur, editorii emit cărți noi, chiar dacă acest post este scris, astfel încât compania recalculează în mod constant numărul de cărți.

deși nu avem o armată de ingineri software și algoritmi care să ne susțină, instinctul meu spune că acest număr este prea mic și compania are multe alte cărți de numărat din analele istoriei. Totuși, acest proiect pentru a descoperi oferta de cărți din lume este pur și simplu fascinant și ar putea fi util pentru cercetare și scopuri istorice pentru anii următori.

următoarea provocare a Google: să nu mai fii dat în judecată pentru Google Books.



+