Google: Il y a 129 864 880 livres dans le Monde entier

Combien de livres ont déjà été publiés dans toute l’histoire moderne? Selon les algorithmes avancés de Google, la réponse est près de 130 millions de livres, soit 129 864 880, pour être exact.

Nous admettons qu’il est pratiquement impossible de compter tous les livres qui ont déjà été écrits, mais pour que Google Books puisse cataloguer avec succès l’offre mondiale de connaissances imprimées, l’entreprise a besoin d’une estimation de la quantité de livres qu’elle doit numériser. C’est pourquoi Google s’est attelé à cette tâche.

Dans un article de blog détaillé, l’ingénieur logiciel Leonid Taycher a décrit à quel point les livres de comptage peuvent devenir complexes. La première étape consiste à définir exactement ce qu’est un livre. La société a décidé d’escompter tout ce qui n’était pas un volume lié idéalisé:

 » Une définition d’un livre que nous trouvons utile dans Google lors de la gestion des métadonnées d’un livre est un « tome », un volume relié idéalisé. Un tome peut avoir des millions d’exemplaires (p. ex. une édition particulière d’Anges et Démons de Dan Brown) ou peut exister en un ou deux exemplaires seulement (comme un mémoire de maîtrise obscur qui croupit dans une bibliothèque universitaire). »

Google admet que leur définition est imparfaite, mais elle est réalisable et similaire à ce que les ISBN sont censés représenter. Les numéros ISBN, ou Numéros de livre Standard internationaux, sont conçus pour être des identifiants uniques pour les livres. Parce qu’ils existent depuis seulement 30 à 40 ans et sont utilisés dans la plupart des pays occidentaux, ils ne peuvent pas être utilisés seuls. C’est pourquoi Google a pris des données de la Bibliothèque du Congrès, de WorldCat et d’autres pour trouver autant de livres que possible — un milliard d’enregistrements bruts selon le décompte de l’entreprise.

Voici où le talent d’ingénierie de Google entre en jeu. La société a utilisé d’innombrables algorithmes pour déterminer et éliminer les doublons dans un effort qui a nécessité plus de 150 métadonnées liées aux livres du monde entier pour évaluer si chaque enregistrement de livre était unique ou un duplicata d’un autre. L’analyse de ces données a abouti à 210 millions de livres uniques.

Ensuite, Google a soustrait les millions de microformes, d’enregistrements audio, de cartes, de t-shirts, de sondes de dinde (oui, sondes de dinde) et de vidéos avec IBSN, pour arriver à un nombre beaucoup plus raisonnable de 146 millions. Enfin, la société a retiré 16 millions de volumes de documents gouvernementaux de son estimation, atteignant le chiffre de 129,8 millions annoncé aujourd’hui. Bien sûr, les éditeurs publient de nouveaux livres alors même que ce message est dactylographié, de sorte que la société recalcule constamment le nombre de livres.

Bien que nous n’ayons pas une armée d’ingénieurs logiciels et d’algorithmes pour nous soutenir, mon instinct dit que ce nombre est trop faible et que l’entreprise a beaucoup plus de livres à compter dans les annales de l’histoire. Pourtant, ce projet visant à déterminer l’offre mondiale de livres est tout simplement fascinant et pourrait être utile à des fins de recherche et d’histoire pour les années à venir.

Le prochain défi de Google: arrêter de se faire poursuivre sur Google Books.



+