¿Cuántos libros se han publicado en toda la historia moderna? De acuerdo con los algoritmos avanzados de Google, la respuesta es de casi 130 millones de libros, o 129,864,880, para ser exactos.
Admitiremos que es prácticamente imposible contar todos los libros que se hayan escrito, pero para que Google Books catalogue con éxito la oferta mundial de conocimiento impreso, la empresa necesita una estimación de la cantidad de libros que necesita escanear. Es por eso que Google se propuso hacer precisamente eso.
En una entrada de blog detallada, el ingeniero de software Leonid Taycher describió lo complejos que pueden llegar a ser los libros de conteo. El primer paso es definir exactamente qué es un libro. La compañía decidió descontar cualquier cosa que no fuera un volumen encuadernado idealizado:
«Una definición de libro que encontramos útil dentro de Google cuando se manejan metadatos de libros es un «tomo», un volumen encuadernado idealizado. Un libro puede tener millones de copias (p. ej. una edición particular de Ángeles y Demonios de Dan Brown) o puede existir en una o dos copias (como una oscura tesis de maestría languideciendo en una biblioteca universitaria).»
Google admite que su definición es imperfecta, pero es viable y similar a lo que se supone que representan los ISBN. ISBN, o Números de Libro Estándar Internacional, están diseñados para ser identificadores únicos para libros. Debido a que solo han existido durante 30-40 años y se usan en la mayoría de los países occidentales, no se pueden usar por sí solos. Es por eso que Google tomó datos de la Biblioteca del Congreso, WorldCat y otros para encontrar la mayor cantidad de libros posible, mil millones de registros sin procesar según el recuento de la compañía.
Aquí es donde entra en juego el talento de ingeniería de Google. La compañía utilizó innumerables algoritmos para determinar y descartar duplicados en un esfuerzo que requirió más de 150 piezas de metadatos relacionados con los libros del mundo para evaluar si cada registro de libro era único o un duplicado de otro. El análisis de estos datos dio como resultado 210 millones de libros únicos.
A continuación, Google restó los millones de microformas, grabaciones de audio, mapas, camisetas, problemas de pavo (sí, sondas de pavo) y videos con IBSNs, llegando a un número mucho más razonable de 146 millones. Finalmente, la compañía eliminó 16 millones de volúmenes de documentos gubernamentales de su estimación, llegando al recuento de 129,8 millones que anunciaron hoy. Por supuesto, los editores están publicando libros nuevos incluso mientras se escribe este artículo, por lo que la compañía está recalculando constantemente el recuento de libros.
Si bien no tenemos un ejército de ingenieros de software y algoritmos que nos respalden, mi instinto dice que este número es demasiado bajo y la compañía tiene muchos más libros para contar de los anales de la historia. Sin embargo, este proyecto para averiguar el suministro de libros del mundo es simplemente fascinante y podría ser útil para fines de investigación e históricos en los próximos años.
El próximo desafío de Google: dejar de ser demandado por Google Books.