Quanti libri sono mai stati pubblicati in tutta la storia moderna? Secondo gli algoritmi avanzati di Google, la risposta è quasi 130 milioni di libri, o 129.864.880, per l’esattezza.
Ammettiamo che è praticamente impossibile contare ogni libro che sia mai stato scritto, ma affinché Google Books possa catalogare con successo l’offerta mondiale di conoscenze stampate, l’azienda ha bisogno di una stima della quantità di libri che deve scansionare. Ecco perché Google ha stabilito il compito di fare proprio questo.
In un dettagliato post sul blog, l’ingegnere del software Leonid Taycher ha delineato quanto possano diventare complessi i libri di conteggio. Il primo passo è definire esattamente cos’è un libro. La società ha deciso di scontare tutto ciò che non era un volume legato idealizzato:
“Una definizione di un libro che troviamo utile all’interno di Google quando si gestiscono i metadati del libro è un “tomo”, un volume associato idealizzato. Un tomo può avere milioni di copie (ad es. una particolare edizione di Angeli e demoni di Dan Brown) o può esistere in una o due copie (come ad esempio una tesi di master oscura languono in una biblioteca universitaria).”
Google ammette che la loro definizione è imperfetta, ma è praticabile e simile a ciò che gli ISBN dovrebbero rappresentare. ISBN, o numeri di libri standard internazionali, sono progettati per essere identificatori univoci per i libri. Perché sono stati solo in giro per 30-40 anni e sono utilizzati in gran parte dei paesi occidentali, non possono essere utilizzati da soli. Ecco perché Google ha preso i dati dalla Library of Congress, WorldCat e altri per trovare il maggior numero possibile di libri – un miliardo di record grezzi dal conteggio della società.
Ecco dove il talento ingegneristico di Google entra in gioco. L’azienda ha utilizzato innumerevoli algoritmi per determinare e scartare i duplicati in uno sforzo che ha richiesto più di 150 pezzi di metadati relativi ai libri del mondo per valutare se ogni record del libro era unico o un duplicato di un altro. L’analisi di questi dati ha portato a 210 milioni di libri unici.
Successivamente, Google ha sottratto milioni di microforme, registrazioni audio, mappe, t-shirt, problemi di turchia (sì, sonde di turchia) e video con IBSNs, arrivando a un numero molto più ragionevole di 146 milioni. Infine, la società ha rimosso 16 milioni di volumi di documenti governativi dalla loro stima, arrivando al conteggio di 129,8 milioni annunciato oggi. Naturalmente, gli editori stanno emettendo nuovi libri anche se questo post viene digitato, quindi la società ricalcola costantemente il conteggio dei libri.
Mentre non abbiamo un esercito di ingegneri del software e algoritmi per sostenerci, il mio istinto dice che questo numero è troppo basso e l’azienda ha molti più libri da contare dagli annali della storia. Tuttavia, questo progetto per capire la fornitura di libri del mondo è semplicemente affascinante e potrebbe essere utile per scopi di ricerca e storici per gli anni a venire.
La prossima sfida di Google: smettere di essere citato in giudizio su Google Books.