hoeveel boeken zijn er ooit gepubliceerd in de hele moderne geschiedenis? Volgens Google ‘ s geavanceerde algoritmen, het antwoord is bijna 130 miljoen boeken, of 129.864.880, om precies te zijn.
we geven toe dat het praktisch onmogelijk is om elk boek te tellen dat ooit geschreven is, maar om ervoor te zorgen dat Google Books met succes het aanbod van gedrukte kennis van de wereld kan catalogiseren, heeft het bedrijf een schatting nodig van het aantal boeken dat het moet scannen. Dat is de reden waarom Google uiteengezet op de taak om precies dat te doen.
in een gedetailleerde blogpost schetste softwaretechnicus Leonid Taycher hoe complex het tellen van boeken eigenlijk kan worden. De eerste stap is precies bepalen wat een boek is. Het bedrijf besloot om korting op alles dat niet een geïdealiseerde gebonden volume was:
“een definitie van een boek dat we nuttig vinden in Google bij het verwerken van boek metadata is een ’tome’, een geïdealiseerd gebonden volume. Een tome kan miljoenen exemplaren hebben (bijv. een bepaalde editie van Angels and Demons van Dan Brown) of kan bestaan in slechts een of twee exemplaren (zoals een obscure masterscriptie die wegkwijnt in een Universiteitsbibliotheek).”
Google geeft toe dat hun definitie is onvolmaakt, maar het is werkbaar en vergelijkbaar met wat ISBN ‘ s worden verondersteld te vertegenwoordigen. ISBN, of internationale standaard Boeknummers, zijn ontworpen als unieke identificatoren Voor boeken. Omdat ze nog maar 30-40 jaar bestaan en vooral in westerse landen worden gebruikt, kunnen ze niet op zichzelf worden gebruikt. Daarom nam Google gegevens uit de Library of Congress, WorldCat en anderen om zo veel mogelijk boeken te vinden — een miljard ruwe records volgens de telling van het bedrijf.
hier is waar Google ‘ s technisch talent in het spel komt. Het bedrijf gebruikte talloze algoritmen om duplicaten te bepalen en te verwijderen in een poging die meer dan 150 stukken metadata met betrekking tot ‘ s werelds boeken nodig om te evalueren of elk boek record was uniek of een duplicaat van een ander. Het analyseren van deze gegevens resulteerde in 210 miljoen unieke boeken.
vervolgens trok Google de miljoenen microvormen, audio-opnamen, kaarten, T-shirts, Turkije problemen (Ja, Turkije probes) en video ‘ s met IBSNs af, wat resulteerde in een veel redelijker aantal van 146 miljoen. Tot slot, het bedrijf verwijderd 16 miljoen overheidsdocumenten volumes van hun schatting, het krijgen van de 129,8 miljoen tellen die ze vandaag aangekondigd. Natuurlijk, uitgevers zijn de uitgifte van nieuwe boeken, zelfs als dit bericht wordt getypt, dus het bedrijf is voortdurend herberekenen van het aantal boeken.
hoewel we geen leger van software engineers en algoritmen hebben om ons te ondersteunen, zegt mijn gevoel dat dit aantal te laag is en het bedrijf heeft veel meer boeken te tellen uit de annalen van de geschiedenis. Toch is dit project om erachter te komen ‘ s werelds boek aanbod is gewoon fascinerend en kan nuttig zijn voor onderzoek en historische doeleinden voor de komende jaren.
Google ‘ s volgende uitdaging: stoppen met aangeklaagd worden voor Google Books.