Wie viele Bücher wurden jemals in der gesamten modernen Geschichte veröffentlicht? Laut den fortschrittlichen Algorithmen von Google lautet die Antwort fast 130 Millionen Bücher oder 129.864.880, um genau zu sein.
Wir geben zu, dass es praktisch unmöglich ist, jedes Buch zu zählen, das jemals geschrieben wurde, aber damit Google Books das weltweite Angebot an gedrucktem Wissen erfolgreich katalogisieren kann, benötigt das Unternehmen eine Schätzung der Anzahl der Bücher, die es scannen muss. Deshalb hat sich Google die Aufgabe gemacht, genau das zu tun.
In einem ausführlichen Blogbeitrag skizzierte der Softwareentwickler Leonid Taycher, wie komplex das Zählen von Büchern tatsächlich werden kann. Der erste Schritt besteht darin, genau zu definieren, was ein Buch ist. Das Unternehmen beschloss, alles zu diskontieren, was kein idealisiertes gebundenes Volumen war:
“ Eine Definition eines Buches, die wir in Google beim Umgang mit Buchmetadaten hilfreich finden, ist ein ‚Wälzer‘, ein idealisierter gebundener Band. Ein Band kann Millionen von Exemplaren haben (z. eine bestimmte Ausgabe von Angels and Demons von Dan Brown) oder kann nur in ein oder zwei Exemplaren vorliegen (z. B. eine obskure Masterarbeit, die in einer Universitätsbibliothek schmachtet).“
Google gibt zu, dass ihre Definition unvollkommen ist, aber sie ist praktikabel und ähnelt dem, was ISBNs darstellen sollen. ISBN oder internationale Standardbuchnummern sind als eindeutige Kennungen für Bücher konzipiert. Da es sie erst seit 30-40 Jahren gibt und sie hauptsächlich in westlichen Ländern verwendet werden, können sie nicht alleine verwendet werden. Aus diesem Grund nahm Google Daten von der Library of Congress, WorldCat und anderen, um so viele Bücher wie möglich zu finden — eine Milliarde Rohdatensätze nach Anzahl des Unternehmens.
Hier kommt das technische Talent von Google ins Spiel. Das Unternehmen verwendete unzählige Algorithmen, um Duplikate zu ermitteln und zu verwerfen, wobei mehr als 150 Metadaten zu den Büchern der Welt erforderlich waren, um zu bewerten, ob jeder Buchdatensatz einzigartig oder ein Duplikat eines anderen war. Die Analyse dieser Daten ergab 210 Millionen einzigartige Bücher.
Als nächstes subtrahierte Google die Millionen von Mikroformen, Audioaufnahmen, Karten, T-Shirts, Truthahnproben (ja, Truthahnproben) und Videos mit IBSNs und erreichte eine viel vernünftigere Anzahl von 146 Millionen. Schließlich entfernte das Unternehmen 16 Millionen Regierungsdokumentenbände aus seiner Schätzung und erreichte die heute angekündigte Zahl von 129,8 Millionen. Natürlich geben Verlage neue Bücher heraus, während dieser Beitrag getippt wird, sodass das Unternehmen die Anzahl der Bücher ständig neu berechnet.
Obwohl wir keine Armee von Softwareingenieuren und Algorithmen haben, die uns unterstützen, sagt mein Bauchgefühl, dass diese Zahl zu niedrig ist und das Unternehmen viele weitere Bücher aus den Annalen der Geschichte zu zählen hat. Dennoch ist dieses Projekt zur Ermittlung des weltweiten Buchangebots einfach faszinierend und könnte in den kommenden Jahren für Forschungs- und historische Zwecke nützlich sein.
Googles nächste Herausforderung: Aufhören, wegen Google Books verklagt zu werden.