kolik knih bylo kdy vydáno v celé moderní historii? Podle pokročilých algoritmů společnosti Google je odpovědí téměř 130 milionů knih, přesněji 129 864 880.
Budeme přiznat, že to je prakticky nemožné spočítat všechny knihy, které kdy bylo napsáno, ale tak, aby pro Google Books, aby se úspěšně katalog světových zásob tisknout znalosti, společnost potřebuje odhad množství knih, které je třeba skenovat. To je důvod, proč Google vyrazil na úkol udělat právě to.
v podrobném blogu softwarový inženýr Leonid Taycher nastínil, jak složité počítání knih se může stát. Prvním krokem je přesně definovat, co je kniha. Společnost se rozhodla sleva nic, co by nebylo idealizované vázaný svazek:
„Jednu definici z knihy najdeme užitečné uvnitř Google při manipulaci knihy metadata je ‚svatý tomáš,‘ idealizované vázaný svazek. Tome může mít miliony kopií (např. konkrétní vydání Angels and Demons od Dana Browna) nebo může existovat pouze v jedné nebo dvou kopiích (například obskurní Diplomová práce v univerzitní knihovně).“
Google připouští, že jejich definice je nedokonalá, ale je funkční a podobná tomu, co mají isbn reprezentovat. ISBN, nebo mezinárodní standardní čísla knih, jsou navrženy tak, aby byly jedinečnými identifikátory knih. Protože jsou tu jen 30-40 let a používají se většinou v západních zemích, nemohou být použity samy. To je důvod, proč Google vzal data z knihovny Kongresu, WorldCat a dalších, aby našel co nejvíce knih — jednu miliardu surových záznamů podle počtu společnosti.
Zde přichází do hry technický talent společnosti Google. Společnost používá nespočet algoritmů k určení a zrušit duplicity v úsilí, které vyžaduje více než 150 kusů metadata týkající se světa knihy hodnotit, zda každý záznam knihy byl jedinečný nebo duplicitní jiného. Analýza těchto údajů vedla k 210 milionům jedinečných knih.
Next, Google odečítá miliony mikrofilmy, zvukové nahrávky, mapy, trička, turecko probles (ano, turecko sondy) a videa s IBSNs, přijít na mnohem více rozumný počet 146 milionů. Nakonec společnost ze svého odhadu odstranila 16 milionů svazků vládních dokumentů a dostala se na 129,8 milionu, které dnes oznámili. Vydavatelé samozřejmě vydávají nové knihy, i když je tento příspěvek psán, takže společnost neustále přepočítává počet knih.
i Když nemáme armádu softwarové inženýry a algoritmy k nám, můj instinkt mi říká, že toto číslo je příliš nízká a společnost má mnoho více knih počítat z análů historie. Stále, tento projekt přijít na svět knihy dodávky je jednoduše fascinující a mohly by být užitečné pro výzkum a historické účely, pro nadcházející roky.
další výzva společnosti Google: přestat být žalován kvůli knihám Google.