kuinka monta kirjaa on koskaan julkaistu koko nykyhistorian aikana? Googlen kehittyneiden algoritmien mukaan vastaus on lähes 130 miljoonaa kirjaa eli tarkalleen ottaen 129 864 880.
myönnämme, että on käytännössä mahdotonta laskea jokaista koskaan kirjoitettua kirjaa, mutta jotta Google Books onnistuisi luetteloimaan maailman painetun tiedon tarjonnan, yhtiö tarvitsee arvion skannattavien kirjojen määrästä. Siksi Google asetettu tehtävä tehdä juuri niin.
ohjelmistoinsinööri Leonid Taycher hahmotteli yksityiskohtaisessa blogikirjoituksessaan, kuinka monimutkaisia laskukirjoista todellisuudessa voi tulla. Ensimmäinen askel on määritellä, mitä kirja on. Yhtiö päätti alennus mitään, joka ei ollut idealisoitu sidottu volyymi:
”yksi määritelmä kirjan löydämme hyödyllistä sisällä Google käsiteltäessä kirjan metatietoja on ’tome,’ idealisoitu sidottu tilavuus. Tome voi olla miljoonia kappaleita (esim. Dan Brownin erityinen painos Angels and Demons) tai voi olla olemassa vain yhtenä tai kahtena kappaleena (kuten epämääräinen Pro gradu, joka viruu yliopiston kirjastossa).”
Google myöntää niiden määritelmä on epätäydellinen, mutta se on toimiva ja samanlainen kuin mitä ISBNs oletetaan edustavan. ISBN eli Kansainväliset Standardikirjanumerot on suunniteltu kirjojen yksilöiviksi tunnisteiksi. Koska ne ovat olleet olemassa vasta 30-40 vuotta ja niitä käytetään enimmäkseen länsimaissa, niitä ei voi käyttää itse. Siksi Google otti dataa kongressin kirjastosta, Worldcatista ja muista löytääkseen mahdollisimman monta kirjaa-miljardi raakaa kirjaa yhtiön laskujen mukaan.
tässä kohtaa Googlen insinöörilahjakkuus astuu kuvaan. Yhtiö käytti lukemattomia algoritmeja kaksoisolentojen määrittämiseen ja hävittämiseen pyrkimyksessä, joka vaati yli 150 kappaletta maailman kirjoihin liittyvää metatietoa arvioidakseen, oliko jokainen kirjatallenne ainutlaatuinen vai toisen kopio. Näiden tietojen analysointi johti 210 miljoonaan ainutlaatuiseen kirjaan.
seuraavaksi Google poisti IBSNs: llä miljoonat mikromuodot, äänitallenteet, kartat, T-paidat, kalkkunaprotestit (Kyllä, kalkkunaprotestit) ja videot, jolloin määrä oli huomattavasti kohtuullisempi, 146 miljoonaa. Lopulta yhtiö poisti 16 miljoonaa valtion asiakirjamäärää arviostaan, päästen tänään ilmoittamaansa 129,8 miljoonan määrään. Kustantajat tietysti julkaisevat uusia kirjoja jo tätä postausta kirjoitettaessa, joten yhtiö laskee jatkuvasti kirjamääriä uudelleen.
vaikka meillä ei ole ohjelmistoinsinöörien ja algoritmien armeijaa tukemassa meitä, vaistoni sanoo, että luku on liian pieni ja yhtiöllä on vielä paljon kirjoja laskettavana historian aikakirjoista. Silti tämä maailman kirjavaraston selvittämishanke on yksinkertaisesti kiehtova, ja siitä voi olla hyötyä tutkimuksessa ja historiallisissa tarkoituksissa tulevina vuosina.
Googlen seuraava haaste: lakata joutumasta haastetuksi Google Booksin takia.