Google: na całym świecie jest 129 864 880 książek

ile książek kiedykolwiek wydano w całej historii nowożytnej? Według zaawansowanych algorytmów Google odpowiedź to prawie 130 milionów książek, czyli dokładnie 129 864 880.

przyznamy, że praktycznie niemożliwe jest policzenie każdej książki, która kiedykolwiek została napisana, ale aby Google Books mogło skutecznie skatalogować światową podaż drukowanej wiedzy, firma potrzebuje oszacowania ilości książek, które musi zeskanować. Dlatego Google postawiło sobie za zadanie właśnie to.

w szczegółowym poście na blogu inżynier oprogramowania Leonid Taycher przedstawił, jak złożone mogą stać się książki liczące. Pierwszym krokiem jest dokładne zdefiniowanie, czym jest książka. Firma postanowiła zdyskontować wszystko, co nie było wyidealizowanym wolumenem:

„jedną z definicji książki, którą uważamy za pomocną w Google podczas obsługi metadanych książki, jest „Tom”, wyidealizowany wolumin związany. Tom może mieć miliony egzemplarzy (np. konkretne wydanie „aniołów i demonów” Dana Browna) lub może istnieć tylko w jednym lub dwóch egzemplarzach (np. niejasna praca magisterska w Bibliotece Uniwersyteckiej).”

Google przyznaje, że ich definicja jest niedoskonała, ale jest wykonalna i podobna do tego, co ma reprezentować ISBNs. ISBN lub międzynarodowe Standardowe numery książek są zaprojektowane jako unikalne identyfikatory dla książek. Ponieważ istnieją tylko od 30-40 lat i są używane w większości krajów zachodnich, nie mogą być używane same. Dlatego Google pobrało dane z Biblioteki Kongresu, WorldCat i innych, aby znaleźć jak najwięcej książek-miliard surowych rekordów według liczby firmy.

tutaj pojawia się talent inżynierski Google. Firma wykorzystała niezliczone algorytmy do określania i odrzucania duplikatów, co wymagało ponad 150 kawałków metadanych związanych z książkami na świecie, aby ocenić, czy każdy rekord książki był unikalny, czy duplikat innego. Analiza tych danych zaowocowała 210 milionami unikalnych książek.

następnie Google odjęło miliony mikroform, nagrań audio, map, koszulek, indyczych sond (tak, indyczych sond) i filmów z IBSNs, osiągając znacznie bardziej rozsądną liczbę 146 milionów. Ostatecznie firma usunęła z szacunków 16 milionów woluminów dokumentów rządowych, osiągając liczbę 129,8 milionów, którą ogłosili dzisiaj. Oczywiście wydawcy wydają nowe książki, nawet gdy ten post jest pisany, więc firma stale przelicza liczbę książek.

chociaż nie mamy armii inżynierów oprogramowania i algorytmów, które by nas wsparły, moje przeczucie mówi, że ta liczba jest zbyt niska, a firma ma o wiele więcej książek do policzenia z roczników historii. Mimo to, ten projekt, aby dowiedzieć się na świecie podaż książek jest po prostu fascynujące i może być przydatne do celów badawczych i historycznych w nadchodzących latach.

kolejne wyzwanie Google: przestać być pozwanym za Google Books.



+