Google: Existem 129,864,880 Livros em Todo o Mundo

quantos livros já foram publicados em toda a história moderna? De acordo com os algoritmos avançados do Google, a resposta é quase 130 milhões de livros, ou 129,864,880, para ser exato.

admitiremos que é praticamente impossível contar todos os livros que já foram escritos, mas para que o Google Books catalogue com sucesso a oferta mundial de conhecimento impresso, a empresa precisa de uma estimativa da quantidade de livros que precisa para digitalizar. É por isso que o Google se estabeleceu na tarefa de fazer exatamente isso.

em um post detalhado no blog, o engenheiro de software Leonid Taycher descreveu o quão complexos os livros de contagem podem realmente se tornar. O primeiro passo é definir exatamente o que é um livro. A empresa decidiu descontar qualquer coisa que não fosse um volume idealizado:

“uma definição de um livro que achamos útil dentro do Google ao lidar com metadados de livros é um “tomo”, um volume de limite idealizado. Um tomo pode ter milhões de cópias (e.g. a particular edition of Angels and Demons by Dan Brown) or can exist in just one or two copies (such as an obscure master’s thesis languishing in a university library).”

o Google admite que sua definição é imperfeita, mas é viável e semelhante ao que as ISBNs são supostas representar. ISBN, ou números de livros padrão internacionais, são projetados para serem identificadores únicos para os livros. Porque eles só existem há 30-40 anos e são usados na maioria dos países ocidentais, eles não podem ser usados por eles mesmos. É por isso que o Google tirou dados da Biblioteca do Congresso, do WorldCat e de outros para encontrar o maior número possível de livros — um bilhão de registros brutos pela contagem da empresa.

aqui é onde o talento de engenharia do Google entra em jogo. A empresa usou inúmeros algoritmos para determinar e descartar duplicados em um esforço que exigia mais de 150 peças de metadados relacionados aos livros do mundo para avaliar se cada registro de livro era único ou um duplicado de outro. Analisando estes dados resultou em 210 milhões de livros únicos.

em seguida, o Google subtraiu os milhões de microforms, gravações de áudio, mapas, t-shirts, sondas de Turquia (sim, sondas de Turquia) e vídeos com IBSNs, chegando a um número muito mais razoável de 146 milhões. Finalmente, a empresa removeu 16 milhões de volumes de documentos do governo de sua estimativa, chegando à contagem de 129,8 milhões que eles anunciaram hoje. É claro que os editores estão emitindo novos livros, mesmo quando este post está sendo digitado, então a empresa está constantemente Recalculando a contagem de livros.Embora não tenhamos um exército de engenheiros de software e algoritmos para nos apoiar, o meu instinto diz que este número é muito baixo e que a empresa tem muitos mais livros para contar a partir dos anais da história. Ainda assim, este projeto para descobrir a oferta mundial de livros é simplesmente fascinante e pode ser útil para pesquisa e propósitos históricos para os próximos anos.

o próximo desafio do Google: deixar de ser processado pela Google Books.



+