근대사에 얼마나 많은 책이 출판 되었습니까? 구글의 고급 알고리즘에 따르면,대답은 거의 130,000,000 책,또는 129,864,880,정확합니다.
우리는 지금까지 기록 된 모든 책을 계산하는 것은 사실상 불가능 인정하지만,구글 책이 성공적으로 인쇄 된 지식의 세계의 공급을 카탈로그하기 위해,회사는 스캔 할 필요가 책의 양의 추정이 필요합니다. 구글은 그냥 할 수있는 작업에 착수 이유입니다.
자세한 블로그 게시물에서,소프트웨어 엔지니어 레오 니드 테이처는 계산 책이 실제로 얼마나 복잡한 될 수 있는지 설명했다. 첫 번째 단계는 책이 무엇인지 정확하게 정의하는 것입니다. 이 회사는 이상화 된 바운드 볼륨이 아닌 것을 할인하기로 결정했습니다:
“책 메타 데이터를 처리 할 때 우리는 구글 내부에 도움이 책의 한 정의는’메,’이상적인 바인딩 볼륨입니다. 메는 수백만 개의 사본을 가질 수 있습니다(예: 댄 브라운에 의해 천사와 악마의 특정 버전)또는(예:대학 도서관에서 점점 쇠약 해지는 모호한 석사 논문 등)하나 또는 두 개의 사본에 존재할 수 있습니다.”
구글은 그들의 정의가 불완전하다는 것을 인정하지만,실행 가능하고 아이빈이 대표해야하는 것과 유사합니다. 국제 표준 책 번호는 책에 대한 고유 한 식별자가되도록 설계되었습니다. 그들은 단지 30~40 년 동안 주변 봤는데 주로 서방 국가에서 사용되기 때문에,그들은 스스로 사용할 수 없습니다. 이 회사의 수에 의해 억 원시 기록—구글은 가능한 한 많은 책을 찾기 위해 의회,월드 캣 등의 도서관에서 데이터를했다 이유입니다.
여기에 구글의 엔지니어링 재능 놀이로 오는 곳이다. 이 회사는 확인하고 각 책의 기록이 고유 또는 다른 중복 여부를 평가하기 위해 세계의 책에 관련된 메타 데이터의 150 개 이상의 조각을 필요로하는 노력의 일환으로 중복을 폐기하는 수많은 알고리즘을 사용했다. 이 데이터를 분석하면 2 억 1 천만 권의 고유 한 책이 탄생했습니다.
다음으로 구글은 수백만 개의 마이크로 폼,오디오 녹음,지도,티셔츠,칠면조 프로브(예,칠면조 프로브)및 비디오를 빼서 훨씬 더 합리적인 수의 146 백만에 도달했습니다. 마지막으로,이 회사는 오늘 발표 한 129,800,000 카운트에 도착,자신의 추정에서 1600 만 정부 문서 볼륨을 제거했습니다. 물론,이 게시물이 입력되는 경우에도 게시자는 새로운 책을 발행하고,그래서 회사는 지속적으로 책 수를 다시 계산한다.
우리는 우리를 뒷받침 할 소프트웨어 엔지니어와 알고리즘의 군대를 가지고 있지 않지만,내 직감은이 숫자가 너무 낮고 회사가 역사의 연대기에서 셀 수있는 더 많은 책을 가지고 있다고 말한다. 아직도,세계의 책 공급을 파악하는이 프로젝트는 단순히 매력적이며 앞으로 수년 동안 연구 및 역사적 목적에 유용 할 수 있습니다.
구글의 다음 도전:구글 책을 통해 고소 중지.