22 2020 년에 널리 사용되는 데이터 과학 및 기계 학습 도구

개요

  • 수많은 데이터 과학 도구가 있습니다.
  • 다음은 데이터 과학 라이프사이클의 여러 단계를 다루는 20 개 이상의 데이터 과학 도구 목록입니다.

소개

데이터 과학 작업을 수행하는 데 가장 적합한 도구는 무엇입니까? 그리고 당신은 데이터 과학의 신인으로 어떤 도구를 선택해야합니까?

나는 당신이 당신의 자신의 데이터 과학 여행의 어떤 시점에서 이러한 질문을(또는 검색)했습니다 확신합니다. 이 유효한 질문입니다! 업계에서 데이터 과학 도구의 부족은 없습니다. 여행과 경력을 위해 하나를 선택하는 것은 까다로운 결정이 될 수 있습니다.데이터 과학은 광대 한 스펙트럼이며 각 영역에는 많은 분석가/데이터 과학자를 혼란스럽게 만드는 독특한 방식으로 데이터를 처리해야합니다. 그리고 너가 사업 지도자 이으면,너는 장기 충격이 있기 때문에 너와 너의 회사가 선택하는 공구대하여 결정적인 질문을 우연히 만날텐데.

그래서 다시,질문은 어떤 데이터 과학 도구를 선택해야합니까?

이 글에서,나는 그들의 사용 및 강점에 의해 세분화 된 데이터 과학 공간에서 사용되는 널리 사용되는 도구를 나열하여이 혼란을 취소하려고합니다. 그래서 우리가 시작하자!

그리고 만약 당신이 기계 학습 및/또는 비즈니스 분석에 새로운 사람,또는 막 시작 하는,난 당신이 놀라운 이니셔티브를 활용 하는 것이 좋습니다. 기계 학습 스타터 프로그램과 비즈니스 분석 스타터 프로그램–두 개의 포괄적 인 프로그램을 취재 이 이니셔티브는 시간 바인딩 그래서 당신은 당신의 데이터 과학 경력에게 엄청난 향상을 제공하기 위해 가능한 한 빨리 등록해야 할 것입니다!

목차

  • 빅 데이터로 다이빙–빅 데이터 처리를위한 도구
    • 볼륨
    • 다양성
    • 볼륨
  • 데이터 과학을위한 도구
    • 보고 및 비즈니스 인텔리전스
    • 예측 모델링 및 기계 학습
    • 인공 지능

빅데이터를 위한 데이터 과학 도구

빅데이터의 의미를 진정으로 파악하려면 데이터를 빅데이터로 정의하는 기본 원리를 이해하는 것이 중요합니다. 이러한 빅 데이터의 3 절로 알려져 있습니다:볼륨

  • 볼륨
  • 다양성
  • 속도

볼륨

처리 도구 이름에서 알 수 있듯이 볼륨은 데이터의 규모와 양을 나타냅니다. 내가 말하는 데이터의 규모를 이해하려면 전 세계 데이터의 90%이상이 지난 2 년 동안 생성되었다는 것을 알아야합니다!

10 년 동안,데이터의 양의 증가와 함께,이 기술은 또한 더 나은되고있다. 계산 및 저장 비용이 감소함에 따라 엄청난 양의 데이터를 수집하고 저장하는 것이 훨씬 쉬워졌습니다.

데이터의 볼륨은 빅 데이터로 자격이되는지 여부를 정의합니다.

우리는 1 기가바이트에서 약 10 기가바이트에 이르기까지 데이터가있을 때,기존의 데이터 과학 도구는 이러한 경우에 잘 작동하는 경향이있다. 그래서 이러한 도구는 무엇입니까?

  • 마이크로 소프트 엑셀–엑셀은 소량의 데이터를 처리하는 가장 쉽고 가장 인기있는 도구로 우선합니다. 이 지원하는 행의 최대 크기는 100 만 이상 단지 그늘이며,한 시트는 한 번에 16,380 열까지 처리 할 수 있습니다. 이 숫자는 단순히 데이터의 양이 큰 경우 충분하지 않습니다.

  • 마이크로 소프트 액세스-그것은 데이터 저장을 위해 사용되는 마이크로 소프트에 의해 인기있는 도구입니다. 2 기가바이트까지 작은 데이터베이스는이 도구를 원활하게 처리 할 수 있지만 그 이상,그것은 균열 시작합니다.

  • 1970 년대 이후 가장 널리 사용되는 데이터 관리 시스템 중 하나입니다.수십 년 동안 기본 데이터베이스 솔루션이었습니다. 데이터베이스가 계속 성장함에 따라 확장하기가 어려워집니다.

우리는 지금까지 몇 가지 기본 도구를 다루었습니다. 이제 큰 총을 발휘하는 시간이다! 데이터가 1 테라바이트+보다 큰 스토리지까지 모든 방법을 10 기가바이트보다 큰 경우,당신은 내가 아래에 언급 한 도구를 구현해야합니다:

  • 하둡-그것은 빅 데이터에 대한 데이터 처리 및 저장을 관리하는 오픈 소스 분산 프레임 워크입니다. 당신은 당신이 처음부터 기계 학습 프로젝트를 구축 할 때마다이 도구를 통해 올 가능성이 있습니다.

  • 하이브-그것은 하둡의 상단에 내장 된 데이터웨어 하우스입니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다.

버라이어티

버라이어티 처리를 위한 도구 버라이어티 밖에 있는 다양한 유형의 데이터를 말합니다. 데이터 유형은 구조화 된 데이터와 구조화되지 않은 데이터 중 하나 일 수 있습니다.

이러한 다양한 데이터 유형의 우산 아래에 해당하는 예제를 살펴 보겠습니다:

잠시 시간을내어 이러한 예를 관찰하고 실제 데이터와 상호 연관시킵니다.

구조화 된 데이터의 경우 관찰 할 수 있듯이 이러한 데이터 유형에는 특정 순서와 구조가 있지만 구조화되지 않은 데이터의 경우 예제는 추세 나 패턴을 따르지 않습니다. 예를 들어,고객 피드백은 길이,감정 및 기타 요소가 다를 수 있습니다. 또한 이러한 유형의 데이터는 거대하고 다양합니다.

이러한 유형의 데이터를 다루는 것은 매우 어려울 수 있으므로 이러한 다양한 데이터 유형을 관리하고 처리하기 위해 시장에서 사용할 수있는 다양한 데이터 과학 도구는 무엇입니까?

가장 일반적인 두 데이터베이스는 다음과 같습니다. 2015 년 11 월 15 일-2015 년 11 월 15 일-2015 년 11 월 15 일

이 데이터베이스는 다음과 같이 구성됩니다. 이러한 데이터베이스는 동적 데이터를 확장하고 처리할 수 있기 때문에 엄청난 채택 수를 보이고 있습니다.

속도 처리 도구

세 번째이자 마지막 브이 속도를 나타냅니다. 이것은 데이터가 캡처되는 속도입니다. 여기에는 실시간 및 비 실시간 데이터가 모두 포함됩니다. 우리는 여기서 실시간 데이터에 대해 주로 이야기 할 것입니다.

우리 주변에는 실시간 데이터를 캡처하고 처리하는 많은 예가 있습니다. 가장 복잡한 것은자가 운전 자동차에 의해 수집 된 센서 데이터입니다. 자가 운전 자동차에 있다고 상상해보십시오-자동차는 차선,다른 차량과의 거리 등에 관한 데이터를 동적으로 수집하고 처리해야합니다. 모두 동시에!

수집되는 실시간 데이터의 다른 예는 다음과 같습니다:

  • 주식 거래
  • 신용 카드 거래에 대한 사기 탐지
  • 네트워크 데이터–소셜 미디어(페이스 북,트위터 등 Stock)

당신은 알고 계십니까?

1 테라바이트 이상의 데이터가 뉴욕 증권 거래소에서 각 거래 세션 동안 생성됩니다!

이제 실시간 데이터를 처리하기 위해 일반적으로 사용되는 데이터 과학 도구를 살펴 보겠습니다:

  • 아파치 카프카-카프카는 아파치에 의해 오픈 소스 도구입니다. 실시간 데이터 파이프라인을 구축하는 데 사용됩니다. 카프카의 장점 중 일부는-그것은 내결함성,정말 빠른,그리고 조직의 다수에 의해 생산에 사용됩니다.

  • 아파치 스톰-아파치에서이 도구는 거의 모든 프로그래밍 언어와 함께 사용할 수 있습니다. 초당 최대 1 백만 개의 튜플을 처리 할 수 있으며 확장 성이 뛰어납니다. 그것은 높은 데이터 속도에 대한 고려해야 할 좋은 도구입니다.
  • 아마존 운동성-아마존에서이 도구는 카프카와 유사하지만 가입 비용이 함께 제공됩니다. 그러나,그것은 조직을위한 매우 강력한 옵션을 만드는 아웃-오브-박스 솔루션으로 제공됩니다.

  • 아파치 플링크-플링크 아직 우리가 실시간 데이터에 사용할 수있는 아파치에 의해 또 다른 도구입니다. 플링크의 장점 중 일부는 고성능,내결함성 및 효율적인 메모리 관리입니다.

이제 빅 데이터 작업에 일반적으로 사용되는 다양한 도구에 대한 확실한 이해를 얻었으므로 고급 기계 학습 기술과 알고리즘을 적용하여 데이터를 활용할 수있는 세그먼트로 이동해 보겠습니다.

널리 사용되는 데이터 과학 도구

당신이 새로운 데이터 과학 프로젝트를 설정하는 경우,당신은 마음에 질문의 톤이있을 것이다. 이는 데이터 과학자,데이터 분석가,프로젝트 관리자 또는 수석 데이터 과학 임원이든 상관없이 귀하의 수준에 관계없이 사실입니다.

당신이 직면하게 될 몇 가지 질문은 다음과 같습니다:

  • 데이터 과학의 다른 영역에서 어떤 도구를 사용해야합니까?
  • 도구에 대한 라이센스를 구매해야 합니까 아니면 오픈 소스 라이센스를 선택해야 합니까?,등

이 섹션에서는 다양한 도메인에 따라 업계에서 사용되는 인기있는 데이터 과학 도구에 대해 논의 할 것입니다.

데이터 과학은 그 자체로 광범위한 용어이며 다양한 도메인으로 구성되어 있으며 각 도메인마다 고유 한 비즈니스 중요성과 복잡성이 있으며 아래 이미지에서 아름답게 포착됩니다:

데이터 과학 스펙트럼은 다양한 도메인으로 구성되며 이러한 도메인은 상대적인 복잡성과 그들이 제공하는 비즈니스 가치로 표현됩니다. 우리가 내가 위의 스펙트럼에 표시 한 점의 각 하나를 차지하자.

보고 및 비즈니스 인텔리전스

의 스펙트럼의 하단부터 시작하자. 이를 통해 조직은 트렌드와 패턴을 식별하여 중요한 전략적 결정을 내릴 수 있습니다. 분석 유형은 잘못,데이터 분석,대시 보드에 이르기까지 다양합니다.

이러한 도메인에서 일반적으로 사용되는 도구는 다음과 같습니다:

  • 엑셀-그것은 당신이 두 번 빠른 시간에 분석을 할 수 있도록 피벗 테이블과 차트를 포함하여 다양한 옵션을 제공합니다. 단 몇 번의 클릭만으로 모든 데이터 소스를 통합,검색,시각화 및 분석할 수 있습니다. 그것은 그렇게 인기가 만드는 배울 수있는 쉽고 직관적 인 도구입니다.

  • 극적 장면-그것은 오늘날 시장에서 가장 인기있는 데이터 시각화 도구 사이입니다. 많은 양의 데이터를 처리 할 수 있으며 엑셀 같은 계산 기능 및 매개 변수를 제공합니다. 극적 장면 때문에 깔끔한 대시 보드와 스토리 인터페이스의 잘 좋아한다.

  • 티지는-그것은 대시 보드,자동화 된 배포판 및 기타 주요 데이터 분석 작업을 지원하는 또 다른 양방향 도구입니다.

  • 마이크로소프트가 제공하는 비즈니스 인텔리전스(양방향)공간. 파워비는 마이크로소프트 기술과 통합하기 위해 만들어졌다. 그래서 만약 당신의 조직 셰어 포인트 또는 데이터베이스 사용자,당신과 당신의 팀은이 도구에 대 한 작업을 사랑 합니다.

  • 구글 애널리틱스-구글 애널리틱스가 어떻게 이 목록에 올랐는지 궁금하십니까? 디지털 마케팅은 비즈니스를 변화시키는 데 중요한 역할을하며 디지털 노력을 분석하는 것보다 더 좋은 도구는 없습니다.

예측 분석 및 기계 학습 도구

사다리를 더 올라가면서 비즈니스 가치뿐만 아니라 복잡성면에서 지분이 높아졌습니다! 이것은 대부분의 데이터 과학자의 빵과 버터가 나오는 영역입니다. 해결할 문제 유형 중 일부는 통계 모델링,예측,신경망 및 딥 러닝입니다.

이 도메인에서 일반적으로 사용되는 도구를 이해합시다:

  • 파이썬-이 때문에 용이성,유연성,오픈 소스 자연의 업계에서 오늘날 데이터 과학에 대한 가장 지배적 인 언어 중 하나입니다. 그것은 빠른 인기와 수용을 얻고 있다.

  • 아르 자형-그것은 데이터 과학에서 매우 일반적으로 사용되고 존경받는 또 다른 언어입니다. 그리고 그것은 대부분의 기계 학습 작업을 지원하는 패키지와 라이브러리의 과다와 함께 제공.

  • 아파치 스파크-스파크는 2010 년 버클리에 의해 오픈 소스 이후 빅 데이터에서 가장 큰 커뮤니티 중 하나가되고있다. 그것은 유연성,속도,계산 능력 등과 같은 여러 이점을 제공하므로 빅 데이터 분석의 스위스 군용 나이프로 알려져 있습니다.

  • 줄리아-그것은 곧 언어와 파이썬의 후계자로 선전되고있다. 그것은 아직 초기 단계에 있으며 미래에 어떻게 수행되는지 보는 것은 흥미로울 것입니다.

  • 주피터 노트북-이 노트북은 파이썬에서 코딩에 널리 사용됩니다. 그것은 주로 파이썬에 사용되는 동안,그것은 또한 줄리아와 같은 다른 언어를 지원합니다,아르 자형,기타.

우리가 지금까지 논의한 도구는 진정한 오픈 소스 도구입니다. 당신은 그들을 위해 지불 또는 추가 라이센스를 구입 할 필요가 없습니다. 그들은 유지 하 고 정기적으로 업데이트를 릴리스 번성 하 고 활동적인 커뮤니티.

이제 업계 리더로 인정받는 프리미엄 도구를 확인할 것입니다:

  • 사스–그것은 매우 인기 있고 강력한 도구입니다. 은행 및 금융 부문에서 널리 사용되고 일반적으로 사용됩니다. 그것은 아메리칸 익스프레스,일본 모건,뮤 시그마,스코틀랜드 왕립 은행 등과 같은 민간 조직에서 매우 높은 점유율을 가지고 있습니다.

  • 사회 과학 통계 패키지에 대한 짧은,사회 과학 통계 패키지는 2009 년 아이비엠에 의해 인수되었다. 고급 통계 분석,방대한 기계 학습 알고리즘 라이브러리,텍스트 분석 등을 제공합니다.

  • 매트랩-매트랩은 조직적인 측면에서 매우 과소 평가되었지만 학계 및 연구 부문에서 널리 사용되고 있습니다. 최근 파이썬,아르 자형,사스 등의 분야에서 많은 기반을 잃어 버렸지 만,특히 미국의 대학들은 여전히 매트랩을 사용하여 많은 학부 과정을 가르치고 있습니다.

딥 러닝을 위한 공통 프레임워크

딥 러닝은 높은 전산 자원을 필요로 하며,이러한 자원을 효과적으로 활용하기 위해서는 특별한 프레임워크가 필요하다. 이 때문에,당신은 가장 가능성이 필요합니다.

이 섹션에서 딥 러닝에 사용되는 프레임 워크를 살펴 보겠습니다.

  • 텐서 플로우-오늘날 업계에서 가장 널리 사용되는 도구입니다. 구글은 그와 함께 할 수있는 뭔가가있을 수 있습니다!
  • 피 토치–이 매우 유연한 딥 러닝 프레임 워크는 텐서 플로우에 큰 경쟁을주고 있습니다. 2502>

인공지능 도구

Autom 이러한 도구를 들어하지 않은 경우,그것은 자신을 교육 할 수있는 좋은 시간이다! 이것은 데이터 과학자로서 당신이 가까운 장래에 함께 일할 수있는 것일 수 있습니다.

가장 인기있는 자동 도구 중 일부는 자동 케라스입니다.,구글 클라우드 왓슨,데이터 로봇,에이지 20 의 무인 인공 지능,그리고 아마존의 렉스. 오토매틱은 인공지능/머신러닝 커뮤니티에서 다음 큰 일이 될 것으로 예상된다. 그것은 비즈니스 리더가 전략적 결정을 내리는 데 사용할 수 있도록 사물의 기술적 측면을 제거하거나 줄이는 것을 목표로합니다.

이러한 도구는 전체 파이프 라인을 자동화 할 수 있습니다!

엔드 노트

데이터 수집 엔진과 데이터 검색,처리 및 저장을 위한 파이프라인을 수행하는 데 필요한 도구에 대해 논의했습니다. 데이터 과학은 도메인의 큰 스펙트럼으로 구성되어 있으며 각 도메인은 도구 및 프레임 워크의 자신의 세트가 있습니다.

데이터 과학 도구를 선택하는 것은 종종 개인의 선택,도메인 또는 프로젝트,그리고 물론 조직에 이르기까지 다양합니다.



+