22 powszechnie stosowane narzędzia do Data Science i Machine Learning w 2020 r.

przegląd

  • istnieje mnóstwo narzędzi do data science – które z nich powinieneś wybrać?
  • Oto lista ponad 20 narzędzi do analizy danych na różnych etapach cyklu życia data science

wprowadzenie

jakie są najlepsze narzędzia do wykonywania zadań data science? Jakie narzędzie powinieneś wybrać jako nowicjusz w data science?

jestem pewien, że zadawałeś (lub szukałeś) te pytania w pewnym momencie swojej własnej podróży do nauki danych. To są ważne pytania! W branży nie brakuje narzędzi do analizy danych. Wybór jednego na swoją podróż i karierę może być trudną decyzją.

data_science_tools

spójrzmy prawdzie w oczy – data science to szerokie spektrum i każda z jej domen wymaga obsługi danych w unikalny sposób, który prowadzi wielu analityków/analityków danych do nieporozumień. A jeśli jesteś liderem biznesowym, natkniesz się na kluczowe pytania dotyczące narzędzi wybranych przez Ciebie i twoją firmę, ponieważ mogą one mieć długoterminowy wpływ.

więc ponownie, pytanie brzmi, które narzędzie Data science wybrać?

w tym artykule postaram się usunąć to zamieszanie, wymieniając szeroko stosowane narzędzia używane w przestrzeni nauki danych w podziale na ich użycie i mocne strony. Więc zaczynajmy!

a jeśli jesteś nowicjuszem w uczeniu maszynowym i / lub analityce biznesowej, lub dopiero zaczynasz, zachęcam do skorzystania z niesamowitej inicjatywy Analytics Vidhya o nazwie UnLock 2020. Obejmując dwa kompleksowe programy-Machine Learning Starter Program i Business Analytics Starter Program-ta inicjatywa jest ograniczona czasowo, więc musisz jak najszybciej się zapisać,aby dać swojemu zawodowi data science ogromny impuls!

spis treści

  • nurkowanie w Big Data – narzędzia do obsługi Big Data
    • objętość
    • różnorodność
    • objętość
  • narzędzia dla analityki danych
    • raportowanie i Business Intelligence
    • Modelowanie predykcyjne i uczenie maszynowe
    • sztuczna inteligencja

narzędzia Data Science dla Big Data

aby naprawdę zrozumieć znaczenie Big Data, ważne jest, abyśmy zrozumieli podstawowe zasady, które definiują dane jako big data. Są one znane jako 3 V dużych danych:

  • objętość
  • odmiana
  • prędkość

narzędzia do obsługi objętości

jak sama nazwa wskazuje, objętość odnosi się do skali i ilości danych. Aby zrozumieć skalę danych, o których mówię, musisz wiedzieć, że ponad 90% danych na świecie powstało w ciągu ostatnich dwóch lat!

w ciągu dekady, wraz ze wzrostem ilości danych, technologia stała się również lepsza. Zmniejszenie kosztów obliczeniowych i przechowywania danych znacznie ułatwiło gromadzenie i przechowywanie ogromnych ilości danych.

objętość danych Określa, czy kwalifikuje się jako big data, czy nie.

gdy mamy dane w zakresie od 1 GB do około 10 GB, tradycyjne narzędzia do analizy danych zwykle działają dobrze w takich przypadkach. Co to za narzędzia?

  • Microsoft Excel – Excel jest najprostszym i najpopularniejszym narzędziem do obsługi małych ilości danych. Maksymalna ilość obsługiwanych wierszy to tylko cień ponad 1 milion, a jeden arkusz może obsłużyć tylko do 16 380 kolumn na raz. Te liczby są po prostu niewystarczające, gdy ilość danych jest duża.

  • Microsoft Access-jest to popularne narzędzie firmy Microsoft, które służy do przechowywania danych. Mniejsze bazy danych do 2 GB mogą być obsługiwane płynnie za pomocą tego narzędzia, ale poza tym zaczyna pękać.

  • SQL-SQL jest jednym z najpopularniejszych systemów zarządzania danymi, który istnieje od lat 70. XX wieku. był podstawowym rozwiązaniem bazodanowym przez kilka dziesięcioleci. SQL nadal pozostaje popularny, ale jest wada – trudno jest go skalować w miarę rozwoju bazy danych.

omówiliśmy niektóre z podstawowych narzędzi do tej pory. Nadszedł czas, aby uwolnić wielkie działa teraz! Jeśli Twoje dane są większe niż 10 GB, aż do przestrzeni dyskowej większej niż 1 tb+, musisz wdrożyć narzędzia wymienione poniżej:

  • Hadoop-jest to rozproszony framework open-source, który zarządza przetwarzaniem i przechowywaniem danych dla dużych zbiorów danych. Prawdopodobnie natkniesz się na to narzędzie, gdy zbudujesz projekt uczenia maszynowego od podstaw.

  • Hive-jest to hurtownia danych zbudowana na bazie Hadoop. Hive zapewnia interfejs podobny do SQL do odpytywania danych przechowywanych w różnych bazach danych i systemach plików, które integrują się z Hadoop.

narzędzia do obsługi odmiany

odmiana odnosi się do różnych typów danych, które są tam. Typ danych może być jednym z tych-dane ustrukturyzowane i nieustrukturyzowane.

przejrzyjmy przykłady leżące pod parasolem tych różnych typów danych:

poświęć chwilę na obserwację tych przykładów i skoreluj je z rzeczywistymi danymi.

jak można zauważyć w przypadku danych strukturalnych, istnieje pewna kolejność i struktura tych typów danych, podczas gdy w przypadku danych nieustrukturyzowanych przykłady nie podążają za żadnym trendem ani wzorcem. Na przykład opinie klientów mogą różnić się długością, odczuciami i innymi czynnikami. Co więcej, tego typu dane są ogromne i zróżnicowane.

rozwiązanie tego typu danych może być bardzo trudne, więc jakie są różne narzędzia do analizy Danych dostępne na rynku do zarządzania i obsługi tych różnych typów danych?

dwie najczęściej używane bazy danych to sql i NoSQL. SQL był dominującym graczem na rynku przez wiele lat, zanim pojawił się NoSQL.

niektóre przykłady dla SQL to Oracle, MySQL, SQLite, podczas gdy NoSQL składa się z popularnych baz danych, takich jak MongoDB, Cassandra itp. Bazy danych NoSQL są bardzo popularne ze względu na ich zdolność do skalowania i obsługi dynamicznych danych.

narzędzia do obsługi prędkości

trzecie i ostatnie V oznacza prędkość. Jest to szybkość, z jaką dane są przechwytywane. Dotyczy to zarówno danych w czasie rzeczywistym, jak i innych danych. Będziemy tu mówić głównie o danych w czasie rzeczywistym.

mamy wokół siebie wiele przykładów, które przechwytują i przetwarzają dane w czasie rzeczywistym. Najbardziej skomplikowane są dane z czujników gromadzone przez samochody samojezdne. Wyobraź sobie, że jesteś w samodzielnym samochodzie-samochód musi dynamicznie zbierać i przetwarzać dane dotyczące pasa ruchu, odległości od innych pojazdów itp. wszystko w tym samym czasie!

niektóre inne przykłady gromadzonych danych w czasie rzeczywistym to:

  • CCTV
  • handel akcjami
  • wykrywanie oszustw przy transakcji kartą kredytową
  • dane sieciowe – media społecznościowe (Facebook, Twitter itp.)

wiedziałeś?

podczas każdej sesji handlowej na Nowojorskiej Giełdzie generowane jest ponad 1 TB danych!

przejdźmy teraz do niektórych powszechnie używanych narzędzi do analizy danych do obsługi danych w czasie rzeczywistym:

  • Apache Kafka-Kafka jest narzędziem open-source Apache. Służy do budowy potoków danych w czasie rzeczywistym. Niektóre z zalet Kafki to-jest odporna na błędy, naprawdę szybka i używana w produkcji przez wiele organizacji.

  • Apache Storm-to narzędzie Apache może być używane z prawie wszystkimi językami programowania. Może przetwarzać do 1 miliona krotek na sekundę i jest wysoce skalowalny. Jest to dobre narzędzie do rozważenia wysokiej prędkości danych.
  • Amazon Kinesis-to narzędzie firmy Amazon jest podobne do Kafki, ale wiąże się z kosztem subskrypcji. Jest jednak oferowany jako gotowe rozwiązanie, co czyni go bardzo potężną opcją dla organizacji.

  • Apache Flink-Flink to kolejne narzędzie Apache, którego możemy używać do danych w czasie rzeczywistym. Niektóre z zalet Flink są wysoka wydajność, odporność na błędy i wydajne zarządzanie pamięcią.

teraz, gdy mamy solidne zrozumienie różnych narzędzi powszechnie używanych do pracy z dużymi danymi, przejdźmy do segmentu, w którym można wykorzystać dane, stosując zaawansowane techniki uczenia maszynowego i algorytmy.

powszechnie stosowane narzędzia do analizy danych

jeśli tworzysz zupełnie nowy projekt dotyczący analizy danych, będziesz mieć na uwadze mnóstwo pytań. Jest to prawdą bez względu na Twój poziom – niezależnie od tego, czy jesteś analitykiem danych, analitykiem danych, kierownikiem projektu czy starszym kierownikiem ds.

:

  • jakich narzędzi należy używać w różnych dziedzinach nauki o danych?
  • czy powinienem kupić licencje na Narzędzia, czy zdecydować się na open-source?

w tej sekcji omówimy niektóre z popularnych narzędzi do analizy danych stosowanych w branży według różnych dziedzin.

Data Science to szerokie pojęcie samo w sobie i składa się z wielu różnych domen, a każda domena ma swoje znaczenie biznesowe i złożoność, co jest pięknie uchwycone na poniższym obrazku:

spektrum Data science składa się z różnych domen, a domeny te są reprezentowane przez ich względną złożoność i wartość biznesową, którą zapewniają. Weźmy każdy z punktów, które pokazałem w powyższym spektrum.

raportowanie i Business Intelligence

zacznijmy od dolnego końca spektrum. Umożliwia organizacji identyfikację trendów i wzorców w celu podejmowania kluczowych decyzji strategicznych. Rodzaje analiz wahają się od błędów, analizy danych, aż po dashboarding.

powszechnie stosowanymi narzędziami w tych domenach są:

  • Excel-oferuje szeroki zakres opcji, w tym Tabele przestawne i wykresy, które pozwalają na analizę w podwójnie szybkim czasie. Jest to, w skrócie, Swiss Army Knife of data science / analytics tools
  • QlikView-umożliwia konsolidację, wyszukiwanie, wizualizację i analizę wszystkich źródeł danych za pomocą zaledwie kilku kliknięć. Jest to łatwe i intuicyjne narzędzie do nauki, co czyni go tak popularnym.

  • Tableau – jest to jeden z najbardziej popularnych narzędzi wizualizacji danych na rynku dzisiaj. Jest w stanie obsłużyć duże ilości danych, a nawet oferuje funkcje i parametry podobne do Excela. Tableau jest lubiany ze względu na schludny pulpit i interfejs historii.

  • Microstrategy-to kolejne narzędzie BI, które obsługuje pulpity nawigacyjne, zautomatyzowane dystrybucje i inne kluczowe zadania analizy danych.

  • PowerBI – jest to oferta firmy Microsoft w obszarze Business Intelligence (BI). PowerBI został zbudowany w celu integracji z technologiami Microsoft. Więc jeśli Twoja organizacja ma użytkownika bazy danych Sharepoint lub SQL, ty i twój zespół pokochacie pracę nad tym narzędziem.

  • Google Analytics-zastanawiasz się, jak Google Analytics znalazł się na tej liście? Cóż, marketing cyfrowy odgrywa ważną rolę w przekształcaniu firm i nie ma lepszego narzędzia niż to, aby analizować twoje wysiłki cyfrowe.

narzędzia do analizy predykcyjnej i uczenia maszynowego

posuwając się dalej po drabinie, stawka stała się wysoka zarówno pod względem złożoności, jak i wartości biznesowej! Jest to domena, z której pochodzi chleb powszedni większości naukowców zajmujących się danymi. Niektóre rodzaje problemów, które rozwiążesz, to modelowanie statystyczne, prognozowanie, sieci neuronowe i uczenie głębokie.

pozwól nam zrozumieć powszechnie używane Narzędzia w tej dziedzinie:

  • Python – jest to jeden z najbardziej dominujących języków data science w branży dzisiaj ze względu na jego łatwość, elastyczność, charakter open-source. Zyskał szybką popularność i akceptacjĘ w społeczności ML.

  • R-jest to kolejny bardzo powszechnie używany i szanowany język w naukach o danych. R ma rozwijającą się i niezwykle wspierającą społeczność, a także mnóstwo pakietów i bibliotek, które obsługują większość zadań uczenia maszynowego.

  • Apache Spark-Spark został otwarty przez UC Berkley w 2010 roku i od tego czasu stał się jedną z największych społeczności w zakresie big data. Jest znany jako swiss army knife of big data analytics, ponieważ oferuje wiele zalet, takich jak elastyczność, szybkość, moc obliczeniowa itp.

  • Julia-jest to nadchodzący język i jest reklamowany jako następca Pythona. Jest jeszcze w swoim rodzącym się etapie i będzie interesujące zobaczyć, jak będzie działać w przyszłości.

  • Notebooki Jupyter-te notatniki są szeroko stosowane do kodowania w Pythonie. Chociaż jest używany głównie dla Pythona, obsługuje również inne języki, takie jak Julia, R itp.

narzędzia, które omówiliśmy do tej pory, są prawdziwymi narzędziami open-source. Nie musisz za nie płacić ani kupować żadnych dodatkowych licencji. Mają kwitnące i aktywne społeczności, które regularnie utrzymują i wydają aktualizacje.

teraz sprawdzimy niektóre narzędzia premium, które są uznawane za liderów branży:

  • SAS – jest to bardzo popularne i potężne narzędzie. Jest powszechnie i powszechnie stosowany w sektorze bankowym i finansowym. Ma bardzo duży udział w prywatnych organizacjach, takich jak American Express, JP Morgan, Mu Sigma, Royal Bank Of Scotland itp.

  • SPSS-skrót od Statistical Package for Social Sciences, SPSS został przejęty przez IBM w 2009 roku. Oferuje zaawansowaną analizę statystyczną, ogromną bibliotekę algorytmów uczenia maszynowego, analizę tekstu i wiele więcej.

  • Matlab-Matlab jest bardzo niedoceniany w środowisku organizacyjnym, ale jest szeroko stosowany w środowiskach akademickich i badawczych. W ostatnim czasie wiele stracił na znaczeniu na rzecz Pythona, R i SAS, ale uniwersytety, zwłaszcza w USA, nadal uczą wielu kursów licencjackich za pomocą Matlab.

wspólne ramy dla głębokiego uczenia

głębokie uczenie wymaga wysokich zasobów obliczeniowych i potrzebuje specjalnych ram, aby efektywnie wykorzystać te zasoby. Z tego powodu najprawdopodobniej potrzebujesz GPU lub TPU.

przyjrzyjmy się niektórym frameworkom używanym do głębokiego uczenia się w tej sekcji.

  • TensorFlow-jest to obecnie najpowszechniej stosowane narzędzie w branży. Google może mieć z tym coś wspólnego!
  • PyTorch – ten super elastyczny framework deep learning daje dużą konkurencję TensorFlow. PyTorch został niedawno opracowany przez naukowców z Facebooka
  • Keras i Caffe to inne frameworki szeroko stosowane do tworzenia aplikacji do uczenia głębokiego

narzędzia sztucznej inteligencji

era AutoML jest tutaj. Jeśli nie słyszałeś o tych narzędziach, to jest dobry czas, aby się kształcić! To może być to, z czym będziesz pracować jako analityk danych w najbliższej przyszłości.

niektóre z najpopularniejszych narzędzi AutoML to AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, H20 's Driverless AI i Amazon’ s Lex. AutoML ma być kolejną dużą rzeczą w społeczności AI / ML. Ma na celu wyeliminowanie lub ograniczenie technicznej strony rzeczy, aby liderzy biznesowi mogli wykorzystać ją do podejmowania strategicznych decyzji.

te narzędzia będą w stanie zautomatyzować cały rurociąg!

Uwagi końcowe

omówiliśmy mechanizm gromadzenia danych i narzędzia wymagane do wykonania potoku do pobierania, przetwarzania i przechowywania danych. Data Science składa się z dużego spektrum domen, a każda domena ma swój własny zestaw narzędzi i frameworków.

wybór narzędzia do analizy danych często sprowadza się do osobistego wyboru, domeny lub projektu i oczywiście organizacji.



+