22 Weit verbreitete Data Science- und Machine Learning-Tools im Jahr 2020

Übersicht

  • Es gibt eine Vielzahl von Data Science-Tools – welches sollten Sie sich aussuchen?
  • Hier finden Sie eine Liste von über 20 Data Science-Tools für verschiedene Phasen des Data Science-Lebenszyklus

Einführung

Was sind die besten Tools für die Durchführung von Data Science-Aufgaben? Und welches Tool sollten Sie als Newcomer in Data Science in die Hand nehmen?

Ich bin mir sicher, dass Sie diese Fragen irgendwann auf Ihrer eigenen Data Science-Reise gestellt (oder danach gesucht) haben. Dies sind gültige Fragen! An Data-Science-Tools mangelt es in der Branche nicht. Die Auswahl eines für Ihre Reise und Karriere kann eine schwierige Entscheidung sein.

data_science_tools

Seien wir ehrlich – Data Science ist ein riesiges Spektrum und jede seiner Domänen erfordert den Umgang mit Daten auf einzigartige Weise, was viele Analysten / Datenwissenschaftler verwirrt. Und wenn Sie ein Unternehmensleiter sind, würden Sie auf entscheidende Fragen zu den Tools stoßen, die Sie und Ihr Unternehmen wählen, da dies langfristige Auswirkungen haben könnte.

Die Frage ist also wieder, welches Data-Science-Tool sollten Sie wählen?

In diesem Artikel werde ich versuchen, diese Verwirrung zu beseitigen, indem ich weit verbreitete Tools auflisten werde, die im Data Science-Bereich verwendet werden, aufgeschlüsselt nach ihrer Verwendung und ihren Stärken. Also lasst uns anfangen!

Und wenn Sie ein Neuling im Bereich maschinelles Lernen und / oder Business Analytics sind oder gerade erst anfangen, empfehle ich Ihnen, eine unglaubliche Initiative von Analytics Vidhya namens UnLock 2020 zu nutzen. Diese Initiative umfasst zwei umfassende Programme – das Machine Learning Starter Program und das Business Analytics Starter Program – und ist zeitlich begrenzt, sodass Sie sich so schnell wie möglich anmelden müssen, um Ihrer Data Science-Karriere einen massiven Schub zu verleihen!

Inhaltsverzeichnis

  • Eintauchen in Big Data – Tools für den Umgang mit Big Data
    • Band
    • Band
    • Band
  • Tools für Data Science
    • Reporting und Business Intelligence
    • Vorhersagemodellierung und maschinelles Lernen
    • Künstliche Intelligenz

Data Science Tools für Big Data

Um die Bedeutung von Big Data wirklich zu verstehen, ist es wichtig, dass wir die Grundprinzipien verstehen, die die Daten als Big Data definieren. Diese sind bekannt als die 3 V’s von Big Data:

  • Volume
  • Variety
  • Velocity

Werkzeuge zur Handhabung von Volume

Wie der Name schon sagt, bezieht sich volume auf den Maßstab und die Datenmenge. Um den Umfang der Daten zu verstehen, von denen ich spreche, müssen Sie wissen, dass über 90% der Daten der Welt in den letzten zwei Jahren erstellt wurden!

Im Laufe des Jahrzehnts ist die Technologie mit der Zunahme der Datenmenge auch besser geworden. Die Senkung der Rechen- und Speicherkosten hat das Sammeln und Speichern großer Datenmengen erheblich vereinfacht.

Das Volumen der Daten definiert, ob es sich um Big Data handelt oder nicht.

Wenn wir Daten von 1 GB bis etwa 10 GB haben, funktionieren die herkömmlichen Data-Science-Tools in diesen Fällen in der Regel gut. Also, was sind diese Werkzeuge?

  • Microsoft Excel – Excel ist das einfachste und beliebteste Werkzeug für den Umgang mit kleinen Datenmengen. Die maximale Anzahl der unterstützten Zeilen beträgt etwas mehr als 1 Million, und ein Blatt kann nur bis zu 16.380 Spalten gleichzeitig verarbeiten. Diese Zahlen reichen einfach nicht aus, wenn die Datenmenge groß ist.

  • Microsoft Access – Es ist ein beliebtes Tool von Microsoft, das für die Datenspeicherung verwendet wird. Kleinere Datenbanken bis zu 2 GB können mit diesem Tool problemlos gehandhabt werden, aber darüber hinaus beginnt es zu knacken.

  • SQL – SQL ist eines der beliebtesten Datenmanagementsysteme, das es seit den 1970er Jahren gibt. Es war die primäre Datenbanklösung für ein paar Jahrzehnte. SQL ist immer noch beliebt, aber es gibt einen Nachteil – Es wird schwierig, es zu skalieren, wenn die Datenbank weiter wächst.

Wir haben bisher einige der grundlegenden Tools behandelt. Es ist Zeit, die großen Kanonen jetzt zu entfesseln! Wenn Ihre Daten mehr als 10 GB bis zu einem Speicher von mehr als 1 TB umfassen, müssen Sie die unten genannten Tools implementieren:

  • Hadoop – Es ist ein verteiltes Open-Source-Framework, das die Datenverarbeitung und -speicherung für große Datenmengen verwaltet. Sie werden wahrscheinlich auf dieses Tool stoßen, wenn Sie ein maschinelles Lernprojekt von Grund auf neu erstellen.

  • Hive – Es ist ein Data Warehouse auf Hadoop gebaut. Hive bietet eine SQL-ähnliche Schnittstelle zum Abfragen der in verschiedenen Datenbanken und Dateisystemen gespeicherten Daten, die in Hadoop integriert sind.

Werkzeuge für den Umgang mit Vielfalt

Vielfalt bezieht sich auf die verschiedenen Arten von Daten, die es gibt. Der Datentyp kann einer von diesen sein – Strukturierte und unstrukturierte Daten.

Lassen Sie uns die Beispiele durchgehen, die unter das Dach dieser verschiedenen Datentypen fallen:

Nehmen Sie sich einen Moment Zeit, um diese Beispiele zu betrachten und sie mit Ihren realen Daten zu korrelieren.

Wie Sie vielleicht bei strukturierten Daten beobachtet haben, gibt es bei diesen Datentypen eine bestimmte Reihenfolge und Struktur, während bei unstrukturierten Daten die Beispiele keinem Trend oder Muster folgen. Beispielsweise kann das Kundenfeedback in Bezug auf Länge, Gefühle und andere Faktoren variieren. Darüber hinaus sind diese Arten von Daten riesig und vielfältig.

Es kann sehr schwierig sein, diese Art von Daten anzugehen, also was sind die verschiedenen Data Science Tools auf dem Markt für die Verwaltung und Handhabung dieser verschiedenen Datentypen?

Die beiden häufigsten Datenbanken sind SQL und NoSQL. SQL war einige Jahre lang der marktbeherrschende Akteur, bevor NoSQL entstand.

Einige Beispiele für SQL sind Oracle, MySQL, SQLite, während NoSQL aus gängigen Datenbanken wie MongoDB, Cassandra usw. besteht. Diese NoSQL-Datenbanken verzeichnen aufgrund ihrer Fähigkeit, dynamische Daten zu skalieren und zu verarbeiten, eine enorme Akzeptanz.

Werkzeuge zur Handhabung der Geschwindigkeit

Das dritte und letzte V stellt die Geschwindigkeit dar. Dies ist die Geschwindigkeit, mit der die Daten erfasst werden. Dies umfasst sowohl Echtzeit- als auch Nicht-Echtzeitdaten. Wir werden hier hauptsächlich über die Echtzeitdaten sprechen.

Wir haben viele Beispiele um uns herum, die Echtzeitdaten erfassen und verarbeiten. Am komplexesten sind die Sensordaten, die von selbstfahrenden Autos gesammelt werden. Stellen Sie sich vor, Sie sitzen in einem selbstfahrenden Auto – das Auto muss dynamisch Daten über seine Fahrspur, die Entfernung zu anderen Fahrzeugen usw. sammeln und verarbeiten. alles zur gleichen Zeit!

Einige andere Beispiele für Echtzeitdaten, die gesammelt werden, sind:

  • CCTV
  • Aktienhandel
  • Betrugserkennung für Kreditkartentransaktionen
  • Netzwerkdaten – soziale Medien (Facebook, Twitter usw.)

Wussten Sie schon?

Während jeder Handelssitzung an der New Yorker Börse werden mehr als 1 TB Daten generiert!

Kommen wir nun zu einigen der am häufigsten verwendeten Data Science-Tools für den Umgang mit Echtzeitdaten:

  • Apache Kafka – Kafka ist ein Open-Source-Tool von Apache. Es wird zum Erstellen von Echtzeit-Datenpipelines verwendet. Einige der Vorteile von Kafka sind – Es ist fehlertolerant, sehr schnell und wird in der Produktion von einer großen Anzahl von Organisationen verwendet.

  • Apache Storm – Dieses Tool von Apache kann mit fast allen Programmiersprachen verwendet werden. Es kann bis zu 1 Million Tupel pro Sekunde verarbeiten und ist hoch skalierbar. Es ist ein gutes Werkzeug für hohe Datengeschwindigkeit zu berücksichtigen.
  • Amazon Kinesis – Dieses Tool von Amazon ähnelt Kafka, ist jedoch mit Abonnementkosten verbunden. Es wird jedoch als sofort einsatzbereite Lösung angeboten, was es zu einer sehr leistungsstarken Option für Organisationen macht.

  • Apache Flink – Flink ist ein weiteres Tool von Apache, das wir für Echtzeitdaten verwenden können. Einige der Vorteile von Flink sind hohe Leistung, Fehlertoleranz und effiziente Speicherverwaltung.

Nachdem wir nun ein solides Verständnis für die verschiedenen Tools haben, die üblicherweise für die Arbeit mit Big Data verwendet werden, gehen wir zu dem Segment über, in dem Sie die Daten nutzen können, indem Sie fortschrittliche Techniken und Algorithmen für maschinelles Lernen anwenden.

Weit verbreitete Data-Science-Tools

Wenn Sie ein brandneues Data-Science-Projekt einrichten, haben Sie eine Menge Fragen im Kopf. Dies gilt unabhängig von Ihrem Niveau – ob Sie ein Data Scientist, ein Datenanalyst, ein Projektmanager oder ein Senior Data Science Executive sind.

Einige der Fragen, mit denen Sie konfrontiert werden, sind:

  • Welche Tools sollten Sie in verschiedenen Bereichen der Data Science einsetzen?
  • Soll ich Lizenzen für die Tools kaufen oder mich für eine Open-Source-Version entscheiden?, und so weiter

In diesem Abschnitt werden wir einige der beliebtesten Data-Science-Tools diskutieren, die in der Branche nach verschiedenen Domänen verwendet werden.

Data Science ist ein weit gefasster Begriff für sich und besteht aus einer Vielzahl verschiedener Domänen, und jede Domäne hat ihre eigene geschäftliche Bedeutung und Komplexität, die im folgenden Bild wunderschön dargestellt ist:

Das Data Science-Spektrum besteht aus verschiedenen Domänen und diese Domänen werden durch ihre relative Komplexität und den von ihnen bereitgestellten Geschäftswert dargestellt. Lassen Sie uns jeden der Punkte aufgreifen, die ich im obigen Spektrum gezeigt habe.

Reporting und Business Intelligence

Beginnen wir mit dem unteren Ende des Spektrums. Es ermöglicht einer Organisation, Trends und Muster zu identifizieren, um wichtige strategische Entscheidungen zu treffen. Die Analysearten reichen von MIS, Data Analytics bis hin zum Dashboarding.

Die in diesen Bereichen am häufigsten verwendeten Tools sind:

  • Excel – Es bietet eine Vielzahl von Optionen, einschließlich Pivot-Tabellen und Diagrammen, mit denen Sie Analysen in doppelt so kurzer Zeit durchführen können. Kurz gesagt, das Schweizer Taschenmesser der Data Science / Analytics–Tools
  • QlikView – Mit ihm können Sie alle Ihre Datenquellen mit nur wenigen Klicks konsolidieren, durchsuchen, visualisieren und analysieren. Es ist ein einfaches und intuitives Werkzeug zu lernen, was es so beliebt macht.

  • Tableau – Es gehört zu den beliebtesten Datenvisualisierungstools auf dem heutigen Markt. Es ist in der Lage, große Datenmengen zu verarbeiten und bietet sogar Excel-ähnliche Berechnungsfunktionen und Parameter. Tableau ist wegen seiner übersichtlichen Dashboard- und Story-Oberfläche sehr beliebt.

  • Microstrategy – Es ist ein weiteres BI-Tool, das Dashboards, automatisierte Verteilungen und andere wichtige Datenanalyseaufgaben unterstützt.

  • PowerBI – Es ist ein Microsoft-Angebot im Bereich Business Intelligence (BI). PowerBI wurde für die Integration mit Microsoft-Technologien entwickelt. Wenn Ihre Organisation also über einen Sharepoint- oder SQL-Datenbankbenutzer verfügt, werden Sie und Ihr Team es lieben, an diesem Tool zu arbeiten.

  • Google Analytics – Sie fragen sich, wie Google Analytics es auf diese Liste geschafft hat? Nun, digitales Marketing spielt eine wichtige Rolle bei der Transformation von Unternehmen, und es gibt kein besseres Tool als dieses, um Ihre digitalen Bemühungen zu analysieren.

Tools für prädiktive Analysen und maschinelles Lernen

Wenn Sie sich weiter nach oben bewegen, stehen sowohl die Komplexität als auch der Geschäftswert auf dem Spiel! Dies ist die Domäne, aus der das Brot und die Butter der meisten Datenwissenschaftler stammen. Einige der Arten von Problemen, die Sie lösen werden, sind statistische Modellierung, Prognose, neuronale Netze und Deep Learning.

Lassen Sie uns die häufig verwendeten Tools in diesem Bereich verstehen:

  • Python – Dies ist aufgrund seiner Leichtigkeit, Flexibilität und Open-Source-Natur eine der dominantesten Sprachen für Data Science in der heutigen Branche. Es hat eine schnelle Popularität und Akzeptanz in der ML-Community gewonnen.

  • R – Es ist eine weitere sehr häufig verwendete und angesehene Sprache in der Datenwissenschaft. R hat eine blühende und unglaublich unterstützende Community und enthält eine Vielzahl von Paketen und Bibliotheken, die die meisten Aufgaben des maschinellen Lernens unterstützen.

  • Apache Spark – Spark wurde 2010 von UC Berkley als Open Source entwickelt und hat sich seitdem zu einer der größten Communities im Bereich Big Data entwickelt. Es ist bekannt als das Schweizer Taschenmesser der Big Data-Analyse, da es mehrere Vorteile wie Flexibilität, Geschwindigkeit, Rechenleistung usw. bietet.

  • Julia – Es ist eine kommende Sprache und wird als Nachfolger von Python angepriesen. Es befindet sich noch in der Entstehungsphase und es wird interessant sein zu sehen, wie es sich in Zukunft entwickelt.

  • Jupyter Notebooks – Diese Notebooks werden häufig zum Codieren in Python verwendet. Während es hauptsächlich für Python verwendet wird, unterstützt es auch andere Sprachen wie Julia, R usw.

Die Tools, die wir bisher besprochen haben, sind echte Open-Source-Tools. Sie müssen nicht dafür bezahlen oder zusätzliche Lizenzen kaufen. Sie haben blühende und aktive Communities, die regelmäßig Updates pflegen und veröffentlichen.

Jetzt werden wir uns einige Premium-Tools ansehen, die als Branchenführer anerkannt sind:

  • SAS – Es ist ein sehr beliebtes und leistungsfähiges Werkzeug. Es wird überwiegend und häufig im Banken- und Finanzsektor verwendet. Es hat einen sehr hohen Anteil an privaten Organisationen wie American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland usw.

  • SPSS – Kurz für Statistical Package for Social Sciences – wurde 2009 von IBM übernommen. Es bietet erweiterte statistische Analysen, eine umfangreiche Bibliothek mit Algorithmen für maschinelles Lernen, Textanalyse und vieles mehr.

  • Matlab – Matlab wird in der Organisationslandschaft wirklich unterschätzt, ist aber in akademischen und Forschungsabteilungen weit verbreitet. Es hat in letzter Zeit viel an Boden gegen Python, R und SAS verloren, aber Universitäten, insbesondere in den USA, unterrichten immer noch viele Grundstudiengänge mit Matlab.

Gemeinsame Frameworks für Deep Learning

Deep Learning erfordert hohe Rechenressourcen und benötigt spezielle Frameworks, um diese Ressourcen effektiv zu nutzen. Aus diesem Grund benötigen Sie höchstwahrscheinlich eine GPU oder eine TPU.

Schauen wir uns in diesem Abschnitt einige der Frameworks an, die für Deep Learning verwendet werden.

  • TensorFlow – Es ist heute das am weitesten verbreitete Tool in der Branche. Google könnte damit etwas zu tun haben!
  • PyTorch – Dieses superflexible Deep-Learning-Framework bietet TensorFlow eine große Konkurrenz. PyTorch ist kürzlich ins Rampenlicht gerückt und wurde von Forschern von Facebook entwickelt
  • Keras und Caffe sind weitere Frameworks, die ausgiebig zum Erstellen von Deep-Learning-Anwendungen verwendet werden

Künstliche Intelligenz-Tools

Die Ära von AutoML ist da. Wenn Sie noch nichts von diesen Tools gehört haben, ist es ein guter Zeitpunkt, sich weiterzubilden! Dies könnte das sein, womit Sie als Data Scientist in naher Zukunft arbeiten werden.

Einige der beliebtesten AutoML-Tools sind AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, die fahrerlose KI von H20 und Lex von Amazon. AutoML wird voraussichtlich das nächste große Ding in der AI / ML-Community sein. Es zielt darauf ab, die technische Seite der Dinge zu beseitigen oder zu reduzieren, damit Führungskräfte daraus strategische Entscheidungen treffen können.

Diese Tools können die gesamte Pipeline automatisieren!

Endnoten

Wir haben die Datenerfassungs-Engine und die Tools besprochen, die erforderlich sind, um die Pipeline zum Abrufen, Verarbeiten und Speichern von Daten zu erstellen. Data Science besteht aus einem großen Spektrum von Domänen und jede Domäne verfügt über eigene Tools und Frameworks.

Die Auswahl Ihres Data-Science-Tools hängt oft von Ihrer persönlichen Wahl, Ihrer Domäne oder Ihrem Projekt und natürlich von Ihrer Organisation ab.



+