22 Ampiamente usato Scienza dei dati e strumenti di apprendimento automatico nel 2020

Panoramica

  • Ci sono una pletora di strumenti di scienza dei dati là fuori – quale si dovrebbe prendere?
  • Ecco un elenco di oltre 20 strumenti di scienza dei dati che soddisfano le diverse fasi del ciclo di vita della scienza dei dati

Introduzione

Quali sono i migliori strumenti per eseguire attività di scienza dei dati? E quale strumento dovresti prendere come nuovo arrivato nella scienza dei dati?

Sono sicuro che hai chiesto (o cercato) queste domande ad un certo punto del tuo viaggio nella scienza dei dati. Queste sono domande valide! Non c’è carenza di strumenti di scienza dei dati nel settore. Sceglierne uno per il tuo viaggio e la tua carriera può essere una decisione difficile.

data_science_tools

Ammettiamolo – scienza dei dati è un vasto spettro e ciascuno dei suoi domini richiede la gestione dei dati in un modo unico che porta molti analisti/scienziati di dati in confusione. E se sei un leader aziendale, ti imbatteresti in domande cruciali riguardanti gli strumenti che tu e la tua azienda scegliete in quanto potrebbero avere un impatto a lungo termine.

Quindi, ancora una volta, la domanda è quale strumento di scienza dei dati dovresti scegliere?

In questo articolo, cercherò di eliminare questa confusione elencando gli strumenti ampiamente utilizzati utilizzati nello spazio della scienza dei dati suddivisi per il loro utilizzo e punti di forza. Quindi cerchiamo di iniziare!

E se sei un nuovo arrivato all’apprendimento automatico e/o all’analisi aziendale, o hai appena iniziato, ti incoraggio a sfruttare un’incredibile iniziativa di Analytics Vidhya chiamata UnLock 2020. Coprendo due programmi completi-Machine Learning Starter Program e Business Analytics Starter Program-questa iniziativa è limitata nel tempo, quindi dovresti iscriverti il prima possibile per dare alla tua carriera scientifica dei dati una spinta enorme!

Sommario

  • Immersione in Big Data – Strumenti per la gestione dei Big Data
    • Volume
    • Varietà
    • Volume
  • Strumenti per la Scienza di Dati
    • di Reporting e Business Intelligence
    • modelli Predittivi e di Machine Learning
    • Intelligenza Artificiale

Scienza di Dati Strumenti per i Big Data

Per capire il significato dietro i Big Data, è importante comprendere i principi di base che definiscono i dati big data. Questi sono noti come i 3 V di big data:

  • Volume
  • Varietà
  • Velocità

Strumenti per la gestione del volume

Come suggerisce il nome, volume si riferisce alla scala e alla quantità di dati. Per capire la scala dei dati di cui sto parlando, devi sapere che oltre il 90% dei dati nel mondo è stato creato solo negli ultimi due anni!

Nel corso del decennio, con l’aumento della quantità di dati, la tecnologia è diventata anche migliore. La diminuzione dei costi di calcolo e di archiviazione ha reso molto più semplice la raccolta e la memorizzazione di enormi quantità di dati.

Il volume dei dati definisce se si qualifica come big data o meno.

Quando abbiamo dati che vanno da 1 Gb a circa 10 Gb, i tradizionali strumenti di scienza dei dati tendono a funzionare bene in questi casi. Quindi quali sono questi strumenti?

  • Microsoft Excel – Excel prevale come lo strumento più semplice e più popolare per la gestione di piccole quantità di dati. La quantità massima di righe che supporta è solo una tonalità superiore a 1 milione e un foglio può gestire solo fino a 16.380 colonne alla volta. Questi numeri non sono semplicemente sufficienti quando la quantità di dati è grande.

  • Microsoft Access-Si tratta di uno strumento popolare da Microsoft che viene utilizzato per l’archiviazione dei dati. Database più piccoli fino a 2 Gb possono essere gestiti senza problemi con questo strumento, ma oltre a ciò, inizia a rompersi.

  • SQL-SQL è uno dei più popolari sistemi di gestione dei dati che è stato intorno dal 1970.E ‘ stata la soluzione di database primario per alcuni decenni. SQL rimane ancora popolare, ma c’è un inconveniente: diventa difficile ridimensionarlo mentre il database continua a crescere.

Abbiamo coperto alcuni degli strumenti di base finora. E ‘ il momento di scatenare i grossi calibri ora! Se i tuoi dati sono superiori a 10 Gb fino a uno spazio di archiviazione superiore a 1 Tb+, devi implementare gli strumenti che ho menzionato di seguito:

  • Hadoop-È un framework distribuito open-source che gestisce l’elaborazione e l’archiviazione dei dati per i big data. Si rischia di imbattersi in questo strumento ogni volta che si costruisce un progetto di apprendimento automatico da zero.

  • Hive-Si tratta di un data warehouse costruito sulla cima di Hadoop. Hive fornisce un’interfaccia SQL-like per interrogare i dati memorizzati in vari database e file system che si integrano con Hadoop.

Strumenti per la gestione Varietà

Varietà si riferisce ai diversi tipi di dati che sono là fuori. Il tipo di dati può essere uno di questi-dati strutturati e non strutturati.

Passiamo attraverso gli esempi che rientrano nell’ombrello di questi diversi tipi di dati:

Prenditi un momento per osservare questi esempi e correlarli con i tuoi dati del mondo reale.

Come potresti aver osservato nel caso di dati strutturati, esiste un certo ordine e struttura per questi tipi di dati mentre nel caso di dati non strutturati, gli esempi non seguono alcuna tendenza o modello. Ad esempio, il feedback dei clienti può variare in lunghezza, sentimenti e altri fattori. Inoltre, questi tipi di dati sono enormi e diversi.

Può essere molto impegnativo affrontare questo tipo di dati, quindi quali sono i diversi strumenti di data science disponibili sul mercato per gestire e gestire questi diversi tipi di dati?

I due database più comuni sono SQL e NoSQL. SQL è stato i giocatori dominanti sul mercato per un certo numero di anni prima NoSQL emerso.

Alcuni esempi per SQL sono Oracle, MySQL, SQLite, mentre NoSQL è costituito da database popolari come MongoDB, Cassandra, ecc. Questi database NoSQL stanno vedendo enormi numeri di adozione a causa della loro capacità di scalare e gestire i dati dinamici.

Strumenti per la gestione della velocità

La terza e ultima V rappresenta la velocità. Questa è la velocità con cui i dati vengono acquisiti. Questo include sia i dati in tempo reale e non in tempo reale. Parleremo principalmente dei dati in tempo reale qui.

Abbiamo molti esempi intorno a noi che catturano ed elaborano dati in tempo reale. Il più complesso sono i dati del sensore raccolti dalle auto a guida autonoma. Immagina di essere in un’auto a guida autonoma: l’auto deve raccogliere ed elaborare dinamicamente i dati relativi alla sua corsia, alla distanza da altri veicoli, ecc. tutto allo stesso tempo!

Alcuni altri esempi di dati in tempo reale raccolti sono:

  • CCTV
  • Stock trading
  • Rilevamento delle frodi per transazioni con carta di credito
  • Dati di rete-social media (Facebook, Twitter, ecc.)

Lo sapevi?

Più di 1 Tb di dati viene generato durante ogni sessione di negoziazione presso la borsa di New York!

Ora, passiamo ad alcuni degli strumenti di scienza dei dati comunemente usati per gestire i dati in tempo reale:

  • Apache Kafka-Kafka è uno strumento open-source da Apache. Viene utilizzato per la costruzione di pipeline di dati in tempo reale. Alcuni dei vantaggi di Kafka sono-È fault-tolerant, molto veloce, e utilizzato in produzione da un gran numero di organizzazioni.

  • Apache Storm-Questo strumento da Apache può essere utilizzato con quasi tutti i linguaggi di programmazione. Può elaborare fino a 1 milione di tuple al secondo ed è altamente scalabile. È un buon strumento da considerare per l’alta velocità dei dati.
  • Amazon Kinesis-Questo strumento di Amazon è simile a Kafka, ma viene fornito con un costo di abbonamento. Tuttavia, è offerto come una soluzione out-of-the-box che lo rende un’opzione molto potente per le organizzazioni.

  • Apache Flink-Flink è ancora un altro strumento da Apache che possiamo usare per i dati in tempo reale. Alcuni dei vantaggi di Flink sono alte prestazioni, tolleranza ai guasti e gestione efficiente della memoria.

Ora che abbiamo una solida conoscenza dei diversi strumenti comunemente utilizzati per lavorare con i Big Data, passiamo al segmento in cui è possibile sfruttare i dati applicando tecniche avanzate di apprendimento automatico e algoritmi.

Strumenti di data Science ampiamente utilizzati

Se stai impostando un nuovo progetto di data science, avrai in mente un sacco di domande. Questo è vero indipendentemente dal tuo livello, che tu sia un data scientist, un data analyst, un project manager o un senior data science executive.

Alcune delle domande che dovrai affrontare sono:

  • Quali strumenti dovresti usare in diversi domini della scienza dei dati?
  • Devo acquistare licenze per gli strumenti o optare per uno open-source?, e così via

In questa sezione, discuteremo alcuni degli strumenti di scienza di dati popolari usati nell’industria secondo domini diversi.

La scienza dei dati è di per sé un termine ampio e consiste in una varietà di domini diversi e ogni dominio ha la sua importanza e complessità aziendale che è splendidamente catturata nell’immagine qui sotto:

Lo spettro della scienza dei dati è costituito da vari domini e questi domini sono rappresentati dalla loro relativa complessità e dal valore aziendale che forniscono. Prendiamo ciascuno dei punti che ho mostrato nello spettro di cui sopra.

Reporting e Business Intelligence

Iniziamo con l’estremità inferiore dello spettro. Consente a un’organizzazione di identificare tendenze e modelli in modo da prendere decisioni strategiche cruciali. I tipi di analisi vanno da MIS, analisi dei dati, fino al dashboarding.

Gli strumenti comunemente usati in questi domini sono:

  • Excel-Offre una vasta gamma di opzioni tra cui tabelle pivot e grafici che consentono di eseguire analisi in tempi rapidi. Questo è, in breve, il coltellino svizzero degli strumenti di data science/analytics
  • QlikView: consente di consolidare, cercare, visualizzare e analizzare tutte le origini dati con pochi clic. Si tratta di uno strumento facile e intuitivo da imparare che lo rende così popolare.

  • Tableau – È tra gli strumenti di visualizzazione dei dati più popolari sul mercato oggi. È in grado di gestire grandi quantità di dati e offre anche funzioni e parametri di calcolo simili a Excel. Tableau è ben voluto a causa del suo cruscotto pulito e l’interfaccia storia.

  • Microstrategy-È ancora un altro strumento di BI che supporta dashboard, distribuzioni automatizzate e altre attività di analisi dei dati chiave.

  • PowerBI-Si tratta di un’offerta Microsoft nel Business Intelligence (BI) spazio. PowerBI è stato costruito per integrarsi con le tecnologie Microsoft. Quindi, se la tua organizzazione ha un utente di database Sharepoint o SQL, tu e il tuo team amerete lavorare su questo strumento.

  • Google Analytics-Ti chiedi come ha fatto Google Analytics a raggiungere questo elenco? Bene, il marketing digitale svolge un ruolo importante nella trasformazione delle aziende e non c’è strumento migliore di questo per analizzare i tuoi sforzi digitali.

Analisi predittiva e strumenti di apprendimento automatico

Salendo ulteriormente la scala, la posta in gioco è appena diventata alta in termini di complessità e valore aziendale! Questo è il dominio da cui provengono il pane e il burro della maggior parte degli scienziati di dati. Alcuni dei tipi di problemi che risolverai sono la modellazione statistica, la previsione, le reti neurali e l’apprendimento profondo.

Cerchiamo di capire gli strumenti comunemente usati in questo dominio:

  • Python-Questo è uno dei linguaggi più dominanti per la scienza dei dati nel settore oggi a causa della sua facilità, flessibilità, natura open-source. Ha guadagnato una rapida popolarità e accettazione nella comunità ML.

  • R – È un altro linguaggio molto comunemente usato e rispettato nella scienza dei dati. R ha una comunità fiorente e incredibilmente solidale e viene fornito con una pletora di pacchetti e librerie che supportano la maggior parte delle attività di apprendimento automatico.

  • Apache Spark-Spark è stato open-source da UC Berkley nel 2010 e da allora è diventata una delle più grandi comunità in big data. È conosciuto come il coltellino svizzero dell’analisi dei big data in quanto offre molteplici vantaggi come flessibilità, velocità, potenza computazionale, ecc.

  • Julia-Si tratta di un linguaggio imminente e viene propagandato come il successore di Python. È ancora nella sua fase nascente e sarà interessante vedere come si esibirà in futuro.

  • Jupyter Notebook-Questi notebook sono ampiamente utilizzati per la codifica in Python. Mentre è utilizzato prevalentemente per Python, supporta anche altri linguaggi come Julia, R, ecc.

Gli strumenti che abbiamo discusso finora sono veri strumenti open-source. Non è necessario pagare per loro o acquistare licenze extra. Hanno comunità fiorenti e attive che mantengono e rilasciano aggiornamenti su base regolare.

Ora, controlleremo alcuni strumenti premium riconosciuti come leader del settore:

  • SAS-Si tratta di uno strumento molto popolare e potente. E ‘ prevalentemente e comunemente utilizzato nel settore bancario e finanziario. Ha una quota molto elevata in organizzazioni private come American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland, ecc.

  • SPSS-Abbreviazione di Pacchetto statistico per le scienze sociali, SPSS è stata acquisita da IBM nel 2009. Offre analisi statistiche avanzate, una vasta libreria di algoritmi di apprendimento automatico, analisi del testo e molto altro.

  • Matlab-Matlab è davvero sottovalutato nel panorama organizzativo, ma è ampiamente utilizzato nel mondo accademico e divisioni di ricerca. Ha perso molto terreno negli ultimi tempi per artisti del calibro di Python, R e SAS, ma le università, specialmente negli Stati Uniti, insegnano ancora molti corsi universitari usando Matlab.

Framework comuni per l’apprendimento profondo

L’apprendimento profondo richiede risorse computazionali elevate e richiede framework speciali per utilizzare tali risorse in modo efficace. A causa di ciò, molto probabilmente richiederesti una GPU o un TPU.

Diamo un’occhiata ad alcuni dei framework utilizzati per l’apprendimento profondo in questa sezione.

  • TensorFlow – È facilmente lo strumento più utilizzato nel settore oggi. Google potrebbe avere qualcosa a che fare con questo!
  • PyTorch-Questo framework di apprendimento profondo super flessibile sta dando grande concorrenza a TensorFlow. PyTorch è recentemente entrato alla ribalta ed è stato sviluppato dai ricercatori di Facebook
  • Keras e Caffe sono altri framework ampiamente utilizzati per la creazione di applicazioni di deep learning

Strumenti di intelligenza artificiale

L’era di AutoML è qui. Se non avete sentito parlare di questi strumenti, allora è un buon momento per educare se stessi! Questo potrebbe essere quello che tu, come scienziato dei dati, lavorerai nel prossimo futuro.

Alcuni degli strumenti AutoML più popolari sono AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, AI Driverless di H20 e Lex di Amazon. AutoML dovrebbe essere la prossima grande cosa nella comunità AI / ML. Ha lo scopo di eliminare o ridurre il lato tecnico delle cose in modo che i leader aziendali possano usarlo per prendere decisioni strategiche.

Questi strumenti saranno in grado di automatizzare la pipeline completa!

Note finali

Abbiamo discusso il motore di raccolta dati e gli strumenti necessari per realizzare la pipeline per il recupero, l’elaborazione e l’archiviazione dei dati. La scienza dei dati consiste in un ampio spettro di domini e ogni dominio ha il proprio set di strumenti e framework.

Scegliere il tuo strumento di scienza dei dati spesso dipende dalla tua scelta personale, dal tuo dominio o progetto e, naturalmente, dalla tua organizzazione.



+