22 instrumente de știință a datelor și de învățare automată utilizate pe scară largă în 2020

Prezentare generală

  • există o mulțime de instrumente de știință a datelor – pe care ar trebui să le ridicați?
  • Iată o listă de peste 20 de instrumente de știință a datelor care se adresează diferitelor etape ale ciclului de viață al științei datelor

Introducere

care sunt cele mai bune instrumente pentru îndeplinirea sarcinilor de știință a datelor? Și ce instrument ar trebui să alegeți ca nou venit în știința datelor?

sunt sigur că ați pus (sau ați căutat) aceste întrebări la un moment dat în propria călătorie în domeniul științei datelor. Acestea sunt întrebări valide! Nu există lipsă de instrumente de știință a datelor în industrie. Alegerea unuia pentru călătoria și cariera ta poate fi o decizie dificilă.

data_science_tools

să recunoaștem – știința datelor este un spectru vast și fiecare dintre domeniile sale necesită manipularea datelor într-un mod unic care duce mulți analiști/oameni de știință de date în confuzie. Și dacă sunteți un lider de afaceri, veți întâlni întrebări cruciale cu privire la instrumentele pe care le alegeți și compania dvs., deoarece ar putea avea un impact pe termen lung.

deci, din nou, întrebarea este ce instrument de știință a datelor ar trebui să alegeți?

în acest articol, voi încerca să clarific această confuzie prin enumerarea instrumentelor utilizate pe scară largă utilizate în spațiul științei datelor defalcate în funcție de utilizarea și punctele forte ale acestora. Deci, să începem!

și dacă sunteți un nou venit la machine learning și / sau Business analytics sau abia începeți, vă încurajez să profitați de o inițiativă incredibilă a Analytics Vidhya numită UnLock 2020. Acoperind două programe cuprinzătoare-Machine Learning Starter Program și Business Analytics Starter Program – această inițiativă este legată de timp, așa că va trebui să vă înscrieți cât mai curând posibil pentru a oferi carierei dvs. de știință a datelor un impuls masiv!

cuprins

  • scufundări în date mari-instrumente pentru manipularea datelor mari
    • volum
    • varietate
    • volum
  • instrumente pentru știința datelor
    • raportare și informații de afaceri
    • modelare predictivă și învățare automată
    • inteligență artificială

instrumente de știință a datelor Pentru Big Data

pentru a înțelege cu adevărat semnificația din spatele Big Data, este important să înțelegem principiile de bază care definesc datele ca date mari. Acestea sunt cunoscute sub numele de 3 V de date mari:

  • volum
  • varietate
  • viteză

instrumente pentru manipularea volumului

după cum sugerează și numele, volumul se referă la scara și cantitatea de date. Pentru a înțelege amploarea datelor despre care vorbesc, trebuie să știți că peste 90% din datele din lume au fost create doar în ultimii doi ani!

de-a lungul deceniului, odată cu creșterea cantității de date, tehnologia a devenit, de asemenea, mai bună. Scăderea costurilor de calcul și de stocare a făcut mult mai ușoară colectarea și stocarea unor cantități uriașe de date.

volumul datelor definește dacă se califică ca date mari sau nu.

când avem date cuprinse între 1 GB și aproximativ 10 GB, instrumentele tradiționale de știință a datelor tind să funcționeze bine în aceste cazuri. Deci, care sunt aceste instrumente?

  • Microsoft Excel – Excel prevalează ca cel mai simplu și cel mai popular instrument pentru manipularea cantități mici de date. Cantitatea maximă de rânduri pe care o suportă este doar o nuanță de peste 1 milion și o foaie poate gestiona doar până la 16.380 de coloane la un moment dat. Aceste numere pur și simplu nu sunt suficiente atunci când cantitatea de date este mare.

  • Microsoft Access – este un instrument popular de Microsoft care este utilizat pentru stocarea datelor. Bazele de date mai mici de până la 2 GB pot fi gestionate fără probleme cu acest instrument, dar dincolo de asta, începe să se crape.

  • SQL-SQL este una dintre cele mai populare sisteme de gestionare a datelor, care a fost în jur de 1970s. it a fost soluția de bază de date primar pentru câteva decenii. SQL rămâne încă popular, dar există un dezavantaj – devine dificil să-l scalați pe măsură ce baza de date continuă să crească.

am acoperit câteva dintre instrumentele de bază până acum. Este timpul să dezlănțuiți armele mari acum! Dacă datele dvs. sunt mai mari de 10 GB până la stocarea mai mare de 1 TB+, atunci trebuie să implementați instrumentele pe care le-am menționat mai jos:

  • Hadoop-este un cadru distribuit open-source care gestionează procesarea și stocarea datelor pentru date mari. Este posibil să întâlniți acest instrument ori de câte ori construiți un proiect de învățare automată de la zero.

  • Hive – este un depozit de date construit pe partea de sus a Hadoop. Hive oferă o interfață SQL-like pentru a interoga datele stocate în diferite baze de date și sisteme de fișiere care se integrează cu Hadoop.

instrumente pentru manipularea varietății

varietatea se referă la diferitele tipuri de date care există. Tipul de date poate fi unul dintre acestea-date structurate și nestructurate.

să trecem prin exemplele care se încadrează sub umbrela acestor tipuri diferite de date:

luați un moment pentru a observa aceste exemple și a le corela cu datele dvs. din lumea reală.

după cum ați observat în cazul datelor structurate, există o anumită ordine și structură a acestor tipuri de date, în timp ce în cazul datelor nestructurate, exemplele nu urmează nicio tendință sau model. De exemplu, feedback-ul clienților poate varia în funcție de lungime, sentimente și alți factori. Mai mult, aceste tipuri de date sunt uriașe și diverse.

poate fi foarte dificil să abordăm acest tip de date, Deci care sunt diferitele instrumente de știință a datelor disponibile pe piață pentru gestionarea și gestionarea acestor tipuri diferite de date?

cele mai comune două baze de date sunt SQL și NoSQL. SQL a fost jucătorii dominanți pe piață de câțiva ani înainte de apariția NoSQL.

câteva exemple pentru SQL sunt Oracle, MySQL, SQLite, în timp ce NoSQL constă din baze de date populare precum MongoDB, Cassandra etc. Aceste baze de date NoSQL văd numere uriașe de adopție datorită capacității lor de a scala și gestiona datele dinamice.

instrumente pentru viteza de manipulare

a treia și ultima V reprezintă viteza. Aceasta este viteza cu care sunt capturate datele. Aceasta include atât date în timp real, cât și date non-reale. Vom vorbi în principal despre datele în timp real aici.

avem o mulțime de exemple în jurul nostru care captează și procesează date în timp real. Cea mai complexă este datele senzorilor colectate de mașinile cu autovehicule. Imaginați-vă că vă aflați într – o mașină cu conducere automată-mașina trebuie să colecteze și să proceseze dinamic date privind banda sa, distanța față de alte vehicule etc. toate în același timp!

alte exemple de date colectate în timp real sunt:

  • CCTV
  • Stock trading
  • detectarea fraudei pentru tranzacție card de credit
  • date de rețea – social media (Facebook, Twitter, etc.)

știai?

mai mult de 1 TB de date sunt generate în timpul fiecărei sesiuni de tranzacționare la Bursa din New York!

acum, să ne îndreptăm spre unele dintre instrumentele de știință a datelor utilizate în mod obișnuit pentru a gestiona datele în timp real:

  • Apache Kafka – Kafka este un instrument open-source de Apache. Este utilizat pentru construirea conductelor de date în timp real. Unele dintre avantajele Kafka sunt-este tolerant la erori, foarte rapid și utilizat în producție de un număr mare de organizații.

  • Apache Storm – acest instrument de Apache poate fi folosit cu aproape toate limbajele de programare. Poate procesa până la 1 milion de tupluri pe secundă și este foarte scalabil. Este un instrument bun de luat în considerare pentru viteza mare de date.
  • Amazon Kinesis-acest instrument de Amazon este similar cu Kafka, dar vine cu un cost de abonament. Cu toate acestea, este oferit ca o soluție out-of-the-box, ceea ce îl face o opțiune foarte puternică pentru organizații.

  • Apache Flink-Flink este încă un alt instrument de Apache pe care le putem folosi pentru date în timp real. Unele dintre avantajele Flink sunt performanța ridicată, toleranța la erori și gestionarea eficientă a memoriei.

acum, că avem o înțelegere solidă asupra diferitelor instrumente utilizate în mod obișnuit pentru lucrul cu date mari, să trecem la segmentul în care puteți profita de date aplicând tehnici și algoritmi avansați de învățare automată.

instrumente de știință a datelor utilizate pe scară largă

dacă configurați un nou proiect de știință a datelor, veți avea în minte o mulțime de întrebări. Acest lucru este valabil indiferent de nivelul dvs. – indiferent dacă sunteți un om de știință de date, un analist de date, un manager de proiect sau un executiv senior al științei datelor.

unele dintre întrebările cu care vă veți confrunta sunt:

  • ce instrumente ar trebui să utilizați în diferite domenii ale științei datelor?
  • ar trebui să cumpăr licențe pentru instrumente sau să optez pentru una open-source?, și așa mai departe

în această secțiune, vom discuta despre unele dintre instrumentele populare de știință a datelor utilizate în industrie în funcție de diferite domenii.

știința datelor este un termen larg în sine și constă dintr-o varietate de domenii diferite și fiecare domeniu are propria importanță și complexitate a afacerii, care este frumos surprinsă în imaginea de mai jos:

spectrul științei datelor este format din diverse domenii, iar aceste domenii sunt reprezentate de complexitatea lor relativă și de valoarea de afaceri pe care o oferă. Să luăm fiecare dintre punctele pe care le-am arătat în spectrul de mai sus.

raportare și Business Intelligence

să începem cu capătul inferior al spectrului. Permite unei organizații să identifice tendințele și modelele pentru a lua decizii strategice cruciale. Tipurile de analiză variază de la MIS, analiza datelor, până la dashboarding.

instrumentele utilizate în mod obișnuit în aceste domenii sunt:

  • Excel-oferă o gamă variată de opțiuni, inclusiv tabele Pivot și diagrame care vă permit să faceți analize în timp dublu-rapid. Acesta este, pe scurt, cuțitul armatei elvețiene al instrumentelor de știință/analiză a datelor
  • QlikView – vă permite să consolidați, să căutați, să vizualizați și să analizați toate sursele de date cu doar câteva clicuri. Este un instrument ușor și intuitiv de învățat, ceea ce îl face atât de popular.

  • Tableau – este printre cele mai populare instrumente de vizualizare a datelor de pe piață astăzi. Este capabil să gestioneze cantități mari de date și chiar oferă funcții și parametri de calcul asemănători Excel. Tableau este bine-a plăcut din cauza tabloului de bord elegant și interfața poveste.

  • Microstrategy – este încă un alt instrument BI care acceptă tablouri de bord, distribuții automate și alte sarcini cheie de analiză a datelor.

  • PowerBI-este o ofertă Microsoft în spațiul Business Intelligence (BI). PowerBI a fost construit pentru a se integra cu tehnologiile Microsoft. Deci, dacă organizația dvs. are un utilizator de bază de date Sharepoint sau SQL, dvs. și echipa dvs. vă va plăcea să lucrați la acest instrument.

  • Google Analytics-vă întrebați cum a ajuns Google Analytics la această listă? Ei bine, marketingul digital joacă un rol major în transformarea afacerilor și nu există un instrument mai bun decât acesta pentru a analiza eforturile dvs. digitale.

analiza predictivă și instrumentele de învățare automată

Mergând mai departe pe scară, mizele tocmai au devenit mari în ceea ce privește complexitatea, precum și valoarea afacerii! Acesta este domeniul de unde provin pâinea și untul majorității oamenilor de știință de date. Unele dintre tipurile de probleme pe care le veți rezolva sunt modelarea statistică, Prognoza, rețelele neuronale și învățarea profundă.

să înțelegem instrumentele utilizate în mod obișnuit în acest domeniu:

  • Python – aceasta este una dintre limbile cele mai dominante pentru știința datelor din industria de astăzi datorită ușurinței, flexibilității, naturii open-source. A câștigat popularitate și acceptare rapidă în comunitatea ML.

  • R – este un alt limbaj foarte frecvent utilizat și respectat în știința datelor. R are o comunitate înfloritoare și incredibil de susținută și vine cu o multitudine de pachete și biblioteci care acceptă majoritatea sarcinilor de învățare automată.

  • Apache Spark-Spark a fost open-source de UC Berkley în 2010 și de atunci a devenit una dintre cele mai mari comunități din big data. Este cunoscut sub numele de cuțitul armatei elvețiene de analiză a datelor mari, deoarece oferă multiple avantaje, cum ar fi flexibilitatea, viteza, puterea de calcul etc.

  • Julia – este un limbaj viitoare și este touted ca succesor al Python. Este încă în stadiul său de naștere și va fi interesant să vedem cum va funcționa în viitor.

  • Jupyter Notebook – uri-aceste notebook-uri sunt utilizate pe scară largă pentru codificare în Python. Deși este utilizat predominant pentru Python, acceptă și alte limbi, cum ar fi Julia, R etc.

instrumentele pe care le-am discutat până acum sunt adevărate instrumente open-source. Nu aveți nevoie să plătiți pentru ele sau să cumpărați licențe suplimentare. Au comunități înfloritoare și active care mențin și lansează actualizări în mod regulat.

acum, vom verifica unele instrumente premium care sunt recunoscute ca lideri din industrie:

  • SAS – este un instrument foarte popular și puternic. Este utilizat în mod obișnuit și frecvent în sectorul bancar și financiar. Are o pondere foarte mare în organizații private precum American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland etc.

  • SPSS-scurt pentru pachetul statistic pentru științe Sociale, SPSS a fost achiziționat de IBM în 2009. Oferă analize statistice avansate, o vastă bibliotecă de algoritmi de învățare automată, analize de text și multe altele.

  • Matlab-Matlab este într-adevăr subestimat în peisajul organizațional, dar este utilizat pe scară largă în mediul academic și diviziile de cercetare. A pierdut mult teren în ultima vreme în fața celor de la Python, R și SAS, dar universitățile, în special în SUA, predau încă o mulțime de cursuri universitare folosind Matlab.

cadrele comune pentru învățarea profundă

învățarea profundă necesită resurse computaționale ridicate și are nevoie de cadre speciale pentru a utiliza aceste resurse în mod eficient. Din acest motiv, cel mai probabil veți avea nevoie de un GPU sau un TPU.

să ne uităm la unele dintre cadrele utilizate pentru învățarea profundă în această secțiune.

  • TensorFlow – este cu ușurință instrumentul cel mai utilizat pe scară largă în industria de astăzi. Google ar putea avea ceva de-a face cu asta!
  • PyTorch – acest cadru super flexibil de învățare profundă oferă o concurență majoră TensorFlow. PyTorch a intrat recent în lumina reflectoarelor și a fost dezvoltat de cercetătorii de la Facebook
  • Keras și Caffe sunt alte cadre utilizate pe scară largă pentru construirea aplicațiilor de învățare profundă

instrumente de inteligență artificială

era AutoML este aici. Dacă nu ați auzit de aceste instrumente, atunci este un moment bun pentru a vă educa! Acest lucru ar putea fi bine ceea ce tu, ca om de știință de date, vei lucra în viitorul apropiat.

unele dintre cele mai populare instrumente AutoML sunt AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, ai fără șofer H20 și Lex Amazon. AutoML este de așteptat să fie următorul lucru mare în comunitatea AI/ML. Acesta își propune să elimine sau să reducă partea tehnică a lucrurilor, astfel încât liderii de afaceri să o poată folosi pentru a lua decizii strategice.

aceste instrumente vor putea automatiza conducta completă!

note finale

am discutat despre motorul de colectare a datelor și instrumentele necesare pentru realizarea conductei de recuperare, prelucrare și stocare a datelor. Știința datelor constă dintr-un spectru larg de domenii și fiecare domeniu are propriul set de instrumente și cadre.

alegerea instrumentului dvs. de știință a datelor se va reduce adesea la alegerea dvs. personală, la domeniul sau proiectul dvs. și, desigur, la organizația dvs.



+