22 széles körben használt adattudományi és gépi tanulási eszközök 2020-ban

áttekintés

  • rengeteg adattudományi eszköz létezik – melyiket vegye fel?
  • itt van egy lista a több mint 20 adat tudomány eszközök vendéglátás különböző szakaszaiban az adatok tudomány életciklus

Bevezetés

melyek a legjobb eszközök végző adatok tudomány feladatokat? És melyik eszközt érdemes felvenni, mint újoncot az adattudományban?

biztos vagyok benne, hogy feltette (vagy kereste) ezeket a kérdéseket a saját adattudományi utazásának egy pontján. Ezek érvényes kérdések! Az iparban nincs hiány adattudományi eszközökben. Az utazás és a karrier kiválasztása bonyolult döntés lehet.

data_science_tools

nézzünk szembe a tényekkel – az Adattudomány hatalmas spektrum, és minden területe egyedi módon kezeli az adatokat, ami sok elemzőt/adatkutatót zavart okoz. És ha üzleti vezető vagy, akkor kritikus kérdésekkel találkozhatsz az Ön és cége által választott eszközökkel kapcsolatban, mivel hosszú távú hatással lehet.

tehát ismét a kérdés az, hogy melyik adattudományi eszközt kell választania?

ebben a cikkben megpróbálom tisztázni ezt a zavart azáltal, hogy felsorolom az adattudományi térben használt széles körben használt eszközöket használatuk és erősségeik szerint lebontva. Tehát kezdjük el!

és ha új vagy a gépi tanulásban és/vagy az üzleti elemzésben, vagy csak most kezded el, arra biztatlak, hogy használd ki az Analytics Vidhya hihetetlen kezdeményezését, az UnLock 2020 nevet. Amely két átfogó programok-Machine Learning Starter Program és a Business Analytics Starter Program – ez a kezdeményezés időhöz kötött, így azt kell, hogy beiratkozik, amint lehet, hogy a data science karrier egy hatalmas lökést!

Tartalomjegyzék

  • merülés a Big Data-eszközök kezelésére Big Data
    • kötet
    • fajta
    • kötet
  • adattudományi eszközök
    • jelentéskészítés és üzleti intelligencia
    • prediktív modellezés és gépi tanulás
    • mesterséges intelligencia

Data Science Tools For Big Data

ahhoz, hogy valóban megértsük a nagy adatok mögött rejlő jelentést, fontos, hogy megértsük azokat az alapelveket, amelyek az adatokat nagy adatként határozzák meg. Ezeket a big data 3 V-jének nevezik:

  • Volume
  • Variety
  • Velocity

eszközök kezelése Volume

ahogy a neve is sugallja, kötet utal a skála és az adatok mennyisége. Ahhoz, hogy megértsük az általam beszélt adatok skáláját, tudnod kell, hogy a világ adatainak több mint 90% – át csak az elmúlt két évben hozták létre!

az évtized során az adatmennyiség növekedésével a technológia is jobbá vált. A számítási és tárolási költségek csökkenése jelentősen megkönnyítette a hatalmas mennyiségű adat gyűjtését és tárolását.

az adatok mennyisége határozza meg, hogy nagy adatnak minősül-e vagy sem.

ha 1 GB-tól 10 GB-ig terjedő adatokkal rendelkezünk, a hagyományos adattudományi eszközök általában jól működnek ezekben az esetekben. Tehát mik ezek az eszközök?

  • Microsoft Excel – Az Excel a legegyszerűbb és legnépszerűbb eszköz kis mennyiségű adat kezelésére. Az általa támogatott sorok maximális száma csak egy árnyalat több mint 1 millió, és egy lap egyszerre csak 16 380 oszlopot képes kezelni. Ezek a számok egyszerűen nem elegendőek, ha nagy az adatmennyiség.

  • Microsoft Access-Ez egy népszerű eszköz a Microsoft által használt adatok tárolására. Az 2GB-ig terjedő kisebb adatbázisok zökkenőmentesen kezelhetők ezzel az eszközzel, de azon túl, elkezd feltörni.

  • SQL – az SQL az egyik legnépszerűbb adatkezelő rendszer, amely az 1970-es évek óta létezik. néhány évtizedig ez volt az elsődleges adatbázis-megoldás. Az SQL továbbra is népszerű, de van egy hátránya – nehéz lesz méretezni, mivel az adatbázis tovább növekszik.

az eddigi alapvető eszközök közül néhányat bemutattunk. Itt az ideje, hogy felszabadítsa a nagy fegyvereket most! Ha az adatok 10 GB-nál nagyobbak, egészen az 1 TB+ – nál nagyobb tárhelyig, akkor végre kell hajtania az alább említett eszközöket:

  • Hadoop-ez egy nyílt forráskódú elosztott keretrendszer, amely kezeli az adatfeldolgozást és a nagy adatok tárolását. Valószínűleg találkozik ezzel az eszközzel, amikor a semmiből épít egy gépi tanulási projektet.

  • Hive – ez egy adattárház tetején épült Hadoop. A Hive egy SQL-szerű felületet biztosít a különböző adatbázisokban és fájlrendszerekben tárolt adatok lekérdezéséhez, amelyek integrálódnak a Hadoop-hoz.

eszközök kezelésére fajta

fajta utal, hogy a különböző típusú adatok, amelyek ott. Az adattípus lehet az egyik ilyen-strukturált és strukturálatlan adatok.

nézzük át a különböző adattípusok égisze alá tartozó példákat:

szánjon egy percet arra, hogy megfigyelje ezeket a példákat, és korrelálja őket a valós adatokkal.

amint azt a strukturált adatok esetében megfigyelhettük, ezeknek az adattípusoknak van egy bizonyos sorrendje és szerkezete, míg a strukturálatlan adatok esetében a példák nem követnek semmilyen tendenciát vagy mintát. Például az ügyfelek visszajelzései eltérőek lehetnek a hosszúságban, az érzelmekben és más tényezőkben. Ráadásul az ilyen típusú adatok hatalmasak és változatosak.

nagyon nehéz lehet kezelni az ilyen típusú adatokat, tehát milyen különböző adattudományi eszközök állnak rendelkezésre a piacon ezeknek a különböző adattípusoknak a kezelésére és kezelésére?

a két leggyakoribb adatbázis az SQL és a NoSQL. Az SQL már évek óta a piac domináns szereplője a NoSQL megjelenése előtt.

néhány példa az SQL-re az Oracle, a MySQL, az SQLite, míg a NoSQL olyan népszerű adatbázisokból áll, mint a MongoDB, a Cassandra stb. Ezek a NoSQL adatbázisok hatalmas elfogadási számokat látnak, mivel képesek méretezni és kezelni a dinamikus adatokat.

eszközök a sebesség kezelésére

a harmadik és az utolsó v a sebességet jelöli. Ez az a sebesség, amellyel az adatokat rögzítik. Ez magában foglalja mind a valós idejű, mind a nem valós idejű adatokat. Itt elsősorban a valós idejű adatokról fogunk beszélni.

rengeteg példa van körülöttünk, amelyek valós idejű adatokat rögzítenek és dolgoznak fel. A legösszetettebb az önvezető autók által gyűjtött szenzoradatok. Képzelje el, hogy önvezető autóban ül – az autónak dinamikusan kell gyűjtenie és feldolgoznia az adatokat a sávjáról, a többi járműtől való távolságról stb. mind egyszerre!

néhány további példa a valós idejű adatok gyűjtésére:

  • CCTV
  • tőzsdei kereskedés
  • csalás felderítése hitelkártya tranzakció
  • hálózati adatok – közösségi média (Facebook, Twitter, stb.)

tudtad?

A New York-i Értéktőzsde minden egyes kereskedési ülésén több mint 1 TB adat keletkezik!

most térjünk át a valós idejű adatok kezelésére szolgáló általánosan használt adattudományi eszközökre:

  • Apache Kafka-Kafka egy nyílt forráskódú eszköz az Apache. Valós idejű adatvezetékek építésére szolgál. A Kafka néhány előnye-hibatűrő, nagyon gyors, és számos szervezet használja a termelésben.

  • Apache Storm – ez az eszköz az Apache lehet használni szinte az összes programozási nyelv. Másodpercenként akár 1 millió duplát is képes feldolgozni, és rendkívül skálázható. Ez egy jó eszköz, hogy fontolja meg a nagy adatsebesség.
  • Amazon Kinesis-ez az eszköz az Amazon hasonló Kafka de jön egy előfizetési költség. Azonban ez kínált egy out-of-the-box megoldás, ami miatt egy nagyon erős lehetőség a szervezetek számára.

  • Apache Flink-Flink még egy eszköz az Apache, hogy tudjuk használni a valós idejű adatokat. A Flink néhány előnye a nagy teljesítmény, a hibatűrés és a hatékony memóriakezelés.

most, hogy alaposan megismertük a nagy adatokkal való munkavégzéshez általánosan használt különböző eszközöket, térjünk át arra a szegmensre, ahol fejlett gépi tanulási technikák és algoritmusok alkalmazásával kihasználhatja az adatokat.

széles körben használt adattudományi eszközök

ha vadonatúj adattudományi projektet állít fel, rengeteg kérdést szem előtt tart. Ez a szinttől függetlenül igaz – függetlenül attól, hogy Ön adattudós, adatelemző, projektmenedzser vagy vezető adattudományi vezető.

néhány kérdés, amellyel szembe kell néznie:

  • milyen eszközöket kell használni az Adattudomány különböző területein?
  • vásároljak licenceket az eszközökhöz, vagy válasszak egy nyílt forráskódú licencet?, és így tovább

ebben a részben megvitatjuk az iparban használt népszerű adattudományi eszközöket a különböző területek szerint.

Data Science egy tág fogalom önmagában, és ez áll a különböző területeken, és minden domain saját üzleti fontosságát és összetettségét, amely szépen rögzített az alábbi képen:

az adattudományi spektrum különböző területekből áll, és ezeket a területeket viszonylagos összetettségük és az általuk nyújtott üzleti érték képviseli. Vegyük fel a fenti spektrumban bemutatott pontok mindegyikét.

jelentéskészítés és üzleti intelligencia

kezdjük a spektrum alsó végével. Lehetővé teszi a szervezet számára, hogy azonosítsa a trendeket és mintákat, hogy döntő stratégiai döntéseket hozzon. Az elemzés típusai a MIS-től, az adatelemzéstől egészen a műszerfalig terjednek.

ezeken a területeken a leggyakrabban használt eszközök a következők:

  • Excel-a lehetőségek széles skáláját kínálja, beleértve a Pivot táblákat és diagramokat, amelyek lehetővé teszik az elemzést dupla gyors idő alatt. Ez, röviden, A svájci bicska data science / analytics tools
  • QlikView-ez lehetővé teszi, hogy megszilárdítsa, keresés, vizualizálni, és elemezze az összes adatforrások mindössze néhány kattintással. Ez egy egyszerű és intuitív eszköz a tanuláshoz, ami annyira népszerűvé teszi.

  • Tableau-ez az egyik legnépszerűbb adatmegjelenítő eszközök a piacon. Nagy mennyiségű adat kezelésére képes, sőt Excel-szerű számítási funkciókat és paramétereket is kínál. Tableau jól tetszett, mert a szép műszerfal és a történet felület.

  • Microstrategy-ez egy újabb BI eszköz, amely támogatja az irányítópultokat, az automatizált disztribúciókat és más kulcsfontosságú adatelemzési feladatokat.

  • PowerBI-ez egy Microsoft ajánlat az üzleti intelligencia (BI) térben. A PowerBI a Microsoft technológiáival való integrációra épült. Tehát, ha a szervezet Sharepoint-vagy SQL-adatbázis-felhasználóval rendelkezik, Ön és csapata imádni fogja ezt az eszközt.

  • Google Analytics-kíváncsi, hogyan került a Google Analytics erre a listára? Nos, a digitális marketing fontos szerepet játszik a vállalkozások átalakításában, és nincs jobb eszköz, mint ez a digitális erőfeszítések elemzésére.

prediktív analitikai és gépi tanulási eszközök

a ranglétrán feljebb lépve a tét a komplexitás és az üzleti érték szempontjából is magasra nőtt! Ez az a terület, ahonnan a legtöbb adatkutató kenyere származik. A megoldandó problémák közül néhány a statisztikai modellezés, az előrejelzés, a neurális hálózatok és a mély tanulás.

értsük meg az ezen a területen általánosan használt eszközöket:

  • Python – ez az egyik legdominánsabb nyelv az adat tudomány az iparban ma, mert a könnyű, rugalmas, nyílt forráskódú jellegű. Gyors népszerűségre és elfogadottságra tett szert az ML közösségben.

  • R-Ez egy másik nagyon gyakran használt és elismert nyelv az adattudományban. Az R virágzó és hihetetlenül támogató közösséggel rendelkezik, és rengeteg csomaggal és könyvtárral rendelkezik, amelyek támogatják a legtöbb gépi tanulási feladatot.

  • Apache Spark-a Sparkot az UC Berkley 2010-ben nyílt forrású, és azóta a big data egyik legnagyobb közösségévé vált. A nagy adatelemzés svájci bicska néven ismert, mivel számos előnyt kínál, például rugalmasságot, sebességet, számítási teljesítményt stb.

  • Julia-ez egy közelgő nyelv, és a Python utódjaként tartják számon. Még mindig a kezdeti szakaszban van, és érdekes lesz látni, hogyan teljesít a jövőben.

  • Jupyter notebookok-ezeket a notebookokat széles körben használják a Python kódolásához. Bár elsősorban a Python számára használják, más nyelveket is támogat, például Julia, R stb.

az eddig tárgyalt eszközök valódi nyílt forráskódú eszközök. Nem kell fizetnie értük, vagy extra licenceket kell vásárolnia. Virágzó és aktív közösségeik vannak, amelyek rendszeresen karbantartják és kiadják a frissítéseket.

most nézzük meg néhány prémium eszközök, amelyek elismert iparági vezetők:

  • SAS – ez egy nagyon népszerű és hatékony eszköz. Elterjedt és elterjedt a banki és pénzügyi szektorban. Nagyon magas részesedése van olyan magánszervezetekben, mint az American Express, a JP Morgan, a MU Sigma, A Royal Bank Of Scotland stb.

  • SPSS-a Társadalomtudományi statisztikai csomag rövidítése, az SPSS-t az IBM 2009-ben vásárolta meg. Fejlett statisztikai elemzést, gépi tanulási algoritmusok hatalmas könyvtárát, szövegelemzést és még sok mást kínál.

  • Matlab-a MATLAB valóban alulértékelt a szervezeti környezetben, de széles körben használják az akadémiai és kutatási részlegekben. Az utóbbi időben sokat veszített a Python, az R és a SAS, de az egyetemek, különösen az Egyesült Államokban, még mindig sok egyetemi kurzust tanítanak a Matlab használatával.

közös keretrendszerek a mély tanuláshoz

a mély tanulás nagy számítási erőforrásokat igényel, és speciális keretrendszereket igényel az erőforrások hatékony felhasználásához. Ennek köszönhetően valószínűleg GPU-ra vagy TPU-ra lenne szüksége.

nézzük meg a mély tanuláshoz használt kereteket ebben a szakaszban.

  • TensorFlow-ez könnyen a legszélesebb körben használt eszköz az iparban ma. Lehet, hogy a Google – nak köze van ehhez!
  • PyTorch – ez a szuper rugalmas mély tanulási keretrendszer jelentős versenyt biztosít a TensorFlow számára. PyTorch nemrég jött a reflektorfénybe, és fejlesztette ki a kutatók a Facebook
  • Keras és Caffe más keretek széles körben használják az épület mély tanulási alkalmazások

mesterséges intelligencia eszközök

a korszak AutoML itt. Ha még nem hallottál ezekről az eszközökről, akkor itt az ideje, hogy oktasd magad! Ez lehet az, amit Ön, mint egy adat tudós fog dolgozni a közeljövőben.

a legnépszerűbb AutoML eszközök közé tartozik az AutoKeras, a Google Cloud AutoML, az IBM Watson, a DataRobot, a H20 vezető nélküli AI és az Amazon Lex. Az AutoML várhatóan a következő nagy dolog lesz az AI / ML közösségben. Célja a dolgok technikai oldalának kiküszöbölése vagy csökkentése, hogy az üzleti vezetők felhasználhassák azt stratégiai döntések meghozatalához.

ezek az eszközök képesek lesznek automatizálni a teljes csővezetéket!

Záró megjegyzések

megvitattuk az adatgyűjtő motort és az adatok visszakereséséhez, feldolgozásához és tárolásához szükséges csővezeték megvalósításához szükséges eszközöket. Az Adattudomány a tartományok széles spektrumából áll, és minden tartománynak saját eszközei és keretrendszerei vannak.

az adattudományi eszköz kiválasztása gyakran az Ön személyes választása, a domain vagy a projekt, és természetesen a szervezet.



+