- áttekintés
- Bevezetés
- Tartalomjegyzék
- Data Science Tools For Big Data
- eszközök kezelése Volume
- eszközök kezelésére fajta
- eszközök a sebesség kezelésére
- széles körben használt adattudományi eszközök
- jelentéskészítés és üzleti intelligencia
- prediktív analitikai és gépi tanulási eszközök
- közös keretrendszerek a mély tanuláshoz
- mesterséges intelligencia eszközök
- Záró megjegyzések
áttekintés
- rengeteg adattudományi eszköz létezik – melyiket vegye fel?
- itt van egy lista a több mint 20 adat tudomány eszközök vendéglátás különböző szakaszaiban az adatok tudomány életciklus
Bevezetés
melyek a legjobb eszközök végző adatok tudomány feladatokat? És melyik eszközt érdemes felvenni, mint újoncot az adattudományban?
biztos vagyok benne, hogy feltette (vagy kereste) ezeket a kérdéseket a saját adattudományi utazásának egy pontján. Ezek érvényes kérdések! Az iparban nincs hiány adattudományi eszközökben. Az utazás és a karrier kiválasztása bonyolult döntés lehet.
nézzünk szembe a tényekkel – az Adattudomány hatalmas spektrum, és minden területe egyedi módon kezeli az adatokat, ami sok elemzőt/adatkutatót zavart okoz. És ha üzleti vezető vagy, akkor kritikus kérdésekkel találkozhatsz az Ön és cége által választott eszközökkel kapcsolatban, mivel hosszú távú hatással lehet.
tehát ismét a kérdés az, hogy melyik adattudományi eszközt kell választania?
ebben a cikkben megpróbálom tisztázni ezt a zavart azáltal, hogy felsorolom az adattudományi térben használt széles körben használt eszközöket használatuk és erősségeik szerint lebontva. Tehát kezdjük el!
és ha új vagy a gépi tanulásban és/vagy az üzleti elemzésben, vagy csak most kezded el, arra biztatlak, hogy használd ki az Analytics Vidhya hihetetlen kezdeményezését, az UnLock 2020 nevet. Amely két átfogó programok-Machine Learning Starter Program és a Business Analytics Starter Program – ez a kezdeményezés időhöz kötött, így azt kell, hogy beiratkozik, amint lehet, hogy a data science karrier egy hatalmas lökést!
Tartalomjegyzék
- merülés a Big Data-eszközök kezelésére Big Data
- kötet
- fajta
- kötet
- adattudományi eszközök
- jelentéskészítés és üzleti intelligencia
- prediktív modellezés és gépi tanulás
- mesterséges intelligencia
Data Science Tools For Big Data
ahhoz, hogy valóban megértsük a nagy adatok mögött rejlő jelentést, fontos, hogy megértsük azokat az alapelveket, amelyek az adatokat nagy adatként határozzák meg. Ezeket a big data 3 V-jének nevezik:
- Volume
- Variety
- Velocity
eszközök kezelése Volume
ahogy a neve is sugallja, kötet utal a skála és az adatok mennyisége. Ahhoz, hogy megértsük az általam beszélt adatok skáláját, tudnod kell, hogy a világ adatainak több mint 90% – át csak az elmúlt két évben hozták létre!
az évtized során az adatmennyiség növekedésével a technológia is jobbá vált. A számítási és tárolási költségek csökkenése jelentősen megkönnyítette a hatalmas mennyiségű adat gyűjtését és tárolását.
az adatok mennyisége határozza meg, hogy nagy adatnak minősül-e vagy sem.
ha 1 GB-tól 10 GB-ig terjedő adatokkal rendelkezünk, a hagyományos adattudományi eszközök általában jól működnek ezekben az esetekben. Tehát mik ezek az eszközök?
- Microsoft Excel – Az Excel a legegyszerűbb és legnépszerűbb eszköz kis mennyiségű adat kezelésére. Az általa támogatott sorok maximális száma csak egy árnyalat több mint 1 millió, és egy lap egyszerre csak 16 380 oszlopot képes kezelni. Ezek a számok egyszerűen nem elegendőek, ha nagy az adatmennyiség.
- Microsoft Access-Ez egy népszerű eszköz a Microsoft által használt adatok tárolására. Az 2GB-ig terjedő kisebb adatbázisok zökkenőmentesen kezelhetők ezzel az eszközzel, de azon túl, elkezd feltörni.
- SQL – az SQL az egyik legnépszerűbb adatkezelő rendszer, amely az 1970-es évek óta létezik. néhány évtizedig ez volt az elsődleges adatbázis-megoldás. Az SQL továbbra is népszerű, de van egy hátránya – nehéz lesz méretezni, mivel az adatbázis tovább növekszik.
az eddigi alapvető eszközök közül néhányat bemutattunk. Itt az ideje, hogy felszabadítsa a nagy fegyvereket most! Ha az adatok 10 GB-nál nagyobbak, egészen az 1 TB+ – nál nagyobb tárhelyig, akkor végre kell hajtania az alább említett eszközöket:
- Hadoop-ez egy nyílt forráskódú elosztott keretrendszer, amely kezeli az adatfeldolgozást és a nagy adatok tárolását. Valószínűleg találkozik ezzel az eszközzel, amikor a semmiből épít egy gépi tanulási projektet.
- Hive – ez egy adattárház tetején épült Hadoop. A Hive egy SQL-szerű felületet biztosít a különböző adatbázisokban és fájlrendszerekben tárolt adatok lekérdezéséhez, amelyek integrálódnak a Hadoop-hoz.
eszközök kezelésére fajta
fajta utal, hogy a különböző típusú adatok, amelyek ott. Az adattípus lehet az egyik ilyen-strukturált és strukturálatlan adatok.
nézzük át a különböző adattípusok égisze alá tartozó példákat:
szánjon egy percet arra, hogy megfigyelje ezeket a példákat, és korrelálja őket a valós adatokkal.
amint azt a strukturált adatok esetében megfigyelhettük, ezeknek az adattípusoknak van egy bizonyos sorrendje és szerkezete, míg a strukturálatlan adatok esetében a példák nem követnek semmilyen tendenciát vagy mintát. Például az ügyfelek visszajelzései eltérőek lehetnek a hosszúságban, az érzelmekben és más tényezőkben. Ráadásul az ilyen típusú adatok hatalmasak és változatosak.
nagyon nehéz lehet kezelni az ilyen típusú adatokat, tehát milyen különböző adattudományi eszközök állnak rendelkezésre a piacon ezeknek a különböző adattípusoknak a kezelésére és kezelésére?
a két leggyakoribb adatbázis az SQL és a NoSQL. Az SQL már évek óta a piac domináns szereplője a NoSQL megjelenése előtt.
néhány példa az SQL-re az Oracle, a MySQL, az SQLite, míg a NoSQL olyan népszerű adatbázisokból áll, mint a MongoDB, a Cassandra stb. Ezek a NoSQL adatbázisok hatalmas elfogadási számokat látnak, mivel képesek méretezni és kezelni a dinamikus adatokat.
eszközök a sebesség kezelésére
a harmadik és az utolsó v a sebességet jelöli. Ez az a sebesség, amellyel az adatokat rögzítik. Ez magában foglalja mind a valós idejű, mind a nem valós idejű adatokat. Itt elsősorban a valós idejű adatokról fogunk beszélni.
rengeteg példa van körülöttünk, amelyek valós idejű adatokat rögzítenek és dolgoznak fel. A legösszetettebb az önvezető autók által gyűjtött szenzoradatok. Képzelje el, hogy önvezető autóban ül – az autónak dinamikusan kell gyűjtenie és feldolgoznia az adatokat a sávjáról, a többi járműtől való távolságról stb. mind egyszerre!
néhány további példa a valós idejű adatok gyűjtésére:
- CCTV
- tőzsdei kereskedés
- csalás felderítése hitelkártya tranzakció
- hálózati adatok – közösségi média (Facebook, Twitter, stb.)
tudtad?
A New York-i Értéktőzsde minden egyes kereskedési ülésén több mint 1 TB adat keletkezik!
most térjünk át a valós idejű adatok kezelésére szolgáló általánosan használt adattudományi eszközökre:
- Apache Kafka-Kafka egy nyílt forráskódú eszköz az Apache. Valós idejű adatvezetékek építésére szolgál. A Kafka néhány előnye-hibatűrő, nagyon gyors, és számos szervezet használja a termelésben.
- Apache Storm – ez az eszköz az Apache lehet használni szinte az összes programozási nyelv. Másodpercenként akár 1 millió duplát is képes feldolgozni, és rendkívül skálázható. Ez egy jó eszköz, hogy fontolja meg a nagy adatsebesség.
- Amazon Kinesis-ez az eszköz az Amazon hasonló Kafka de jön egy előfizetési költség. Azonban ez kínált egy out-of-the-box megoldás, ami miatt egy nagyon erős lehetőség a szervezetek számára.
- Apache Flink-Flink még egy eszköz az Apache, hogy tudjuk használni a valós idejű adatokat. A Flink néhány előnye a nagy teljesítmény, a hibatűrés és a hatékony memóriakezelés.
most, hogy alaposan megismertük a nagy adatokkal való munkavégzéshez általánosan használt különböző eszközöket, térjünk át arra a szegmensre, ahol fejlett gépi tanulási technikák és algoritmusok alkalmazásával kihasználhatja az adatokat.
széles körben használt adattudományi eszközök
ha vadonatúj adattudományi projektet állít fel, rengeteg kérdést szem előtt tart. Ez a szinttől függetlenül igaz – függetlenül attól, hogy Ön adattudós, adatelemző, projektmenedzser vagy vezető adattudományi vezető.
néhány kérdés, amellyel szembe kell néznie:
- milyen eszközöket kell használni az Adattudomány különböző területein?
- vásároljak licenceket az eszközökhöz, vagy válasszak egy nyílt forráskódú licencet?, és így tovább
ebben a részben megvitatjuk az iparban használt népszerű adattudományi eszközöket a különböző területek szerint.
Data Science egy tág fogalom önmagában, és ez áll a különböző területeken, és minden domain saját üzleti fontosságát és összetettségét, amely szépen rögzített az alábbi képen:
az adattudományi spektrum különböző területekből áll, és ezeket a területeket viszonylagos összetettségük és az általuk nyújtott üzleti érték képviseli. Vegyük fel a fenti spektrumban bemutatott pontok mindegyikét.
jelentéskészítés és üzleti intelligencia
kezdjük a spektrum alsó végével. Lehetővé teszi a szervezet számára, hogy azonosítsa a trendeket és mintákat, hogy döntő stratégiai döntéseket hozzon. Az elemzés típusai a MIS-től, az adatelemzéstől egészen a műszerfalig terjednek.
ezeken a területeken a leggyakrabban használt eszközök a következők:
- Excel-a lehetőségek széles skáláját kínálja, beleértve a Pivot táblákat és diagramokat, amelyek lehetővé teszik az elemzést dupla gyors idő alatt. Ez, röviden, A svájci bicska data science / analytics tools
- QlikView-ez lehetővé teszi, hogy megszilárdítsa, keresés, vizualizálni, és elemezze az összes adatforrások mindössze néhány kattintással. Ez egy egyszerű és intuitív eszköz a tanuláshoz, ami annyira népszerűvé teszi.
- Tableau-ez az egyik legnépszerűbb adatmegjelenítő eszközök a piacon. Nagy mennyiségű adat kezelésére képes, sőt Excel-szerű számítási funkciókat és paramétereket is kínál. Tableau jól tetszett, mert a szép műszerfal és a történet felület.
- Microstrategy-ez egy újabb BI eszköz, amely támogatja az irányítópultokat, az automatizált disztribúciókat és más kulcsfontosságú adatelemzési feladatokat.
- PowerBI-ez egy Microsoft ajánlat az üzleti intelligencia (BI) térben. A PowerBI a Microsoft technológiáival való integrációra épült. Tehát, ha a szervezet Sharepoint-vagy SQL-adatbázis-felhasználóval rendelkezik, Ön és csapata imádni fogja ezt az eszközt.
- Google Analytics-kíváncsi, hogyan került a Google Analytics erre a listára? Nos, a digitális marketing fontos szerepet játszik a vállalkozások átalakításában, és nincs jobb eszköz, mint ez a digitális erőfeszítések elemzésére.
prediktív analitikai és gépi tanulási eszközök
a ranglétrán feljebb lépve a tét a komplexitás és az üzleti érték szempontjából is magasra nőtt! Ez az a terület, ahonnan a legtöbb adatkutató kenyere származik. A megoldandó problémák közül néhány a statisztikai modellezés, az előrejelzés, a neurális hálózatok és a mély tanulás.
értsük meg az ezen a területen általánosan használt eszközöket:
- Python – ez az egyik legdominánsabb nyelv az adat tudomány az iparban ma, mert a könnyű, rugalmas, nyílt forráskódú jellegű. Gyors népszerűségre és elfogadottságra tett szert az ML közösségben.
- R-Ez egy másik nagyon gyakran használt és elismert nyelv az adattudományban. Az R virágzó és hihetetlenül támogató közösséggel rendelkezik, és rengeteg csomaggal és könyvtárral rendelkezik, amelyek támogatják a legtöbb gépi tanulási feladatot.
- Apache Spark-a Sparkot az UC Berkley 2010-ben nyílt forrású, és azóta a big data egyik legnagyobb közösségévé vált. A nagy adatelemzés svájci bicska néven ismert, mivel számos előnyt kínál, például rugalmasságot, sebességet, számítási teljesítményt stb.
- Julia-ez egy közelgő nyelv, és a Python utódjaként tartják számon. Még mindig a kezdeti szakaszban van, és érdekes lesz látni, hogyan teljesít a jövőben.
- Jupyter notebookok-ezeket a notebookokat széles körben használják a Python kódolásához. Bár elsősorban a Python számára használják, más nyelveket is támogat, például Julia, R stb.
az eddig tárgyalt eszközök valódi nyílt forráskódú eszközök. Nem kell fizetnie értük, vagy extra licenceket kell vásárolnia. Virágzó és aktív közösségeik vannak, amelyek rendszeresen karbantartják és kiadják a frissítéseket.
most nézzük meg néhány prémium eszközök, amelyek elismert iparági vezetők:
- SAS – ez egy nagyon népszerű és hatékony eszköz. Elterjedt és elterjedt a banki és pénzügyi szektorban. Nagyon magas részesedése van olyan magánszervezetekben, mint az American Express, a JP Morgan, a MU Sigma, A Royal Bank Of Scotland stb.
- SPSS-a Társadalomtudományi statisztikai csomag rövidítése, az SPSS-t az IBM 2009-ben vásárolta meg. Fejlett statisztikai elemzést, gépi tanulási algoritmusok hatalmas könyvtárát, szövegelemzést és még sok mást kínál.
- Matlab-a MATLAB valóban alulértékelt a szervezeti környezetben, de széles körben használják az akadémiai és kutatási részlegekben. Az utóbbi időben sokat veszített a Python, az R és a SAS, de az egyetemek, különösen az Egyesült Államokban, még mindig sok egyetemi kurzust tanítanak a Matlab használatával.
közös keretrendszerek a mély tanuláshoz
a mély tanulás nagy számítási erőforrásokat igényel, és speciális keretrendszereket igényel az erőforrások hatékony felhasználásához. Ennek köszönhetően valószínűleg GPU-ra vagy TPU-ra lenne szüksége.
nézzük meg a mély tanuláshoz használt kereteket ebben a szakaszban.
- TensorFlow-ez könnyen a legszélesebb körben használt eszköz az iparban ma. Lehet, hogy a Google – nak köze van ehhez!
- PyTorch – ez a szuper rugalmas mély tanulási keretrendszer jelentős versenyt biztosít a TensorFlow számára. PyTorch nemrég jött a reflektorfénybe, és fejlesztette ki a kutatók a Facebook
- Keras és Caffe más keretek széles körben használják az épület mély tanulási alkalmazások
mesterséges intelligencia eszközök
a korszak AutoML itt. Ha még nem hallottál ezekről az eszközökről, akkor itt az ideje, hogy oktasd magad! Ez lehet az, amit Ön, mint egy adat tudós fog dolgozni a közeljövőben.
a legnépszerűbb AutoML eszközök közé tartozik az AutoKeras, a Google Cloud AutoML, az IBM Watson, a DataRobot, a H20 vezető nélküli AI és az Amazon Lex. Az AutoML várhatóan a következő nagy dolog lesz az AI / ML közösségben. Célja a dolgok technikai oldalának kiküszöbölése vagy csökkentése, hogy az üzleti vezetők felhasználhassák azt stratégiai döntések meghozatalához.
ezek az eszközök képesek lesznek automatizálni a teljes csővezetéket!
Záró megjegyzések
megvitattuk az adatgyűjtő motort és az adatok visszakereséséhez, feldolgozásához és tárolásához szükséges csővezeték megvalósításához szükséges eszközöket. Az Adattudomány a tartományok széles spektrumából áll, és minden tartománynak saját eszközei és keretrendszerei vannak.
az adattudományi eszköz kiválasztása gyakran az Ön személyes választása, a domain vagy a projekt, és természetesen a szervezet.