- yleiskuva
- Johdanto
- Sisällysluettelo
- Data Science Työkalut Big Data
- Työkalut tilavuuden
- lajikkeen
- työkalujen käsittelynopeus
- laajalti käytetyt Datatiedetyökalut
- raportointi ja Business Intelligence
- ennakoiva analytiikka ja koneoppimisen Työkalut
- yhteiset viitekehykset Syväoppimiselle
- tekoälyn Työkalut
- Loppuhuomautukset
yleiskuva
- on olemassa liuta datatieteen työkaluja – kumpi kannattaa ottaa talteen?
- tässä on luettelo yli 20 datatieteen työkalusta, jotka palvelevat datatieteen elinkaaren eri vaiheita
Johdanto
mitkä ovat parhaat työkalut datatieteen tehtävien suorittamiseen? Ja mikä työkalu sinun pitäisi poimia kuin tulokas data science?
olen varma, että olet kysynyt (tai etsinyt) näitä kysymyksiä jossain vaiheessa omaa datatieteen matkaasi. Nämä ovat päteviä kysymyksiä! Alalla ei ole pulaa datatieteen työkaluista. Yhden valitseminen matkalle ja uralle voi olla hankala päätös.
Let ’ s face it – datatiede on laaja kirjo ja jokainen sen osa-alueista vaatii datan käsittelyä ainutlaatuisella tavalla, joka saa monet analyytikot/datatutkijat hämmentymään. Ja jos olet liiketoimintajohtaja, olisit törmännyt ratkaiseviin kysymyksiin koskien työkaluja sinä ja yrityksesi valita, koska se voi olla pitkän aikavälin vaikutuksia.
kysymys kuuluukin jälleen, mikä datatieteen työkalu kannattaa valita?
tässä artikkelissa yritän selvittää tätä sekaannusta luettelemalla datatieteen avaruudessa käytettyjä laajasti käytettyjä työkaluja jaoteltuina niiden käyttötapojen ja vahvuuksien mukaan. Aloitetaan siis!
ja jos olet uusi tulokas koneoppimisessa ja / tai yritysanalytiikassa, tai olet vasta pääsemässä alkuun, kannustan sinua hyödyntämään Analytics Vidhyan uskomatonta aloitetta nimeltä UnLock 2020. Kattaa kaksi kattavaa ohjelmaa-Machine Learning Starter Program ja Business Analytics Starter Program – tämä aloite on aikasidonnainen, joten sinun täytyy ilmoittautua niin pian kuin voit antaa data science uran massiivinen vauhtia!
Sisällysluettelo
- Sukellus Big Data-työkaluja Big Datan käsittelyyn
- tilavuus
- lajike
- tilavuus
- datatieteen Työkalut
- raportointi ja liiketoimintatiedon hallinta
- ennakoiva mallinnus ja koneoppiminen
- tekoäly
Data Science Työkalut Big Data
jotta todella ymmärtää merkityksen Big Data, on tärkeää, että ymmärrämme perusperiaatteet, jotka määrittelevät datan big dataksi. Näitä kutsutaan big datan 3 V: ksi:
- tilavuus
- lajike
- nopeus
Työkalut tilavuuden
kuten nimestä voi päätellä, tilavuus viittaa mittakaavaan ja datan määrään. Ymmärtääksenne datan laajuuden, josta puhun, teidän on tiedettävä, että yli 90% maailman datasta on luotu vain kahden viime vuoden aikana!
vuosikymmenen aikana datamäärän kasvaessa myös tekniikka on muuttunut paremmaksi. Laskenta-ja tallennuskustannusten lasku on tehnyt valtavien tietomäärien keräämisestä ja tallentamisesta paljon helpompaa.
tiedon määrä määrittelee, voidaanko se luokitella big dataksi vai ei.
kun meillä on dataa 1GB: stä noin 10Gb: hen, perinteiset datatieteen työkalut yleensä toimivat näissä tapauksissa hyvin. Mitä nämä työkalut ovat?
- Microsoft Excel-Excel on helpoin ja suosituin työkalu pienten tietomäärien käsittelyyn. Sen tukemien rivien enimmäismäärä on vain sävy yli 1 miljoonaa ja yksi arkki voi käsitellä vain 16 380 saraketta kerrallaan. Nämä luvut eivät yksinkertaisesti riitä, kun tietomäärä on iso.
- Microsoft Access-se on Microsoftin suosittu työkalu, jota käytetään tietojen tallentamiseen. Pienempiä tietokantoja jopa 2Gb voidaan käsitellä sujuvasti tällä työkalulla, mutta sen jälkeen, se alkaa halkeilua.
- SQL-SQL on yksi suosituimmista tiedonhallintajärjestelmistä, joka on ollut olemassa 1970-luvulta lähtien. se oli ensisijainen tietokantaratkaisu muutaman vuosikymmenen ajan. SQL on edelleen suosittu, mutta siellä haittapuoli – se on vaikea skaalata sitä tietokannan kasvaa edelleen.
olemme käsitelleet joitakin perustyökaluja tähän mennessä. Nyt on aika päästää isot aseet valloilleen! Jos tietosi on suurempi kuin 10Gb aina jopa tallennustilaa suurempi kuin 1Tb+, sinun täytyy toteuttaa työkalut olen mainittu alla:
- Hadoop – se on avoimen lähdekoodin hajautettu kehys, joka hallinnoi big datan käsittelyä ja tallennusta. Olet todennäköisesti törmännyt tähän työkaluun aina, kun rakennat koneoppimisprojektin tyhjästä.
- Hive – se on Hadoopin päälle rakennettu tietovarasto. Hive tarjoaa SQL – tyyppisen käyttöliittymän, jolla voi tiedustella Hadoopiin integroituviin tietokantoihin ja tiedostojärjestelmiin tallennettuja tietoja.
lajikkeen
Käsittelytyökaluilla tarkoitetaan erilaisia tietoja, joita on olemassa. Tietotyyppi voi olla jokin näistä-strukturoitu ja Strukturoimaton tieto.
käykäämme läpi esimerkkejä, jotka kuuluvat näiden eri tietotyyppien piiriin:
tarkkaile hetki näitä esimerkkejä ja korreloi ne reaalimaailman datasi kanssa.
kuten Olet saattanut havaita strukturoitujen tietojen osalta, näissä tietotyypeissä on tietty järjestys ja rakenne, kun taas jäsentämättömien tietojen tapauksessa esimerkit eivät noudata mitään trendiä tai kaavaa. Esimerkiksi asiakaspalautteen pituus, tunnelmat ja muut tekijät voivat vaihdella. Lisäksi tämäntyyppiset tiedot ovat valtavia ja monipuolisia.
tämäntyyppisen datan käsitteleminen voi olla hyvin haastavaa, joten mitä erilaisia datatieteen työkaluja markkinoilla on näiden eri tietotyyppien hallintaan ja käsittelyyn?
kaksi yleisintä tietokantaa ovat SQL ja NoSQL. SQL on ollut markkinoilla hallitseva toimija useita vuosia ennen NoSQL syntyi.
joitakin esimerkkejä SQL ovat Oracle, MySQL, SQLite, kun taas NoSQL koostuu suosittuja tietokantoja, kuten MongoDB, Cassandra, jne. Nämä NoSQL-tietokannat näkevät valtavia hyväksymisnumeroita, koska ne kykenevät skaalaamaan ja käsittelemään dynaamista dataa.
työkalujen käsittelynopeus
kolmas ja viimeinen V edustaa nopeutta. Tämä on nopeus, jolla tiedot otetaan talteen. Tämä sisältää sekä reaaliaikaiset että ei-reaaliaikaiset tiedot. Puhumme tässä lähinnä reaaliaikaisesta datasta.
meillä on ympärillämme paljon esimerkkejä, jotka tallentavat ja käsittelevät reaaliaikaista dataa. Monimutkaisin on itseohjautuvien autojen keräämä sensoridata. Kuvittele olevasi itseohjautuvassa autossa-auton on dynaamisesti kerättävä ja käsiteltävä tietoja kaistastaan, etäisyydestään muihin ajoneuvoihin jne. kaikki samaan aikaan!
joitakin muita esimerkkejä reaaliaikaisesta tiedonkeruusta ovat:
- CCTV
- osakekauppa
- Luottokorttitapahtuman petostapaukset
- verkkotiedot – sosiaalinen media (Facebook, Twitter jne.)
Tiesitkö?
jokaisessa New Yorkin pörssin kaupankäyntitilaisuudessa syntyy yli 1Tb dataa!
now, let ’ s head on to some of the common used data science tools to handle-real-time data:
- Apache Kafka-Kafka on Apachen julkaisema avoimen lähdekoodin työkalu. Sitä käytetään reaaliaikaisten dataputkien rakentamiseen. Joitakin etuja Kafka on-se on vikasietoinen, todella nopea, ja käytetään tuotannossa suuri määrä organisaatioita.
- Apache Storm-tätä Apachen työkalua voidaan käyttää lähes kaikilla ohjelmointikielillä. Se voi käsitellä jopa 1 miljoonaa tuplaa sekunnissa ja se on erittäin skaalautuva. Se on hyvä työkalu harkita korkean tiedon nopeus.
- Amazon Kinesis-Tämä työkalu Amazon on samanlainen Kafka, mutta se tulee tilauksen kustannukset. Kuitenkin, se tarjotaan out-of-the-box ratkaisu, joka tekee siitä erittäin tehokas vaihtoehto organisaatioille.
- Apache Flink-Flink on jälleen yksi Apachen työkalu, jota voimme käyttää reaaliaikaiseen dataan. Flinkin etuja ovat muun muassa korkea suorituskyky, vikasietoisuus ja tehokas muistinhallinta.
nyt kun meillä on vankka käsitys eri työkaluja käytetään yleisesti työskentelyyn Big Data, siirrytään segmentti, jossa voit hyödyntää tietoja soveltamalla kehittyneitä koneoppimisen tekniikoita ja algoritmeja.
laajalti käytetyt Datatiedetyökalut
jos perustat upouuden datatiedeprojektin, mielessäsi on liuta kysymyksiä. Tämä on totta riippumatta tasosi-olitpa data scientist, data analyytikko, projektipäällikkö, tai vanhempi data science executive.
jotkut kohtaamasi kysymykset ovat:
- mitä työkaluja kannattaa käyttää datatieteen eri osa-alueilla?
- Pitäisikö minun ostaa lisenssit työkaluille vai valita avoimen lähdekoodin ohjelma?, ja niin edelleen
tässä osiossa käsitellään joitakin suosittuja datatieteen työkaluja, joita teollisuudessa käytetään eri osa-alueiden mukaan.
Datatiede on itsessään laaja termi ja se koostuu useista eri osa-alueista ja jokaisella osa-alueella on oma liiketoiminnallinen merkityksensä ja kompleksisuutensa, joka on kauniisti kuvattu alla olevassa kuvassa:
datatieteen spektri koostuu eri osa-alueista, ja näitä alueita edustaa niiden suhteellinen monimutkaisuus ja niiden tarjoama liiketoiminnallinen arvo. Ottakaamme esiin jokainen niistä kohdista, jotka olen osoittanut yllä olevassa spektrissä.
raportointi ja Business Intelligence
aloitetaan spektrin alapäästä. Sen avulla organisaatio voi tunnistaa trendejä ja malleja, jotta voidaan tehdä ratkaisevia strategisia päätöksiä. Analyysityypit vaihtelevat MIS: stä data-analytiikkaan, aina dashboardingiin.
näillä aloilla yleisesti käytettyjä työkaluja ovat:
- Excel-se tarjoaa monipuolisen valikoiman vaihtoehtoja, kuten Pivot taulukoita ja kaavioita, joiden avulla voit tehdä analyysin double-quick time. Tämä on lyhyesti sanottuna Swiss Army Knife of data science / analytics tools
- QlikView – sen avulla voit koota, etsiä, visualisoida ja analysoida kaikki tietolähteesi muutamalla klikkauksella. Se on helppo ja intuitiivinen työkalu oppia, mikä tekee siitä niin suosittu.
- Tableau – se on yksi suosituimmista tietojen visualisointi työkaluja markkinoilla tänään. Se pystyy käsittelemään suuria tietomääriä ja tarjoaa jopa Excel-kaltaisia laskentatoimintoja ja parametreja. Tableau on pidetty siistin kojelautansa ja tarinaliittymänsä ansiosta.
- Microstrategy-se on vielä yksi BI työkalu, joka tukee dashboards, automatisoitu jakelut, ja muut keskeiset data analytics tehtäviä.
- PowerBI – se on Microsoft tarjoaa Business Intelligence (BI) tilaa. PowerBI rakennettiin integroimaan Microsoftin teknologioihin. Joten jos organisaatiosi on Sharepoint tai SQL-tietokannan käyttäjä, sinä ja tiimisi rakastavat työskennellä tämän työkalun.
- Google Analytics-Mietitkö, miten Google Analytics pääsi tähän luetteloon? No, digitaalinen markkinointi on tärkeä rooli muuttamassa yrityksiä ja ei ole parempaa työkalua kuin tämä analysoida digitaalisia ponnisteluja.
ennakoiva analytiikka ja koneoppimisen Työkalut
siirryttäessä yhä ylemmäs, panokset vain nousivat korkeiksi niin monimutkaisuuden kuin liiketoiminnan arvon suhteen! Tämä on verkkotunnus, jossa leipä ja voi useimpien tietojen tutkijat tulevat. Jotkut tyypit ongelmia voit ratkaista ovat tilastollinen mallinnus, ennustaminen, neuroverkkojen, ja syväoppiminen.
Ymmärtäkäämme tällä alalla yleisesti käytetyt työkalut:
- Python – se on helppoutensa, joustavuutensa ja avoimen lähdekoodin luonteensa vuoksi nykyisin yksi datatieteen hallitsevimmista kielistä. Se on saavuttanut nopeasti suosiota ja hyväksyntää ML-yhteisössä.
- R – se on toinen hyvin yleisesti käytetty ja arvostettu kieli data science. R: llä on kukoistava ja uskomattoman tukeva yhteisö, ja sen mukana tulee lukuisia paketteja ja kirjastoja, jotka tukevat useimpia koneoppimistehtäviä.
- Apache Spark-Spark on UC Berkleyn vuonna 2010 julkaisema avoin tietolähde, josta on sittemmin tullut yksi big datan suurimmista yhteisöistä. Se tunnetaan Sveitsin armeijan veitsi big data analytics, koska se tarjoaa useita etuja, kuten joustavuus, nopeus, laskentateho, jne.
- Julia-se on tuleva kieli, ja sitä mainostetaan Pythonin seuraajaksi. Se on vielä orastavassa vaiheessa ja on mielenkiintoista nähdä, miten se toimii tulevaisuudessa.
- Jupyter-muistikirjat – näitä muistikirjoja käytetään laajalti Python – ohjelmoinnissa. Vaikka sitä käytetään pääasiassa Python, se tukee myös muita kieliä, kuten Julia, R, jne.
tähän mennessä käsittelemämme työkalut ovat todellisia avoimen lähdekoodin työkaluja. Sinun ei tarvitse maksaa niistä tai ostaa ylimääräisiä lisenssejä. Heillä on kukoistavia ja aktiivisia yhteisöjä, jotka ylläpitävät ja julkaisevat päivityksiä säännöllisesti.
nyt tutustumme alan johtajiksi tunnustettuihin premium-työkaluihin:
- SAS – se on erittäin suosittu ja tehokas työkalu. Sitä käytetään yleisesti pankki-ja rahoitusalalla. Sillä on erittäin suuri osuus yksityisissä organisaatioissa, kuten American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland, jne.
- SPSS-lyhenne sanoista Statistical Package for Social Sciences, SPSS siirtyi IBM: n omistukseen vuonna 2009. Se tarjoaa kehittynyttä tilastoanalyysiä, laajan kirjaston koneoppimisalgoritmeja, tekstianalyysiä ja paljon muuta.
- Matlab-Matlab on todella aliarvostettu organisaatiomaisemassa, mutta sitä käytetään laajasti korkeakouluissa ja tutkimusosastoilla. Se on menettänyt paljon jalansijaa viime aikoina tykkää Python, R, ja SAS mutta yliopistot, erityisesti Yhdysvalloissa, silti opettaa paljon perustutkintoa kursseja käyttäen Matlab.
yhteiset viitekehykset Syväoppimiselle
Syväoppiminen vaatii suuria laskennallisia resursseja ja tarvitsee erityisiä viitekehyksiä näiden resurssien tehokkaaseen hyödyntämiseen. Tästä johtuen, sinun todennäköisesti vaativat GPU tai TPU.
Tarkastellaanpa tässä jaksossa joitakin syväoppimisen viitekehyksiä.
- TensorFlow – se on nykyisin helposti alan käytetyin työkalu. Google voi olla jotain tekemistä sen kanssa!
- PyTorch – tämä superjoustava syväoppimiskehys antaa suuren kilpailun TensorFlow ’ lle. PyTorch on viime aikoina noussut parrasvaloihin ja sen kehittivät tutkijat Facebookissa
- Keras ja Caffe ovat muita kehyksiä, joita käytetään laajasti syväoppimisen sovellusten rakentamiseen
tekoälyn Työkalut
automlin aikakausi on täällä. Jos et ole kuullut näistä työkaluista, on hyvä aika kouluttaa itseäsi! Tämä voi hyvinkin olla se, mitä sinä datatieteilijänä teet lähitulevaisuudessa.
suosituimpia AutoML-työkaluja ovat Autokerät, Google Cloud AutoML, IBM Watson, DataRobot, H20: n Driverless AI ja Amazonin Lex. AutoML: n odotetaan olevan seuraava iso asia AI/ML-yhteisössä. Sen tavoitteena on poistaa tai vähentää teknistä puolta asioista, jotta yritysjohtajat voivat käyttää sitä strategisten päätösten tekemiseen.
näillä työkaluilla voidaan automatisoida koko putki!
Loppuhuomautukset
olemme keskustelleet tiedonkeruukoneesta ja työkaluista, joita tarvitaan putkilinjan toteuttamiseen tietojen hakemista, käsittelyä ja tallentamista varten. Datatiede koostuu laajasta toimialueen kirjosta ja jokaisella toimialueella on omat työkalunsa ja kehyksensä.
datatiedetyökalun valinta riippuu usein henkilökohtaisesta valinnasta, verkkotunnuksesta tai projektista ja tietenkin organisaatiosta.