22 Mye Brukt Datavitenskap og Maskinlæringsverktøy i 2020

Oversikt

  • det finnes en mengde datavitenskapsverktøy der ute – hvilket bør du hente?
  • her er en liste over over 20 data science verktøy catering til ulike stadier av data science livssyklus

Introduksjon

Hva er de beste verktøyene for å utføre data science oppgaver? Og hvilket verktøy bør du plukke opp som nykommer i datavitenskap?

jeg er sikker på at du har spurt (eller søkt etter) disse spørsmålene på et tidspunkt i din egen datavitenskapsreise. Dette er gyldige spørsmål! Det er ingen mangel på datavitenskapsverktøy i bransjen. Plukke en for din reise og karriere kan være en vanskelig beslutning.

data_science_tools

La oss innse det-datavitenskap er et stort spekter og hvert av domenene krever håndtering av data på en unik måte som fører mange analytikere/datavitenskapere til forvirring. Og hvis du er en bedriftsleder, vil du komme over viktige spørsmål om verktøyene du og din bedrift velger, da det kan ha en langsiktig innvirkning.

så igjen er spørsmålet hvilket datavitenskapsverktøy du bør velge?

i denne artikkelen vil jeg forsøke å fjerne denne forvirringen ved å notere ned mye brukte verktøy som brukes i datavitenskapsområdet brutt ned av deres bruk og sterke poeng. Så la oss komme i gang!

og hvis du er en nykommer til maskinlæring og/eller forretningsanalyse, eller bare har begynt, oppfordrer jeg deg til å utnytte Et utrolig initiativ Fra Analytics Vidhya kalt UnLock 2020. Dekker to omfattende programmer – Machine Learning Starter Program og Business Analytics Starter Program – dette initiativet er tidsbundet, så du må registrere deg så snart du kan for å gi din datavitenskapskarriere et enormt løft!

Innholdsfortegnelse

  • Dykking I Store Data-Verktøy for håndtering Av Store Data
    • Volum
    • Variasjon
    • Volum
  • Verktøy For Datavitenskap
    • Rapportering Og Forretningsintelligens
    • Prediktiv Modellering Og Maskinlæring
    • Kunstig Intelligens

Data Science Tools For Big Data

for å virkelig forstå betydningen bak Big Data, er det viktig at vi forstår de grunnleggende prinsippene som definerer dataene som big data. Disse er kjent som 3 V av big data:

  • Volum
  • Variasjon
  • Hastighet

Verktøy For Håndtering Av Volum

som navnet antyder, refererer volum til skalaen og mengden data. For å forstå omfanget av dataene jeg snakker om, må du vite at over 90% av dataene i verden ble opprettet i løpet av de siste to årene!

i løpet av tiåret, med økningen i mengden data, har teknologien også blitt bedre. Nedgangen i beregnings-og lagringskostnader har gjort innsamling og lagring av store mengder data langt enklere.

volumet av dataene definerer om det kvalifiserer som store data eller ikke.

når vi har data fra 1Gb til rundt 10Gb, har de tradisjonelle datavitenskapsverktøyene en tendens til å fungere godt i disse tilfellene. Så hva er disse verktøyene?

  • Microsoft Excel-Excel er det enkleste og mest populære verktøyet for håndtering av små datamengder. Den maksimale mengden av rader den støtter er bare en nyanse over 1 million og ett ark kan håndtere bare opp til 16,380 kolonner om gangen. Disse tallene er rett og slett ikke nok når mengden data er stor.

  • Microsoft Access-det er et populært verktøy Av Microsoft som brukes til datalagring. Mindre databaser opptil 2 gb kan håndteres jevnt med dette verktøyet, men utover det begynner det å sprekke opp.

  • SQL-SQL ER et av de mest populære datahåndteringssystemene som har eksistert siden 1970-tallet. DET var den primære databaseløsningen i noen tiår. SQL er fortsatt populær, men det er en ulempe – det blir vanskelig å skalere det som databasen fortsetter å vokse.

vi har dekket noen av de grunnleggende verktøyene så langt. Det er på tide å slippe løs de store våpen nå! Hvis dataene dine er større enn 10Gb helt opp til lagring større enn 1Tb+, må du implementere verktøyene jeg har nevnt nedenfor:

  • Hadoop-Det er en åpen kildekode distribuert rammeverk som styrer databehandling og lagring for store data. Du vil sannsynligvis komme over dette verktøyet når du bygger et maskinlæringsprosjekt fra bunnen av.

  • Hive-Det er et datalager bygget på Toppen Av Hadoop. Hive gir EN SQL-lignende grensesnitt for å spørre data lagret i ulike databaser og filsystemer som integreres Med Hadoop.

Verktøy For Håndtering Av Variety

Variety refererer til de forskjellige datatypene som finnes der ute. Datatypen kan være En Av Disse-Strukturerte og Ustrukturerte data.

La oss gå gjennom eksemplene som faller under paraplyen til disse forskjellige datatypene:

ta deg tid til å observere disse eksemplene og korrelere dem med dine virkelige data.

som du kanskje har observert I Tilfelle Av Strukturerte data, er det en viss rekkefølge og struktur til disse datatypene, mens i tilfelle av ustrukturerte data følger eksemplene ingen trend eller mønster. For eksempel kan tilbakemeldinger fra kunder variere i lengde, følelser og andre faktorer. Videre er disse typer data store og varierte.

det kan være svært utfordrende å takle denne typen data, så hva er de forskjellige datavitenskapsverktøyene som er tilgjengelige i markedet for å administrere og håndtere disse forskjellige datatypene?

DE to vanligste databasene ER SQL og NoSQL. SQL har vært markedsdominerende aktører i flere år før NoSQL dukket opp.

NOEN eksempler FOR SQL Er Oracle, MySQL, SQLite, mens NoSQL består av populære databaser som MongoDB, Cassandra, etc. Disse nosql-databasene ser store adopsjonsnumre på grunn av deres evne til å skalere og håndtere dynamiske data.

Verktøy For Håndtering Av Hastighet

den tredje Og siste V representerer hastigheten. Dette er hastigheten der dataene er fanget. Dette inkluderer både sanntids-og ikke-sanntidsdata. Vi snakker hovedsakelig om sanntidsdata her.

vi har mange eksempler rundt oss som fanger og behandler sanntidsdata. Den mest komplekse er sensordataene som samles inn av selvkjørende biler. Tenk deg å være i en selvkjørende bil-bilen må dynamisk samle inn og behandle data om kjørefelt, avstand fra andre kjøretøy, etc. alt på samme tid!

Noen andre eksempler på sanntidsdata som samles inn er:

  • CCTV
  • aksjehandel
  • oppdagelse Av Svindel for kredittkorttransaksjon
  • Nettverksdata – sosiale medier (Facebook, Twitter, etc.)

Visste du det?

Mer enn 1 tb data genereres under hver handel økt På New York stock exchange!

La Oss nå gå videre til noen av de mest brukte datavitenskapsverktøyene for å håndtere sanntidsdata:

  • Apache Kafka-Kafka er en åpen kildekode-verktøy Ved Apache. Den brukes til å bygge sanntidsdata rørledninger. Noen av fordelene Med Kafka er – det er feiltolerant – veldig rask, og brukes i produksjon av et stort antall organisasjoner.

  • Apache Storm – dette verktøyet Av Apache kan brukes med nesten alle programmeringsspråk. Det kan behandle opptil 1 Million tuples per sekund, og det er svært skalerbar. Det er et godt verktøy å vurdere for høy datahastighet.
  • Amazon Kinesis – dette verktøyet Av Amazon er lik Kafka, men det kommer med et abonnement kostnad. Det tilbys imidlertid som en out-of-the-box løsning som gjør det til et svært kraftig alternativ for organisasjoner.

  • Apache Flink-Flink er enda et verktøy Av Apache som vi kan bruke for sanntidsdata. Noen av fordelene Med Flink er høy ytelse, feiltoleranse og effektiv minnehåndtering.

Nå som vi har en solid forståelse av de forskjellige verktøyene som vanligvis brukes til å jobbe Med Store Data, la oss flytte til segmentet der du kan dra nytte av dataene ved å bruke avanserte maskinlæringsteknikker og algoritmer.

Mye Brukt Datavitenskapsverktøy

hvis du setter opp et helt nytt datavitenskapsprosjekt, har du massevis av spørsmål i tankene. Dette gjelder uansett nivå – enten du er dataforsker, dataanalytiker, prosjektleder eller senior datavitenskapsleder.

noen av spørsmålene du møter er:

  • Hvilke verktøy bør du bruke i ulike domener av data science?
  • Skal jeg kjøpe lisenser for verktøyene eller velge en åpen kildekode?, og så videre

i denne delen vil vi diskutere noen av de populære datavitenskapsverktøyene som brukes i bransjen i henhold til forskjellige domener.

Datavitenskap er et bredt begrep i seg selv og består av en rekke forskjellige domener, og hvert domene har sin egen forretningsmessige betydning og kompleksitet som er vakkert fanget i bildet nedenfor:

datavitenskapsspekteret består av ulike domener, og disse domenene er representert av deres relative kompleksitet og forretningsverdien de gir. La oss ta opp hvert av punktene jeg har vist i det ovennevnte spekteret.

Rapportering Og Business Intelligence

La oss begynne med den nedre enden av spekteret. Det gjør det mulig for en organisasjon å identifisere trender og mønstre for å ta viktige strategiske beslutninger. Analysetypene spenner FRA MIS, dataanalyse, helt over til dashboarding.

de mest brukte verktøyene i disse domenene er:

  • Excel – Det gir et variert utvalg av alternativer, inkludert Pivottabeller og diagrammer som lar deg gjøre analyse i dobbel-rask tid. Dette Er Kort sagt Den Sveitsiske Hærkniven av datavitenskap/analyseverktøy
  • QlikView – Den lar deg konsolidere, søke, visualisere og analysere alle datakildene dine med bare noen få klikk. Det er et enkelt og intuitivt verktøy for å lære noe som gjør det så populært.

  • Tableau-det er blant de mest populære datavisualiseringsverktøyene i markedet i dag. Det er i stand til å håndtere store mengder data og tilbyr Til Og Med Excel – lignende beregningsfunksjoner og parametere. Tableau er godt likt på grunn av sin ryddig dashbord og historie grensesnitt.

  • Microstrategy-Det er enda ET BI-verktøy som støtter dashboards, automatiserte distribusjoner og andre viktige dataanalyseoppgaver.

  • PowerBI – Det Er Et Microsoft-tilbud i Business Intelligence (BI) – rommet. PowerBI ble bygget for å integrere Med Microsoft-teknologier. Så hvis organisasjonen din har En Sharepoint-eller SQL-databasebruker, vil du og teamet ditt elske å jobbe med dette verktøyet.

  • Google Analytics-Lurer På Hvordan Gjorde Google Analytics gjøre det til denne listen – Vel, digital markedsføring spiller en viktig rolle i å transformere bedrifter, og det er ikke noe bedre verktøy enn dette for å analysere din digitale innsats.

Prediktiv Analyse Og Maskinlæringsverktøy

Ved å bevege seg lenger opp i stigen, ble innsatsen akkurat høy både når det gjelder kompleksitet og forretningsverdi! Dette er domenet hvor brød og smør av de fleste data forskere kommer fra. Noen av de typer problemer du vil løse er statistisk modellering, prognoser, nevrale nettverk og dyp læring.

La oss forstå de brukte verktøyene i dette domenet:

  • Python – Dette er et av de mest dominerende språkene for datavitenskap i bransjen i dag på grunn av sin lette, fleksibilitet, åpen kildekode. Det har fått rask popularitet og aksept I ML samfunnet.

  • R-Det er et annet svært vanlig brukt og respektert språk i datavitenskap. R har et blomstrende og utrolig støttende samfunn, og det kommer med en mengde pakker og biblioteker som støtter de fleste maskinlæringsoppgaver.

  • Apache Spark-Spark ble åpnet av UC Berkley i 2010 og har siden blitt et av de største samfunnene i big data. Det er kjent som swiss army knife av big data analytics, da det gir flere fordeler som fleksibilitet, hastighet, beregningskraft, etc.

  • Julia – Det er et kommende språk og blir spioneringen som Etterfølgeren Til Python. Det er fortsatt i sin nascent scene, og det vil være interessant å se hvordan det utfører i fremtiden.

  • Jupyter Notebooks – disse notatbøkene er mye brukt til koding I Python. Mens det hovedsakelig brukes Til Python, støtter det også andre språk som Julia, R, etc.

verktøyene vi har diskutert så langt er ekte open source-verktøy. Du trenger ikke å betale for dem eller kjøpe noen ekstra lisenser. De har blomstrende og aktive samfunn som opprettholder og slipper oppdateringer regelmessig.

Nå vil vi sjekke ut noen premium verktøy som er anerkjent som industriledere:

  • SAS-DET er et veldig populært og kraftig verktøy. Det er prevalently og ofte brukt i bank-og finanssektoren. Den har en svært høy andel i private organisasjoner som American Express, Jp Morgan, Mu Sigma, Royal Bank Of Scotland, etc.

  • SPSS-Forkortelse For Statistisk Pakke For Samfunnsvitenskap, BLE spss kjøpt AV IBM i 2009. Det tilbyr avansert statistisk analyse, et stort bibliotek av maskinlæringsalgoritmer, tekstanalyse og mye mer.

  • Matlab-Matlab er virkelig undervurdert i organisasjonslandskapet, men det er mye brukt i akademia og forskningsavdelinger. Det har mistet mye grunn i nyere tid til Slike Som Python, R og SAS, men universiteter, spesielt I USA, lærer fortsatt mange grunnkurs ved Hjelp Av Matlab.

Felles Rammer For Dyp Læring

Dyp Læring krever høye beregningsressurser og trenger spesielle rammer for å utnytte disse ressursene effektivt. På grunn av dette vil du mest sannsynlig kreve EN GPU eller EN TPU.

La oss se på noen av rammene som brukes Til Dyp Læring i denne delen.

  • TensorFlow – det er lett det mest brukte verktøyet i bransjen i dag. Google kan ha noe med dette å gjøre.
  • PyTorch – denne super fleksibel dyp læring rammeverk gir stor konkurranse Til TensorFlow. PyTorch har nylig kommet inn i rampelyset Og ble utviklet Av forskere Ved Facebook
  • Keras Og Caffe er andre rammer som brukes mye for å bygge dyp læring programmer

Kunstig Intelligens Verktøy

æra Av AutoML er her. Hvis du ikke har hørt om disse verktøyene, så er det en god tid å utdanne deg selv! Dette kan godt være hva du som datavitenskapsmann vil jobbe med i nær fremtid.

Noen Av De mest populære AutoML-verktøyene Er AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, H20s Driverless AI og Amazons Lex. AutoML forventes å være den neste store tingen I AI / ML-samfunnet. Det tar sikte på å eliminere eller redusere den tekniske siden av ting slik at bedriftsledere kan bruke den til å ta strategiske beslutninger.

disse verktøyene vil kunne automatisere hele rørledningen!

Sluttnotater

Vi har diskutert datainnsamlingsmotoren Og verktøyene som kreves for å oppnå rørledningen for henting, behandling og lagring av data. Datavitenskap består av et stort spekter av domene, og hvert domene har sitt eget sett med verktøy og rammer.

Å Velge ditt datavitenskapsverktøy vil ofte komme ned til ditt personlige valg, ditt domene eller prosjekt, og selvfølgelig din organisasjon.



+