- oversigt
- introduktion
- Indholdsfortegnelse
- Data Science Tools For Big Data
- værktøjer til håndtering af volumen
- værktøjer til håndtering af Variety
- værktøjer til håndtering af hastighed
- udbredte Datavidenskabsværktøjer
- rapportering og Business Intelligence
- Predictive Analytics og Machine Learning Tools
- fælles rammer for dyb læring
- kunstige intelligensværktøjer
- slutnoter
oversigt
- der er en overflod af datavidenskabelige værktøjer derude – hvilken skal du hente?
- her er en liste over over 20 data science værktøjer catering til forskellige stadier af data science livscyklus
introduktion
hvad er de bedste værktøjer til at udføre data science opgaver? Og hvilket værktøj skal du hente som nybegynder inden for datalogi?
jeg er sikker på, at du har stillet (eller søgt efter) disse spørgsmål på et tidspunkt i din egen datavidenskabsrejse. Dette er gyldige spørgsmål! Der er ingen mangel på datavidenskabelige værktøjer i branchen. At vælge en til din rejse og karriere kan være en vanskelig beslutning.
lad os indse det – datavidenskab er et stort spektrum, og hvert af dets domæner kræver håndtering af data på en unik måde, der fører mange analytikere/dataforskere til forvirring. Og hvis du er en virksomhedsleder, vil du støde på afgørende spørgsmål vedrørende de værktøjer, du og din virksomhed vælger, da det kan have en langsigtet indvirkning.
så igen er spørgsmålet, hvilket datavidenskabsværktøj du skal vælge?
i denne artikel vil jeg forsøge at rydde denne forvirring ved at notere meget anvendte værktøjer, der anvendes i datavidenskabsrummet opdelt efter deres brug og stærke punkter. Så lad os komme i gang!
og hvis du er nybegynder inden for maskinindlæring og/eller forretningsanalyse eller lige er begyndt, opfordrer jeg dig til at udnytte et utroligt initiativ fra Analytics Vidhya kaldet UnLock 2020. Dækker to omfattende programmer-Machine Learning Starter Program og Business Analytics Starter Program – dette initiativ er tidsbundet, så du bliver nødt til at tilmelde dig så hurtigt som muligt for at give din datavidenskabskarriere et massivt løft!
Indholdsfortegnelse
- dykning i store Data-værktøjer til håndtering af store Data
- bind
- variation
- bind
- værktøjer til datalogi
- rapportering og Business Intelligence
- prædiktiv modellering og maskinlæring
- kunstig intelligens
Data Science Tools For Big Data
for virkelig at forstå betydningen bag Big Data er det vigtigt, at vi forstår de grundlæggende principper, der definerer dataene som big data. Disse er kendt som 3 V ‘ erne af big data:
- volumen
- variation
- hastighed
værktøjer til håndtering af volumen
som navnet antyder, henviser volumen til skalaen og mængden af data. For at forstå omfanget af de data, jeg taler om, skal du vide, at over 90% af dataene i verden blev oprettet i løbet af de sidste to år!
i løbet af årtiet, med stigningen i mængden af data, er teknologien også blevet bedre. Faldet i beregnings-og lageromkostninger har gjort indsamling og lagring af enorme mængder data langt lettere.
datavolumen definerer, om det kvalificerer sig som big data eller ej.
når vi har data fra 1 GB til omkring 10 GB, har de traditionelle datavidenskabelige værktøjer en tendens til at fungere godt i disse tilfælde. Så hvad er disse værktøjer?
- Microsoft er det nemmeste og mest populære værktøj til håndtering af små mængder data. Den maksimale mængde rækker, den understøtter, er kun en skygge over 1 million, og et ark kan kun håndtere op til 16.380 kolonner ad gangen. Disse tal er simpelthen ikke nok, når mængden af data er stor.
- Microsoft Access – det er et populært værktøj af Microsoft, der bruges til datalagring. Mindre databaser op til 2 GB kan håndteres problemfrit med dette værktøj, men ud over det begynder det at knække op.
- det er et af de mest populære datastyringssystemer, der har eksisteret siden 1970 ‘ erne. det var den primære databaseløsning i et par årtier. Det er stadig populært, men der er en ulempe – det bliver svært at skalere det, da databasen fortsætter med at vokse.
vi har dækket nogle af de grundlæggende værktøjer indtil videre. Det er tid til at frigøre de store kanoner nu! Hvis dine data er større end 10 GB helt op til opbevaring større end 1 TB+, skal du implementere de værktøjer, jeg har nævnt nedenfor:
- Hadoop – det er en open source distribueret ramme, der styrer databehandling og opbevaring til big data. Du vil sandsynligvis støde på dette værktøj, når du bygger et maskinlæringsprojekt fra bunden.
- Hive – det er et datalager bygget oven på Hadoop. Hive giver en grænseflade til at forespørge de data, der er gemt i forskellige databaser og filsystemer, der integreres med Hadoop.
værktøjer til håndtering af Variety
Variety refererer til de forskellige typer data, der er derude. Datatypen kan være en af disse-strukturerede og ustrukturerede data.
lad os gennemgå eksemplerne, der falder ind under paraplyen af disse forskellige datatyper:
brug et øjeblik på at observere disse eksempler og korrelere dem med dine virkelige data.
som du måske har observeret i tilfælde af strukturerede data, er der en vis rækkefølge og struktur til disse datatyper, mens eksemplerne i tilfælde af ustrukturerede data ikke følger nogen tendens eller mønster. For eksempel kan kundefeedback variere i længde, følelser og andre faktorer. Desuden er disse typer data enorme og forskellige.
det kan være meget udfordrende at tackle denne type data, så hvad er de forskellige datavidenskabelige værktøjer, der findes på markedet til styring og håndtering af disse forskellige datatyper?
de to mest almindelige databaser er NSKL og Nskl. DF har været de dominerende aktører på markedet i en årrække, før DF opstod.
nogle eksempler er Oracle, Myscl, Mysclite, mens Noscl består af populære databaser som MongoDB, Cassandra osv. Disse databaser ser enorme adoptionsnumre på grund af deres evne til at skalere og håndtere dynamiske data.
værktøjer til håndtering af hastighed
den tredje og sidste V repræsenterer hastigheden. Dette er den hastighed, hvormed dataene fanges. Dette omfatter både real-time og ikke-real-time data. Vi vil primært tale om realtidsdata her.
vi har mange eksempler omkring os, der fanger og behandler data i realtid. Den mest komplekse er sensordataene indsamlet af selvkørende biler. Forestil dig at være i en selvkørende bil-bilen skal dynamisk indsamle og behandle data vedrørende dens bane, afstand fra andre køretøjer osv. alt på samme tid!
nogle andre eksempler på data i realtid, der indsamles, er:
- CCTV
- aktiehandel
- afsløring af svindel for kreditkorttransaktion
- netværksdata – sociale medier (Facebook, Kvidre osv.)
vidste du det?
der genereres mere end 1 TB data under hver handelssession på børsen!
lad os nu gå videre til nogle af de almindeligt anvendte datavidenskabelige værktøjer til at håndtere realtidsdata:
- Apache Kafka-Kafka er et open source-værktøj af Apache. Det bruges til at opbygge real-time data rørledninger. Nogle af fordelene ved Kafka er-det er fejltolerant, virkelig hurtigt og bruges i produktion af et stort antal organisationer.
- Apache Storm-dette værktøj ved Apache kan bruges med næsten alle programmeringssprog. Det kan behandle op til 1 Million tupler i sekundet, og det er meget skalerbart. Det er et godt værktøj til at overveje for høj datahastighed.
- dette værktøj er magen til Kafka, men det kommer med et abonnement omkostninger. Det tilbydes dog som en løsning uden for boksen, hvilket gør det til en meget kraftfuld mulighed for organisationer.
- Apache Flink-Flink er endnu et værktøj ved Apache, som vi kan bruge til real-time data. Nogle af fordelene ved Flink er høj ydeevne, fejltolerance og effektiv hukommelsesstyring.
nu hvor vi har et solidt greb om de forskellige værktøjer, der ofte bruges til at arbejde med Big Data, lad os gå til det segment, hvor du kan drage fordel af dataene ved at anvende avancerede maskinlæringsteknikker og algoritmer.
udbredte Datavidenskabsværktøjer
hvis du opretter et helt nyt datavidenskabsprojekt, har du masser af spørgsmål i tankerne. Dette gælder uanset dit niveau-uanset om du er en dataforsker, en dataanalytiker, en projektleder eller en senior datavidenskabsleder.
nogle af de spørgsmål, du står over for, er:
- hvilke værktøjer skal du bruge inden for forskellige domæner inden for datalogi?
- skal jeg købe licenser til værktøjerne eller vælge en open source?, og så videre
i dette afsnit vil vi diskutere nogle af de populære datavidenskabelige værktøjer, der bruges i branchen i henhold til forskellige domæner.
datavidenskab er et bredt udtryk i sig selv, og det består af en række forskellige domæner, og hvert domæne har sin egen forretningsmæssige betydning og kompleksitet, som er smukt fanget i nedenstående billede:
datavidenskabsspektret består af forskellige domæner, og disse domæner er repræsenteret af deres relative kompleksitet og den forretningsværdi, de leverer. Lad os tage op hvert enkelt af de punkter, jeg har vist i ovenstående spektrum.
rapportering og Business Intelligence
lad os begynde med den nedre ende af spektret. Det gør det muligt for en organisation at identificere tendenser og mønstre for at træffe afgørende strategiske beslutninger. Analysetyperne spænder fra MIS, dataanalyse, hele vejen over til dashboarding.
de almindeligt anvendte værktøjer i disse domæner er:
- det giver en bred vifte af muligheder, herunder pivottabeller og diagrammer, der giver dig mulighed for at analysere i dobbelt hurtig tid. Dette er kort sagt den svenske hærkniv af datavidenskab/analyseværktøjer
- det giver dig mulighed for at konsolidere, søge, visualisere og analysere alle dine datakilder med blot et par klik. Det er et nemt og intuitivt værktøj at lære, hvilket gør det så populært.
- Tableau – det er blandt de mest populære datavisualiseringsværktøjer på markedet i dag. Det er i stand til at håndtere store mængder data og tilbyder endda fremragende beregningsfunktioner og parametre. Tableau er vellidt på grund af sin pæne dashboard og Historie interface.
- Microstrategy-det er endnu et BI-værktøj, der understøtter dashboards, automatiserede distributioner og andre vigtige dataanalyseopgaver.
- det er et Microsoft-tilbud i Business Intelligence (BI) – rummet. Det blev bygget til at integrere med Microsoft technologies. Så hvis din organisation har en Sharepoint-eller databasebruger, vil du og dit team elske at arbejde på dette værktøj.
- Google Analytics-gad vide hvordan Google Analytics gøre det til denne liste? Nå, digital markedsføring spiller en vigtig rolle i at transformere virksomheder, og der er ikke noget bedre værktøj end dette til at analysere din digitale indsats.
Predictive Analytics og Machine Learning Tools
når man bevæger sig længere op ad stigen, er indsatsen lige blevet høj med hensyn til kompleksitet såvel som forretningsværdien! Dette er det domæne, hvor brød og smør fra de fleste dataforskere kommer fra. Nogle af de typer problemer, du løser, er statistisk modellering, prognoser, neurale netværk og dyb læring.
lad os forstå de almindeligt anvendte værktøjer i dette domæne:
- Python – dette er et af de mest dominerende sprog for datalogi i branchen i dag på grund af dets lethed, fleksibilitet, open source-natur. Det har fået hurtig popularitet og accept I ML-samfundet.
- R – det er et andet meget almindeligt anvendt og respekteret sprog inden for datalogi. R har et blomstrende og utroligt støttende samfund, og det kommer med en overflod af pakker og biblioteker, der understøtter de fleste maskinlæringsopgaver.
- Apache Spark-Spark blev åbnet af UC Berkley i 2010 og er siden blevet et af de største samfund inden for big data. Det er kendt som den svenske hærkniv af big data analytics, da det giver flere fordele såsom fleksibilitet, hastighed, beregningskraft osv.
- Julia – det er et kommende sprog og bliver udråbt som efterfølgeren til Python. Det er stadig i sin spirende fase, og det vil være interessant at se, hvordan det fungerer i fremtiden.
- Jupyter Notebooks – disse notesbøger er meget udbredt til kodning i Python. Mens det overvejende bruges til Python, understøtter det også andre sprog som Julia, R osv.
de værktøjer, vi har diskuteret indtil videre, er ægte open source-værktøjer. Du behøver ikke at betale for dem eller købe ekstra licenser. De har blomstrende og aktive samfund, der vedligeholder og frigiver opdateringer regelmæssigt.
nu vil vi tjekke nogle premium-værktøjer, der er anerkendt som branchens ledere:
- SAS – det er et meget populært og kraftfuldt værktøj. Det er udbredt og almindeligt anvendt i bank-og finanssektoren. Det har en meget høj andel i private organisationer som amerikansk Ekspres, JP Morgan, Mu Sigma, Royal Bank of Scotland osv.
- SPSS-forkortelse for statistisk pakke til samfundsvidenskab, SPSS blev erhvervet af IBM i 2009. Det tilbyder avanceret statistisk analyse, et stort bibliotek med maskinlæringsalgoritmer, tekstanalyse og meget mere.
- Matlab-Matlab er virkelig undervurderet i det organisatoriske landskab, men det er meget udbredt i Akademia og forskningsafdelinger. Det har mistet meget grund i nyere tid til ligesom Python, R og SAS, men universiteter, især i USA, lærer stadig mange bacheloruddannelser ved hjælp af Matlab.
fælles rammer for dyb læring
dyb læring kræver høje beregningsmæssige ressourcer og har brug for særlige rammer for at udnytte disse ressourcer effektivt. På grund af dette vil du sandsynligvis kræve en GPU eller en TPU.
lad os se på nogle af de rammer, der bruges til dyb læring i dette afsnit.
- Tensorstrøm – det er let det mest anvendte værktøj i branchen i dag. Google har måske noget med det at gøre!
- PyTorch – denne superfleksible dybe læringsramme giver større konkurrence til Tensorstrøm. Pytorch er for nylig kommet ind i rampelyset og blev udviklet af forskere på Facebook
- Keras og Caffe er andre rammer, der anvendes i vid udstrækning til opbygning af dybe læringsapplikationer
kunstige intelligensværktøjer
æra med AutoML er her. Hvis du ikke har hørt om disse værktøjer, er det et godt tidspunkt at uddanne dig selv! Dette kan godt være, hvad du som dataforsker vil arbejde med i den nærmeste fremtid.
nogle af de mest populære AutoML-værktøjer er AutoKeras, Google Cloud AutoML, IBM, DataRobot, H20 ‘ s Driverless AI og
disse værktøjer vil være i stand til at automatisere den komplette pipeline!
slutnoter
vi har diskuteret dataindsamlingsmotoren og de nødvendige værktøjer til at udføre rørledningen til hentning, behandling og lagring af data. Datalogi består af et stort spektrum af Domæne, og hvert domæne har sit eget sæt værktøjer og rammer.
at vælge dit datavidenskabsværktøj kommer ofte ned til dit personlige valg, dit domæne eller projekt og selvfølgelig din organisation.