- översikt
- introduktion
- Innehållsförteckning
- Data Science Tools for Big Data
- verktyg för hantering av volym
- verktyg för hantering av Variety
- verktyg för hantering av hastighet
- allmänt använda Datavetenskapsverktyg
- rapportering och Business Intelligence
- Predictive Analytics och Machine Learning Tools
- gemensamma ramar för djupinlärning
- verktyg för artificiell intelligens
- Slutnoteringar
översikt
- det finns en uppsjö av datavetenskapsverktyg där ute – vilken ska du hämta?
- här är en lista över över 20 Data science verktyg catering till olika stadier av data science livscykel
introduktion
vilka är de bästa verktygen för att utföra data science uppgifter? Och vilket verktyg ska du hämta som nykomling inom datavetenskap?
jag är säker på att du har frågat (eller sökt efter) dessa frågor någon gång i din egen datavetenskapsresa. Det här är giltiga frågor! Det finns ingen brist på datavetenskapliga verktyg i branschen. Att välja en för din resa och karriär kan vara ett knepigt beslut.
Låt oss inse det-datavetenskap är ett stort spektrum och var och en av dess domäner kräver hantering av data på ett unikt sätt som leder många analytiker/datavetenskapare till förvirring. Och om du är företagsledare skulle du stöta på viktiga frågor om de verktyg du och ditt företag väljer eftersom det kan ha en långsiktig inverkan.
så igen är frågan vilket datavetenskapsverktyg ska du välja?
i den här artikeln kommer jag att försöka rensa denna förvirring genom att lista ner allmänt använda verktyg som används i datavetenskapsutrymmet uppdelat efter deras användning och starka punkter. Så låt oss komma igång!
och om du är en nykomling till maskininlärning och/eller affärsanalys, eller bara har börjat, uppmuntrar jag dig att utnyttja ett otroligt initiativ från Analytics Vidhya som heter UnLock 2020. Omfattar två omfattande program-Machine Learning Starter Program och Business Analytics Starter Program – detta initiativ är tidsbundna så du skulle behöva registrera så snart du kan för att ge din data science karriär en massiv boost!
Innehållsförteckning
- dykning i Big Data-verktyg för hantering av Big Data
- volym
- variation
- volym
- verktyg för datavetenskap
- rapportering och Business Intelligence
- prediktiv modellering och maskininlärning
- artificiell intelligens
Data Science Tools for Big Data
för att verkligen förstå innebörden bakom Big Data är det viktigt att vi förstår de grundläggande principerna som definierar data som big data. Dessa är kända som 3 V: s big data:
- volym
- variation
- hastighet
verktyg för hantering av volym
som namnet antyder hänvisar volymen till skalan och mängden data. För att förstå omfattningen av de data jag pratar om måste du veta att över 90% av uppgifterna i världen skapades under de senaste två åren!
under decenniet, med ökningen av mängden data, har tekniken också blivit bättre. Minskningen av beräknings-och lagringskostnader har gjort det mycket lättare att samla in och lagra enorma mängder data.
volymen av data definierar om den kvalificerar sig som big data eller inte.
när vi har data som sträcker sig från 1 GB till cirka 10 GB, tenderar de traditionella datavetenskapsverktygen att fungera bra i dessa fall. Så vad är dessa verktyg?
- Microsoft Excel – Excel råder som det enklaste och mest populära verktyget för hantering av små mängder data. Det maximala antalet rader som den stöder är bara en nyans över 1 miljon och ett ark kan bara hantera upp till 16 380 kolumner åt gången. Dessa siffror räcker helt enkelt inte när mängden data är stor.
- Microsoft Access – det är ett populärt verktyg av Microsoft som används för datalagring. Mindre databaser upp till 2 GB kan hanteras smidigt med det här verktyget men utöver det börjar det spricka upp.
- SQL – SQL är ett av de mest populära datahanteringssystemen som har funnits sedan 1970-talet. det var den primära databaslösningen i några decennier. SQL är fortfarande populärt men det finns en nackdel – det blir svårt att skala det när databasen fortsätter att växa.
vi har täckt några av de grundläggande verktygen hittills. Det är dags att släppa loss de stora kanonerna nu! Om dina data är större än 10 GB hela vägen upp till lagring större än 1 TB+, måste du implementera de verktyg jag har nämnt nedan:
- Hadoop-det är en öppen källkod distribuerad ram som hanterar databehandling och lagring för big data. Du kommer sannolikt att stöta på det här verktyget när du bygger ett maskininlärningsprojekt från början.
- Hive – det är ett datalager byggt ovanpå Hadoop. Hive ger en SQL – liknande gränssnitt för att fråga de data som lagras i olika databaser och filsystem som integreras med Hadoop.
verktyg för hantering av Variety
Variety hänvisar till de olika typerna av data som finns där ute. Datatypen kan vara en av dessa-strukturerad och ostrukturerad data.
Låt oss gå igenom exemplen som faller under paraplyet för dessa olika datatyper:
ta en stund att observera dessa exempel och korrelera dem med dina verkliga data.
som du kanske har observerat när det gäller strukturerad data finns det en viss ordning och struktur för dessa datatyper, medan exemplen inte följer någon trend eller mönster när det gäller ostrukturerad data. Kundernas feedback kan till exempel variera i längd, känslor och andra faktorer. Dessutom är dessa typer av data enorma och olika.
det kan vara mycket utmanande att ta itu med denna typ av data, så vilka är de olika datavetenskapsverktygen som finns tillgängliga på marknaden för hantering och hantering av dessa olika datatyper?
de två vanligaste databaserna är SQL och NoSQL. SQL har varit marknadsdominerande aktörer i ett antal år innan NoSQL uppstod.
några exempel på SQL är Oracle, MySQL, SQLite, medan NoSQL består av populära databaser som MongoDB, Cassandra, etc. Dessa NoSQL-databaser ser enorma adoptionsnummer på grund av deras förmåga att skala och hantera dynamiska data.
verktyg för hantering av hastighet
den tredje och sista V representerar hastigheten. Detta är den hastighet med vilken data fångas. Detta inkluderar både realtidsdata och icke-realtidsdata. Vi pratar främst om realtidsdata här.
vi har många exempel runt oss som fångar och bearbetar realtidsdata. Den mest komplexa är sensordata som samlas in av självkörande bilar. Tänk dig att vara i en självkörande bil-bilen måste dynamiskt samla in och bearbeta data om sin körfält, avstånd från andra fordon etc. allt på samma gång!
några andra exempel på realtidsdata som samlas in är:
- CCTV
- aktiehandel
- bedrägeri upptäckt för kreditkortstransaktion
- nätverksdata – sociala medier (Facebook, Twitter, etc.)
visste du det?
mer än 1 TB data genereras under varje handelssession på New York stock exchange!
Låt oss nu gå vidare till några av de vanliga datavetenskapsverktygen för att hantera realtidsdata:
- Apache Kafka-Kafka är en öppen källkod verktyg av Apache. Den används för att bygga realtidsdataledningar. Några av fördelarna med Kafka är-det är feltolerant, riktigt snabbt och används i produktion av ett stort antal organisationer.
- Apache Storm – detta verktyg av Apache kan användas med nästan alla programmeringsspråk. Det kan bearbeta upp till 1 miljon tupler per sekund och det är mycket skalbart. Det är ett bra verktyg att överväga för hög datahastighet.
- Amazon Kinesis – detta verktyg av Amazon liknar Kafka men det kommer med en prenumerationskostnad. Det erbjuds dock som en out-of-the-box-lösning som gör det till ett mycket kraftfullt alternativ för organisationer.
- Apache Flink-Flink är ännu ett verktyg av Apache som vi kan använda för realtidsdata. Några av fördelarna med Flink är hög prestanda, feltolerans och effektiv minneshantering.
nu när vi har ett fast grepp om de olika verktygen som vanligtvis används för att arbeta med Big Data, låt oss flytta till segmentet där du kan dra nytta av data genom att tillämpa avancerade maskininlärningstekniker och algoritmer.
allmänt använda Datavetenskapsverktyg
om du skapar ett helt nytt datavetenskapsprojekt har du massor av frågor i åtanke. Detta gäller oavsett din nivå-oavsett om du är en datavetare, en dataanalytiker, en projektledare eller en senior Data science executive.
några av de frågor du kommer att möta är:
- vilka verktyg ska du använda i olika domäner av datavetenskap?
- ska jag köpa licenser för verktygen eller välja en öppen källkod?, och så vidare
i det här avsnittet kommer vi att diskutera några av de populära datavetenskapliga verktygen som används i branschen enligt olika domäner.
datavetenskap är en bred term i sig och består av en mängd olika domäner och varje domän har sin egen affärsbetydelse och komplexitet som är vackert fångad i bilden nedan:
datavetenskapsspektrumet består av olika domäner och dessa domäner representeras av deras relativa komplexitet och det affärsvärde som de ger. Låt oss ta upp var och en av de punkter som jag har visat i ovanstående spektrum.
rapportering och Business Intelligence
låt oss börja med den nedre änden av spektrumet. Det gör det möjligt för en organisation att identifiera trender och mönster för att fatta viktiga strategiska beslut. Typerna av analys sträcker sig från MIS, dataanalys, hela vägen till dashboarding.
de vanliga verktygen i dessa domäner är:
- Excel – Det ger ett varierat utbud av alternativ, inklusive pivottabeller och diagram som låter dig göra analys i dubbel snabb tid. Detta är kort sagt Swiss Army Knife of data science / analytics tools
- QlikView – det låter dig konsolidera, söka, visualisera och analysera alla dina datakällor med bara några klick. Det är ett enkelt och intuitivt verktyg att lära sig vilket gör det så populärt.
- Tableau-det är bland de mest populära datavisualiseringsverktygen på marknaden idag. Den kan hantera stora mängder data och erbjuder till och med Excel-liknande beräkningsfunktioner och parametrar. Tableau är omtyckt på grund av sin snygga instrumentpanel och historia gränssnitt.
- Microstrategy-det är ännu ett BI-verktyg som stöder instrumentpaneler, automatiserade distributioner och andra viktiga dataanalysuppgifter.
- PowerBI-det är ett Microsoft-erbjudande inom Business Intelligence (BI) – rymden. PowerBI byggdes för att integreras med Microsoft-teknik. Så om din organisation har en Sharepoint-eller SQL-databasanvändare kommer du och ditt team att älska att arbeta med det här verktyget.
- Google Analytics-undrar hur gjorde Google Analytics göra det till den här listan? Tja, digital marknadsföring spelar en viktig roll för att omvandla företag och det finns inget bättre verktyg än detta för att analysera dina digitala insatser.
Predictive Analytics och Machine Learning Tools
flytta längre upp på stegen, insatserna blev bara höga när det gäller komplexitet och affärsvärde! Detta är domänen där bröd och smör från de flesta Dataforskare kommer ifrån. Några av de typer av problem du löser är statistisk modellering, prognoser, neurala nätverk och djupt lärande.
Låt oss förstå de vanliga verktygen i den här domänen:
- Python – Detta är ett av de mest dominerande språken för datavetenskap i branschen idag på grund av dess lätthet, flexibilitet, öppen källkod. Det har fått snabb popularitet och acceptans I ML-samhället.
- R-det är ett annat mycket vanligt och respekterat språk inom datavetenskap. R har ett blomstrande och otroligt stödjande samhälle och det kommer med en mängd paket och bibliotek som stöder de flesta maskininlärningsuppgifter.
- Apache Spark-Spark var öppen källkod av UC Berkley i 2010 och har sedan dess blivit en av de största samhällena i big data. Det är känt som swiss army knife of big data analytics eftersom det erbjuder flera fördelar som flexibilitet, hastighet, beräkningskraft etc.
- Julia-det är ett kommande språk och tippas som efterträdare till Python. Det är fortfarande i sitt framväxande skede och det kommer att bli intressant att se hur det presterar i framtiden.
- Jupyter Notebooks – dessa bärbara datorer används ofta för kodning i Python. Även om det främst används för Python, stöder det också andra språk som Julia, R, etc.
de verktyg vi har diskuterat hittills är sanna open source-verktyg. Du behöver inte betala för dem eller köpa några extra licenser. De har blomstrande och aktiva samhällen som underhåller och släpper uppdateringar regelbundet.
nu kommer vi att kolla in några premiumverktyg som är erkända som branschledare:
- SAS – det är ett mycket populärt och kraftfullt verktyg. Det är vanligt och vanligt förekommande inom bank-och finanssektorn. Den har en mycket hög andel i privata organisationer som American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland, etc.
- SPSS-förkortning för Statistical Package for Social Sciences, SPSS förvärvades av IBM 2009. Det erbjuder avancerad statistisk analys, ett stort bibliotek med maskininlärningsalgoritmer, textanalys och mycket mer.
- Matlab-Matlab är verkligen underskattat i organisationslandskapet men det används ofta i akademin och forskningsavdelningarna. Det har förlorat en hel del mark på senare tid till lik av Python, R, och SAS men universitet, särskilt i USA, fortfarande undervisar en hel del grundkurser med hjälp av Matlab.
gemensamma ramar för djupinlärning
djupinlärning kräver höga beräkningsresurser och behöver speciella ramar för att utnyttja dessa resurser effektivt. På grund av detta skulle du troligen kräva en GPU eller en TPU.
Låt oss titta på några av de ramar som används för djupt lärande i det här avsnittet.
- TensorFlow-det är lätt det mest använda verktyget i branschen idag. Google kan ha något att göra med det!
- PyTorch – denna super flexibla djupinlärningsram ger stor konkurrens till TensorFlow. PyTorch har nyligen kommit in i rampljuset och utvecklades av forskare på Facebook
- Keras och Caffe är andra ramar som används i stor utsträckning för att bygga djupa inlärningsapplikationer
verktyg för artificiell intelligens
automl-eran är här. Om du inte har hört talas om dessa verktyg är det en bra tid att utbilda dig själv! Detta kan mycket väl vara vad du som datavetare kommer att arbeta med inom en snar framtid.
några av de mest populära AutoML-verktygen är AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, H20: s förarlösa AI och Amazons Lex. AutoML förväntas bli nästa stora sak i AI / ML-samhället. Det syftar till att eliminera eller minska den tekniska sidan av saker så att företagsledare kan använda den för att fatta strategiska beslut.
dessa verktyg kommer att kunna automatisera hela rörledningen!
Slutnoteringar
vi har diskuterat datainsamlingsmotorn och de verktyg som krävs för att utföra rörledningen för hämtning, bearbetning och lagring av data. Datavetenskap består av ett stort spektrum av domäner och varje domän har sin egen uppsättning verktyg och ramar.
att välja ditt datavetenskapsverktyg kommer ofta ner till ditt personliga val, din domän eller ditt projekt, och naturligtvis din organisation.