22 op grote schaal gebruikte Data Science en Machine Learning Tools in 2020

overzicht

  • er zijn een overvloed aan data science tools beschikbaar-welke moet je oppakken?
  • hier is een lijst van meer dan 20 data science-tools voor verschillende stadia van de data science-levenscyclus

Inleiding

Wat zijn de beste tools voor het uitvoeren van data science-taken? En welke tool moet je oppakken als een nieuwkomer in data science?

ik weet zeker dat u deze vragen hebt gesteld (of gezocht) op een bepaald moment in uw eigen data science-reis. Dit zijn geldige vragen! Er is geen tekort aan data science tools in de industrie. Het kiezen van een voor uw reis en carrière kan een lastige beslissing.

data_science_tools

laten we eerlijk zijn – data science is een enorm spectrum en elk van zijn domeinen vereist dat gegevens op een unieke manier worden behandeld, waardoor veel analisten/data-wetenschappers in verwarring raken. En als je een business leader bent, zou je cruciale vragen tegenkomen over de tools die u en uw bedrijf kiezen, omdat het een impact op de lange termijn kan hebben.

dus nogmaals, de vraag is welke data science tool moet u kiezen?

In dit artikel zal ik proberen deze verwarring op te lossen door veelgebruikte tools op te sommen die in de data science-ruimte worden gebruikt, uitgesplitst naar hun gebruik en sterke punten. Dus laten we beginnen!

en als je een nieuwkomer bent in machine learning en / of business analytics, of net aan de slag bent, moedig ik je aan om gebruik te maken van een ongelooflijk initiatief van Analytics Vidhya genaamd UnLock 2020. Met betrekking tot twee uitgebreide programma ‘ s-Machine Learning Starter Program en de Business Analytics Starter Program-dit initiatief is tijdgebonden, dus je zou moeten inschrijven zo snel als je kunt om uw data science carrià re geven een enorme boost!

Inhoudsopgave

  • Duiken in Big Data – Tools voor de verwerking van Grote Data
    • Volume
    • Verscheidenheid
    • Volume
  • Tools voor Data Science
    • Rapportage-en Business Intelligence –
    • Predictive Modeling en Machine Learning
    • Kunstmatige Intelligentie

Data Science Tools voor Big Data

om echt Te begrijpen de betekenis achter Big Data, is het belangrijk dat we begrijpen de fundamentele principes die bepalen dat de gegevens als big data. Deze staan bekend als de 3 V ‘ s van big data:

  • Volume
  • variëteit
  • snelheid

Gereedschap Voor het hanteren Volume

zoals de naam al doet vermoeden, verwijst volume naar de schaal en de hoeveelheid gegevens. Om de schaal van de data te begrijpen waar ik het over heb, moet je weten dat meer dan 90% van de data in de wereld is gemaakt in slechts de laatste twee jaar!In de loop van het decennium, met de toename van de hoeveelheid gegevens, is de technologie ook beter geworden. De daling van de reken-en opslagkosten heeft het verzamelen en opslaan van enorme hoeveelheden gegevens veel gemakkelijker gemaakt.

het volume van de gegevens bepaalt of het al dan niet als big data wordt aangemerkt.

wanneer we gegevens hebben variërend van 1 gb tot ongeveer 10 GB, werken de traditionele data science tools in deze gevallen goed. Wat zijn dit voor gereedschap?

  • Microsoft Excel-Excel is de makkelijkste en meest populaire tool voor het verwerken van kleine hoeveelheden gegevens. Het maximale aantal rijen dat het ondersteunt is slechts een tint van meer dan 1 miljoen en één vel kan slechts tot 16.380 kolommen tegelijk verwerken. Deze getallen zijn simpelweg niet genoeg als de hoeveelheid gegevens groot is.

  • Microsoft Access-Het is een populaire tool van Microsoft die wordt gebruikt voor gegevensopslag. Kleinere databases tot 2Gb kan soepel worden behandeld met deze tool, maar verder, het begint te kraken.

  • SQL-SQL is een van de meest populaire data management systemen die bestaat sinds de jaren 1970. het was de primaire database-oplossing voor een paar decennia. SQL blijft nog steeds populair, maar er is een nadeel-het wordt moeilijk om het te schalen als de database blijft groeien.

we hebben een aantal van de basisinstrumenten tot nu toe behandeld. Het is tijd om de grote kanonnen nu los te laten! Als uw gegevens groter zijn dan 10Gb helemaal tot opslag groter dan 1Tb+, dan moet je de tools die ik hieronder heb vermeld implementeren:

  • Hadoop-het is een open-source gedistribueerd kader dat gegevensverwerking en opslag voor big data beheert. U bent waarschijnlijk te komen over deze tool wanneer u een machine learning project vanaf nul te bouwen.

  • Hive-Het is een data warehouse gebouwd op de top van Hadoop. Hive biedt een SQL-achtige interface om de gegevens op te vragen die zijn opgeslagen in verschillende databases en bestandssystemen die integreren met Hadoop.

Tools for Handling Variety

Variety verwijst naar de verschillende soorten gegevens die beschikbaar zijn. Het gegevenstype kan een van deze zijn-gestructureerde en ongestructureerde gegevens.

laten we de voorbeelden doornemen die onder de paraplu van deze verschillende gegevenstypen vallen:

neem even de tijd om deze voorbeelden te observeren en ze te correleren met uw gegevens uit de echte wereld.

zoals u wellicht hebt opgemerkt in het geval van gestructureerde gegevens, is er een bepaalde volgorde en structuur van deze gegevenstypen, terwijl in het geval van ongestructureerde gegevens de voorbeelden geen trend of patroon volgen. Klantfeedback kan bijvoorbeeld variëren in lengte, gevoelens en andere factoren. Bovendien zijn deze soorten gegevens enorm en divers.

het kan een hele uitdaging zijn om dit soort gegevens aan te pakken, dus wat zijn de verschillende data science tools die op de markt beschikbaar zijn voor het beheren en verwerken van deze verschillende gegevenstypen?

de twee meest voorkomende databases zijn SQL en NoSQL. SQL is al een aantal jaren de marktdominante spelers voordat NoSQL ontstond.

enkele voorbeelden voor SQL zijn Oracle, MySQL, SQLite, terwijl NoSQL bestaat uit populaire databases zoals MongoDB, Cassandra, enz. Deze NoSQL databases zien enorme adoptiecijfers vanwege hun vermogen om dynamische gegevens te schalen en te verwerken.

gereedschappen voor het hanteren van snelheid

de derde en laatste V staat voor de snelheid. Dit is de snelheid waarmee de gegevens worden vastgelegd. Dit omvat zowel real-time als niet-real-time gegevens. We zullen het hier vooral hebben over de real-time data.

we hebben veel voorbeelden om ons heen die real-time gegevens vastleggen en verwerken. De meest complexe is de sensorgegevens verzameld door zelfrijdende auto ‘ s. Stel je voor dat je in een zelfrijdende auto zit – de auto moet dynamisch gegevens verzamelen en verwerken met betrekking tot zijn rijstrook, afstand tot andere voertuigen, enz. allemaal tegelijk!

enkele andere voorbeelden van real-time gegevens die worden verzameld zijn::

  • CCTV
  • aandelenhandel
  • fraudedetectie voor creditcardtransactie
  • netwerkgegevens – sociale media (Facebook, Twitter, enz.)

wist je het?

meer dan 1 TB aan gegevens wordt gegenereerd tijdens elke handelssessie op de New York stock exchange!

nu gaan we naar enkele van de veelgebruikte data science tools om real-time data te verwerken:

  • Apache Kafka-Kafka is een open-source tool van Apache. Het wordt gebruikt voor het bouwen van real-time data pijpleidingen. Enkele van de voordelen van Kafka zijn – het is fout-tolerant, echt snel, en gebruikt in de productie door een groot aantal organisaties.

  • Apache Storm – deze tool van Apache kan worden gebruikt met bijna alle programmeertalen. Het kan verwerken tot 1 miljoen tuples per seconde en het is zeer schaalbaar. Het is een goed hulpmiddel om te overwegen voor hoge gegevenssnelheid.
  • Amazon Kinesis – deze tool van Amazon is vergelijkbaar met Kafka, maar het komt met een abonnement kosten. Echter, het wordt aangeboden als een out-of-the-box oplossing die het een zeer krachtige optie voor organisaties maakt.

  • Apache Flink-Flink is nog een andere tool van Apache die we kunnen gebruiken voor real-time data. Enkele van de voordelen van Flink zijn hoge prestaties, fouttolerantie en efficiënt geheugenbeheer.

nu we een solide greep op de verschillende tools die vaak worden gebruikt voor het werken met Big Data, laten we naar het segment waar u kunt profiteren van de gegevens door het toepassen van geavanceerde machine learning technieken en algoritmen.

veelgebruikte Data Science Tools

als u een gloednieuw data science project opzet, heeft u een heleboel vragen in gedachten. Dit geldt ongeacht uw niveau-of u nu een data scientist, een data analist, een project manager, of een senior data science executive.

enkele vragen die u zult tegenkomen zijn:

  • welke tools moet je gebruiken in verschillende domeinen van data science?
  • moet ik licenties kopen voor de tools of kiezen voor een open-source?

in dit hoofdstuk zullen we enkele van de populaire data science tools bespreken die in de industrie worden gebruikt, afhankelijk van de verschillende domeinen.

Data Science is een brede term op zich en bestaat uit een verscheidenheid van verschillende domeinen en elk domein heeft zijn eigen zakelijke belang en complexiteit die prachtig wordt vastgelegd in de onderstaande afbeelding:

het data science spectrum bestaat uit verschillende domeinen en deze domeinen worden vertegenwoordigd door hun relatieve complexiteit en de bedrijfswaarde die ze bieden. Laten we nemen elk van de punten die ik heb getoond in het bovenstaande spectrum.

rapportage en Business Intelligence

laten we beginnen met de onderkant van het spectrum. Het stelt een organisatie in staat om trends en patronen te identificeren om zo cruciale strategische beslissingen te nemen. De soorten analyse variëren van MIS, data-analyse, helemaal tot dashboarding.

de veelgebruikte tools in deze domeinen zijn::

  • Excel-het geeft een breed scala aan opties, waaronder Draaitabellen en grafieken waarmee u analyse in dubbel-snelle tijd kunt doen. Dit is, in het kort, het Zwitserse zakmes van data science/analytics tools
  • QlikView – Hiermee kunt u al uw gegevensbronnen consolideren, zoeken, visualiseren en analyseren met slechts een paar klikken. Het is een eenvoudige en intuïtieve tool om te leren die het zo populair maakt.

  • Tableau-het is een van de meest populaire data visualisatie tools in de markt van vandaag. Het is in staat om grote hoeveelheden gegevens te verwerken en biedt zelfs Excel-achtige rekenfuncties en parameters. Tableau is geliefd vanwege zijn nette dashboard en verhaal interface.

  • Microstrategy-het is nog een andere BI tool die dashboards ondersteunt, geautomatiseerde distributies, en andere belangrijke data analytics taken.

  • PowerBI-It is een Microsoft-aanbod in de Business Intelligence (BI) ruimte. PowerBI is gebouwd om te integreren met Microsoft-technologieën. Dus als uw organisatie een Sharepoint-of SQL-database-gebruiker heeft, zullen u en uw team graag aan deze tool werken.

  • Google Analytics-vraagt u zich af hoe Google Analytics het maken om deze lijst? Nou, digitale marketing speelt een belangrijke rol in het transformeren van bedrijven en er is geen betere tool dan dit om uw digitale inspanningen te analyseren.

Predictive Analytics and Machine Learning Tools

steeds hoger op de ladder, de inzet net hoog in termen van complexiteit en de zakelijke waarde! Dit is het domein waar het brood en boter van de meeste datawetenschappers vandaan komen. Sommige van de soorten problemen die u zult oplossen zijn statistische modellering, voorspelling, neurale netwerken, en deep learning.

laat ons de veelgebruikte tools in dit domein begrijpen:Python-Dit is een van de meest dominante talen voor data science in de industrie van vandaag vanwege het gemak, de flexibiliteit en het open-source karakter. Het heeft opgedaan snelle populariteit en acceptatie in de ML gemeenschap.

  • R-Het is een andere zeer algemeen gebruikte en gerespecteerde taal in data science. R heeft een bloeiende en ongelooflijk ondersteunende gemeenschap en het wordt geleverd met een overvloed aan pakketten en bibliotheken die de meeste machine learning taken ondersteunen.

  • Apache Spark-Spark werd open-Source door UC Berkley in 2010 en is sindsdien uitgegroeid tot een van de grootste gemeenschappen in big data. Het staat bekend als het Zwitserse zakmes van big data analytics Omdat het meerdere voordelen biedt, zoals flexibiliteit, snelheid, rekenkracht, enz.

  • Julia-het is een opkomende taal en wordt aangeprezen als de opvolger van Python. Het is nog in zijn ontluikende fase en het zal interessant zijn om te zien hoe het presteert in de toekomst.

  • Jupyter Notebooks – deze notebooks worden veel gebruikt voor het coderen in Python. Hoewel het voornamelijk wordt gebruikt voor Python, ondersteunt het ook andere talen zoals Julia, R, enz.

de tools die we tot nu toe hebben besproken zijn echte open-source tools. U hoeft niet te betalen voor hen of kopen extra licenties. Ze hebben bloeiende en actieve gemeenschappen die regelmatig updates onderhouden en vrijgeven.

nu zullen we enkele premium tools bekijken die worden erkend als marktleiders:

  • SAS-Het is een zeer populaire en krachtige tool. Het wordt voornamelijk gebruikt in de bank-en financiële sector. Het heeft een zeer hoog aandeel in particuliere organisaties zoals American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland, enz.

  • SPSS-kort voor Statistical Package for Social Sciences, SPSS werd overgenomen door IBM in 2009. Het biedt geavanceerde statistische analyse, een uitgebreide bibliotheek van machine learning algoritmen, tekstanalyse, en nog veel meer.

  • Matlab-Matlab wordt echt onderschat in het organisatorische landschap, maar het wordt veel gebruikt in de academische wereld en onderzoek divisies. Het heeft veel grond verloren in de afgelopen tijd aan de wil van Python, R, en SAS, maar universiteiten, vooral in de VS, nog steeds te leren een heleboel undergraduate cursussen met behulp van Matlab.

gemeenschappelijke kaders voor Deep Learning

Deep Learning vereist high computational resources en heeft speciale kaders nodig om deze resources effectief te gebruiken. Hierdoor zou je waarschijnlijk een GPU of een TPU nodig hebben.

laten we eens kijken naar enkele van de frameworks die gebruikt worden voor Deep Learning in deze sectie.

  • TensorFlow-het is gemakkelijk de meest gebruikte tool in de industrie van vandaag. Google heeft daar misschien iets mee te maken!
  • PyTorch-dit superflexibele deep learning framework geeft grote concurrentie aan TensorFlow. PyTorch is onlangs in de schijnwerpers gekomen en werd ontwikkeld door onderzoekers van Facebook
  • Keras en Caffe zijn andere frameworks die op grote schaal worden gebruikt voor het bouwen van deep learning applicaties

Artificial Intelligence Tools

het tijdperk van AutoML is hier. Als u nog niet gehoord van deze tools, dan is het een goed moment om jezelf te onderwijzen! Dit zou wel eens kunnen zijn waar jij als Data scientist in de nabije toekomst mee gaat werken.

enkele van de meest populaire automl tools zijn AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, H20 ’s Driverless AI, en Amazon’ s Lex. AutoML is naar verwachting de volgende grote ding in de AI/ML gemeenschap. Het is gericht op het elimineren of verminderen van de technische kant van de dingen, zodat zakelijke leiders kunnen gebruiken om strategische beslissingen te nemen.

deze tools kunnen de volledige pijplijn automatiseren!

End Notes

we hebben de data collection engine besproken en de tools die nodig zijn om de pijplijn te voltooien voor het ophalen, verwerken en opslaan van gegevens. Data Science bestaat uit een groot spectrum van domein en elk domein heeft zijn eigen set van tools en frameworks.

het kiezen van uw data science tool komt vaak neer op uw persoonlijke keuze, uw domein of project, en natuurlijk uw organisatie.



+