22 Široce Používán vědecká Data a Strojového Učení Nástroje, v roce 2020

Přehled

  • Existuje nepřeberné množství vědeckých dat nástrojů tam – kdo by vás vyzvednout?
  • Tady je seznam více než 20 vědeckých dat nástrojů catering na různých fázích vědeckých dat životního cyklu

Úvod

Jaké jsou nejlepší nástroje pro provádění vědeckých dat úkoly? A který nástroj byste měli vyzvednout jako nováček v datové vědě?

jsem si jistý, že jste tyto otázky položili (nebo hledali) v určitém okamžiku své vlastní cesty v oblasti vědy o datech. To jsou platné otázky! V průmyslu není nedostatek nástrojů pro vědu o datech. Výběr jednoho pro vaši cestu a kariéru může být složité rozhodnutí.

data_science_tools

přiznejme si to – data science je široké spektrum a každý z jeho domén vyžaduje manipulaci dat v unikátním způsobem, který vede mnoho analytiků/datové vědce do zmatku. A pokud jste obchodní lídr, narazíte na zásadní otázky týkající se nástrojů, které si vy a vaše společnost vyberete, protože by to mohlo mít dlouhodobý dopad.

takže opět je otázkou, který nástroj pro vědu o datech byste si měli vybrat?

V tomto článku jsem se budou snažit jasně tento zmatek tím, že výpis dolů široce používané nástroje používané v data science prostor člení podle jejich použití a silné stránky. Tak pojďme začít!

A pokud jste nováček na strojové učení a/nebo business analytics, nebo právě začínáte, doporučuji vám využít neuvěřitelnou iniciativu Analytics Vidhya nazývá Odemknout 2020. Zahrnující dva komplexní programy – Strojové Učení Startovací Program a Business Analytics Starter Program – tato iniciativa je časově omezené, takže budete muset zapsat co nejdříve, jak můžete, aby vaše data science kariéru masivní podporu!

Obsah

  • Potápění do Velkých Dat – Nástroje pro zpracování Velkých Dat
    • Objem
    • Různé
    • Objem
  • Nástroje pro Data Science
    • Reporting a Business Intelligence
    • Prediktivní Modelování a Strojového Učení
    • Umělé Inteligence

vědeckých Dat Nástrojů pro Big Data

opravdu pochopit význam za Big Data, je důležité, že jsme pochopit základní principy, které definují data jako big data. Tito jsou známí jako 3 V velkých dat:

  • Objem
  • Různé
  • Rychlost

Nástroje pro Manipulaci Objem

Jak název napovídá, objem odkazuje k rozsahu a množství dat. K pochopení rozsahu údajů o čem mluvím, musíte vědět, že více než 90% dat na světě bylo vytvořeno v posledních dvou letech!

v průběhu desetiletí se s nárůstem množství dat technologie také zlepšila. Snížení výpočetních a úložných nákladů značně usnadnilo sběr a ukládání obrovského množství dat.

objem dat definuje, zda se kvalifikuje jako velká data nebo ne.

když máme data v rozmezí od 1 GB do přibližně 10 GB, tradiční nástroje pro vědu o datech mají v těchto případech tendenci dobře fungovat. Takže jaké jsou tyto nástroje?

  • Microsoft Excel-Excel převládá jako nejjednodušší a nejoblíbenější nástroj pro manipulaci s malým množstvím dat. Maximální množství řádků, které podporuje, je něco přes 1 milión a jeden list může zvládnout pouze do 16,380 sloupců najednou. Tato čísla prostě nestačí, když je množství dat velké.

  • Microsoft Access-je to populární nástroj společnosti Microsoft, který se používá pro ukládání dat. S tímto nástrojem lze hladce manipulovat s menšími databázemi až do 2 GB, ale za to se začne praskat.

  • SQL – SQL je jedním z nejpopulárnějších systémů pro správu údajů, který byl kolem roku 1970. To byl primární databáze řešení pro několik desetiletí. SQL stále zůstává populární, ale je tu nevýhoda – je obtížné ji škálovat, protože databáze stále roste.

dosud jsme pokryli některé základní nástroje. Je čas, aby se uvolnil velké zbraně teď! Pokud vaše data je větší než 10 gb, celou cestu až do skladu větší než 1Tb+, pak budete muset implementovat nástroje, které jsem zmínil níže:

  • Hadoop je open-source distribuovaný rámec, který řídí zpracování dat a úložiště pro big data. Pravděpodobně narazíte na tento nástroj, kdykoli vytvoříte projekt strojového učení od nuly.

  • úl – jedná se o datový sklad postavený na vrcholu Hadoop. Hive poskytuje SQL podobné rozhraní pro dotaz na data uložená v různých databázích a souborových systémech, které se integrují s Hadoop.

Nástroje pro Manipulaci s Různými

Variety se odkazuje na různé typy dat, které jsou tam. Jedním z nich může být datový typ-strukturovaná a nestrukturovaná data.

Nechte nás projít příklady spadající pod záštitou tyto různé typy dat:

chvilku pozorovat tyto příklady a korelovat je s vaší real-world data.

Jak jste si možná pozorovat v případě Strukturovaných dat, tam je určitý řád a strukturu, aby tyto datové typy vzhledem k tomu, že v případě nestrukturovaných dat, příklady nesledují žádný trend nebo vzor. Například zpětná vazba od zákazníků se může lišit v délce, sentimentu a dalších faktorech. Navíc jsou tyto typy dat obrovské a rozmanité.

řešení tohoto typu dat může být velmi náročné, takže jaké jsou různé nástroje pro vědu o datech dostupné na trhu pro správu a manipulaci s těmito různými typy dat?

dvě nejběžnější databáze jsou SQL a NoSQL. SQL je již několik let dominantním hráčem na trhu, než se objevil NoSQL.

některé příklady pro SQL jsou Oracle, MySQL, SQLite, zatímco NoSQL se skládá z populárních databází jako MongoDB, Cassandra atd. Tyto databáze NoSQL vidí obrovské počty adopcí kvůli jejich schopnosti škálovat a zpracovávat dynamická data.

nástroje pro manipulaci s rychlostí

třetí a poslední V představuje rychlost. Toto je rychlost, při které jsou data zachycena. To zahrnuje data v reálném čase i v reálném čase. Zde se budeme bavit hlavně o datech v reálném čase.

máme kolem sebe spoustu příkladů, které zachycují a zpracovávají data v reálném čase. Nejsložitější jsou data senzorů shromážděná auty s vlastním pohonem. Představte si, že jste v autě s vlastním pohonem-auto musí dynamicky shromažďovat a zpracovávat data týkající se jeho jízdního pruhu, vzdálenosti od ostatních vozidel atd. všechny ve stejnou dobu!

některé další příklady shromažďovaných dat v reálném čase jsou:

  • CCTV
  • obchodování Akciové
  • detekce Podvodů za transakci kreditní kartou
  • data Sítě – sociální média (Facebook, Twitter, atd.)

Věděl jsi to?

během každé obchodní seance na Newyorské burze je generováno více než 1 TB dat!

pojďme na některé z běžně používaných vědeckých dat nástrojů pro zpracování real-time data:

  • Apache Kafka – Kafka je open-source nástroj pro Apache. Používá se pro budování datových potrubí v reálném čase. Některé z výhod Kafky jsou-je odolný proti chybám, opravdu rychlý a používá ho ve výrobě velké množství organizací.

  • Apache Storm – tento nástroj Apache lze použít s téměř všemi programovacími jazyky. Dokáže zpracovat až 1 milion n-tic za sekundu a je vysoce škálovatelný. Je to dobrý nástroj, aby zvážila vysokou rychlost dat.
  • Amazon Kinesis – tento nástroj Amazon je podobný Kafka, ale přichází s náklady na předplatné. Je však nabízen jako řešení out-of-the-box, což z něj činí velmi silnou volbu pro organizace.

  • Apache Flink-Flink je dalším nástrojem Apache, který můžeme použít pro data v reálném čase. Některé z výhod Flink jsou vysoký výkon, odolnost proti chybám a efektivní správa paměti.

Nyní, když máme solidní přehled o různých nástrojích, které se běžně používají pro práci s velkými daty, přejdeme do segmentu, kde můžete data využít pomocí pokročilých technik a algoritmů strojového učení.

široce používané nástroje pro vědu o datech

pokud nastavujete zcela nový projekt pro vědu o datech, budete mít na mysli spoustu otázek. To platí bez ohledu na vaši úroveň-ať už jste datový vědec – datový analytik, projektový manažer nebo vedoucí pracovník v oblasti datové vědy.

některé z otázek, kterým budete čelit, jsou:

  • jaké nástroje byste měli používat v různých oblastech datové vědy?
  • Mám si koupit licence pro nástroje nebo zvolit open-source?, a tak dále

v této části budeme diskutovat o některých populárních nástrojích pro vědu o datech používaných v průmyslu podle různých domén.

Data Science je široký pojem samo o sobě, a to se skládá z různých domén a každá doména má svou vlastní obchodní význam a složitost, která je krásně zachyceny v obrázku níže:

spektrum datové vědy se skládá z různých domén a tyto domény jsou reprezentovány jejich relativní složitostí a obchodní hodnotou, kterou poskytují. Vezměme si každý z bodů, které jsem ukázal ve výše uvedeném spektru.

Reporting and Business Intelligence

začněme spodním koncem spektra. Umožňuje organizaci identifikovat trendy a vzorce tak, aby mohla činit zásadní strategická rozhodnutí. Typy analýz sahají od MIS, analýzy dat, až po dashboarding.

běžně používané nástroje v těchto oblastech jsou:

  • Excel – To dává pestrou škálu možností včetně Kontingenčních tabulek a grafů, které umožňují dělat analýzy v double-quick time. To je, stručně řečeno, Švýcarský Armádní Nůž z data science/analytické nástroje
  • QlikView – To vám umožní konsolidovat, vyhledávat, vizualizovat a analyzovat všechny vaše datové zdroje s jen pár kliknutí. Je to snadný a intuitivní nástroj, který se učí, díky čemuž je tak populární.

  • Tableau-patří mezi nejoblíbenější nástroje pro vizualizaci dat na současném trhu. Je schopen zpracovávat velké množství dat a dokonce nabízí výpočetní funkce a parametry podobné Excelu. Tableau je oblíbený díky své elegantní palubní desce a rozhraní příběhu.

  • Microstrategy – je to další BI nástroj, který podporuje dashboardy, automatizované distribuce a další klíčové úlohy analýzy dat.

  • PowerBI – Jedná se o nabídku společnosti Microsoft v prostoru Business Intelligence (BI). PowerBI byl postaven pro integraci s technologiemi společnosti Microsoft. Takže pokud vaše organizace má Sharepoint nebo SQL databáze uživatele, vy a váš tým bude milovat práci na tomto nástroji.

  • Google Analytics-zajímá Vás, jak se Google Analytics dostat do tohoto seznamu? Digitální marketing hraje hlavní roli při transformaci podniků a neexistuje lepší nástroj, než je tento, který by analyzoval vaše digitální úsilí.

Prediktivní analýzy a Strojového Učení Nástroje,

Pohybující se dále nahoru po žebříku, v sázce jen sjel z hlediska složitosti, stejně jako obchodní hodnotu! Toto je doména, odkud pochází chléb a máslo většiny vědců o datech. Některé z typů problémů, které vyřešíte, jsou statistické modelování, předpovídání, neuronové sítě a hluboké učení.

pojďme pochopit běžně používané nástroje v této doméně:

  • Python-to je jeden z nejvíce dominantních jazyků pro datové vědy v průmyslu dnes kvůli jeho snadnosti, flexibilitě, open-source povaze. Získala rychlou popularitu a přijetí v komunitě ML.

  • R-je to další velmi běžně používaný a respektovaný jazyk v datové vědě. R má prosperující a neuvěřitelně podpůrnou komunitu a přichází s množstvím balíčků a knihoven, které podporují většinu úkolů strojového učení.

  • Apache Spark – Spark byl open-source společností UC Berkley v roce 2010 a od té doby se stal jedním z největších komunit v big data. Je známý jako švýcarský armádní nůž analýzy velkých dat, protože nabízí několik výhod, jako je flexibilita,rychlost, výpočetní výkon atd.

  • Julia-je to Nadcházející jazyk a je nabízen jako nástupce Pythonu. Je stále ve své rodící se fázi a bude zajímavé sledovat, jak si povede v budoucnu.

  • notebooky Jupyter – tyto notebooky jsou široce používány pro kódování v Pythonu. I když se používá převážně pro Python, podporuje také jiné jazyky, jako je Julia, R atd.

nástroje, o kterých jsme dosud diskutovali, jsou skutečné nástroje s otevřeným zdrojovým kódem. Nemusíte za ně platit ani kupovat žádné další licence. Mají prosperující a aktivní komunity, které pravidelně udržují a vydávají aktualizace.

nyní se podíváme na některé prémiové nástroje, které jsou uznávány jako lídři v oboru:

  • SAS-je to velmi populární a výkonný nástroj. Je to převážně a běžně používané v bankovním a finančním sektoru. Má velmi vysoký podíl v soukromých organizacích jako American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland atd.

  • SPSS-zkratka pro statistický balíček pro společenské vědy, SPSS získala IBM v roce 2009. Nabízí pokročilou statistickou analýzu, rozsáhlou knihovnu algoritmů strojového učení, textovou analýzu a mnoho dalšího.

  • Matlab-Matlab je opravdu podceňován v organizačním prostředí, ale je široce používán v akademických a výzkumných divizích. V poslední době ztratila hodně půdy jako Python, R, a SAS, ale univerzity, zejména v USA, stále učí spoustu vysokoškolských kurzů pomocí Matlabu.

Společný rámec pro Hluboké Učení

Hluboké Učení vyžaduje vysokou výpočetní zdroje a potřebuje speciální rámce využívat tyto zdroje efektivně. Z tohoto důvodu byste s největší pravděpodobností vyžadovali GPU nebo TPU.

podívejme se na některé rámce používané pro hluboké učení v této části.

  • TensorFlow-to je snadno nejpoužívanější nástroj v průmyslu dnes. Google s tím může mít něco společného!
  • PyTorch – tento super flexibilní rámec hlubokého učení dává velkou konkurenci TensorFlow. PyTorch nedávno přišel do záře reflektorů a byl vyvinut vědci na Facebook
  • Keras a Caffe jsou jiné rámce používány značně pro budování hluboké učení aplikace

Umělá Inteligence Nástroje

éra AutoML je tady. Pokud jste o těchto nástrojích neslyšeli,je vhodný čas se vzdělávat! To by mohlo být to, s čím budete jako datový vědec v blízké budoucnosti pracovat.

Některé z nejpopulárnějších AutoML nástroje jsou AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, H20 bez Řidiče AI, a Amazon Lex. Očekává se, že AutoML bude další velkou věcí v komunitě AI / ML. Jeho cílem je odstranit nebo omezit technickou stránku věcí, aby ji vedoucí pracovníci podniků mohli využít k strategickým rozhodnutím.

tyto nástroje budou schopny automatizovat kompletní potrubí!

koncové poznámky

diskutovali jsme o motoru pro sběr dat a nástrojích potřebných k provedení potrubí pro vyhledávání,zpracování a ukládání dat. Data Science se skládá z velkého spektra domény a každá doména má svou vlastní sadu nástrojů a rámců.

výběr nástroje pro vědu o datech často závisí na vaší osobní volbě, vaší doméně nebo projektu a samozřejmě na vaší organizaci.



+