概要
- そこには膨大なデータサイエンスツールがあります。
- データサイエンスライフサイクルのさまざまな段階に対応する20以上のデータサイエンスツールのリスト
はじめに
データサイエンスタスクを実行するための最良のツールは何ですか? そして、あなたはデータサイエンスの新人としてどのツールを選ぶべきですか?
私はあなたがあなた自身のデータサイエンスの旅のある時点でこれらの質問をした(または検索した)と確信しています。 これらは有効な質問です! 業界にはデータサイエンスツールの不足はありません。 あなたの旅とキャリアのためのものを選ぶことは難しい決断になる可能性があります。
それに直面してみましょう–データサイエンスは広大なスペクトルであり、そのドメインのそれぞれが混乱に多くのアナリスト/データサイエンティストをリードするユニークな方法でデータの処理を必要とします。 また、ビジネスリーダーであれば、長期的な影響を与える可能性があるため、あなたとあなたの会社が選択したツールに関する重要な質問に遭遇します。
では、どのデータサイエンスツールを選択すべきかという問題があります。
この記事では、データサイエンス分野で使用されている広く使用されているツールを、その使用法と利点によって分類して一覧表示することで、この混乱を解消しようとしています。 だから私たちは始めましょう!
そして、あなたが機械学習やビジネス分析の初心者である場合、または始めたばかりの場合、私はアンロック2020と呼ばれるAnalytics Vidhyaによる信じられないほど Machine Learning Starter ProgramとBusiness Analytics Starter Programの2つの包括的なプログラムをカバーしています。このイニシアチブは時間がかかるため、データサイエンスのキャリアを大幅に向上させるためには、できるだけ早く登録する必要があります。
目次
- ビッグデータへのダイビング–ビッグデータを扱うためのツール
- ボリューム
- バラエティ
- ボリューム
- データサイエンスのためのツール
- レポートとビジネスインテリジェンス
- 予測モデリングと機械学習
- 人工知能
ビッグデータのためのデータサイエンスツール
ビッグデータの背後にある意味を真に把握するためには、データをビッグデータとして定義する基本原則を理 これらはビッグデータの3Vとして知られています:
- ボリューム
- Variety
- Velocity
ボリュームを扱うためのツール
名前が示すように、ボリュームはスケールとデータ量を指します。 私が話しているデータの規模を理解するには、世界のデータの90%以上が過去2年間で作成されたことを知っておく必要があります!
10年以上にわたり、データ量の増加に伴い、技術も向上しています。 計算コストとストレージコストの削減により、膨大な量のデータの収集と保存がはるかに容易になりました。
データの量は、それがビッグデータとして修飾するかどうかを定義します。
1gbから10gb程度のデータがある場合、従来のデータサイエンスツールはこれらのケースでうまく機能する傾向があります。 だから、これらのツールは何ですか?
- Microsoft Excel–Excelは、少量のデータを処理するための最も簡単で最も人気のあるツールとして優先されます。 それがサポートする行の最大量は1万以上のシェードであり、一つのシートは一度に最大16,380列のみを処理することができます。 これらの数値は、データ量が大きい場合には十分ではありません。
- Microsoft Access–これは、データストレージに使用されているMicrosoftによって人気のあるツールです。 2gbまでの小さなデータベースは、このツールを使用してスムーズに処理することができますが、それを超えて、それはクラッキングを開始します。
- SQL-SQLは、1970s.It以来の周りされている最も人気のあるデータ管理システムの一つは、数十年のための主要なデータベースソリューションでした。 SQLはまだ普及していますが、欠点があります。
私たちはこれまでの基本的なツールのいくつかをカバーしてきました。 それは今、大きな銃を放つための時間です! データが10GBを超える場合は、1TB+を超えるストレージまで、以下で説明するツールを実装する必要があります:
- Hadoop-ビッグデータのデータ処理とストレージを管理するオープンソースの分散フレームワークです。 機械学習プロジェクトをゼロから構築するたびに、このツールに遭遇する可能性があります。
- Hive–Hadoopの上に構築されたデータウェアハウスです。 Hiveは、HADOOPと統合するさまざまなデータベースやファイルシステムに格納されているデータを照会するためのSQLのようなインターフェイスを提供します。
多様性を処理するためのツール
多様性は、そこにあるさまざまなタイプのデータを指します。 データ型は、これらの構造化データと非構造化データのいずれかである可能性があります。
これらの異なるデータ型の傘の下にある例を見てみましょう:
これらの例を観察し、現実世界のデータと相関させるために時間を取ります。
構造化データの場合に見てきたように、これらのデータ型には特定の順序と構造がありますが、非構造化データの場合、例は傾向やパターンに従いません。 たとえば、顧客からのフィードバックは、長さ、感情、およびその他の要因が異なる場合があります。 さらに、これらのタイプのデータは巨大で多様です。
このタイプのデータに取り組むことは非常に困難な場合がありますが、これらの異なるデータタイプを管理および処理するための市場で利用可能な異
最も一般的な二つのデータベースは、SQLとNoSQLです。 Sqlは、NoSQLが登場する前の数年間、市場で支配的なプレーヤーでした。
SQLの例としては、Oracle、MySQL、SQLiteがありますが、NoSQLはMongoDB、Cassandraなどの一般的なデータベースで構成されています。 これらのNoSQLデータベースは、動的データを拡張して処理する能力のために、巨大な採用数を見ています。
速度を処理するためのツール
3番目と最後のVは速度を表します。 これは、データがキャプチャされる速度です。 これには、リアルタイムデータと非リアルタイムデータの両方が含まれます。 ここでは主にリアルタイムデータについて説明します。
私たちの周りには、リアルタイムのデータをキャプチャして処理する多くの例があります。 最も複雑なのは、自動運転車によって収集されたセンサーデータです。 自動車は、車線、他の車両からの距離などに関するデータを動的に収集して処理する必要があります。 すべて同時に!
収集されるリアルタイムデータの他の例は次のとおりです:
- CCTV
- 株式取引
- クレジットカード取引の不正検出
- ネットワークデータ–ソーシャルメディア(Facebook、Twitterなど))
知ってた?
ニューヨーク証券取引所での各取引セッション中に1tb以上のデータが生成されます!
さて、リアルタイムデータを処理するために一般的に使用されるデータサイエンスツールのいくつかに頭を見てみましょう:
- Apache Kafka-KafkaはApacheによるオープンソースのツールです。 これは、リアルタイムのデータパイプラインを構築するために使用されます。 Kafkaの利点のいくつかは、フォールトトレラントであり、非常に迅速であり、多数の組織によって生産に使用されています。
- Apache Storm–Apacheによってこのツールは、ほぼすべてのプログラミング言語で使用することができます。 それは毎秒1まで,000,000組を処理でき、非常に拡張可能である。 これは、高いデータ速度のために考慮するための良いツールです。
- Amazon Kinesis-AmazonによるこのツールはKafkaに似ていますが、購読料が付属しています。 しかし、それはそれを組織のための非常に強力なオプションになり、アウトオブボックスのソリューションとして提供されています。
- Apache Flink-Flinkは、リアルタイムデータに使用できるApacheのもう1つのツールです。 Flinkの利点のいくつかは、高性能、フォールトトレランス、および効率的なメモリ管理です。
ビッグデータを扱うために一般的に使用されているさまざまなツールをしっかりと把握したので、高度な機械学習技術とアルゴリズムを適用してデータを活用できるセグメントに移動しましょう。
広く使用されているデータサイエンスツール
あなたはブランドの新しいデータサイエンスプロジェクトを設定している場合は、心の中で質問のトンを持 これは、データサイエンティスト、データアナリスト、プロジェクトマネージャー、シニアデータサイエンスエグゼクティブのいずれであっても、レベ
あなたが直面する質問のいくつかは次のとおりです:
- データサイエンスのさまざまな分野でどのツールを使用すべきですか?
- ツールのライセンスを購入するか、オープンソースのライセンスを選択する必要がありますか?
このセクションでは、業界で使用されている一般的なデータサイエンスツールのいくつかについて、さまざまなドメインに応じて説明します。
データサイエンスは、それ自体が広い用語であり、それは異なるドメインの様々な構成され、各ドメインは美しく下の画像でキャプチャされ、独自のビジ:
データサイエンススペクトルはさまざまなドメインで構成されており、これらのドメインは、それらの相対的な複雑さとそれらが提供するビジネ 私たちは、私は上記のスペクトルで示してきた点のそれぞれを取り上げてみましょう。
レポートとビジネスインテリジェンス
スペクトルの下端から始めましょう。 それは組織が重大な戦略的な決定をするために傾向およびパターンを識別することを可能にする。 分析の種類は、MIS、データ分析、ダッシュボードに至るまで多岐にわたります。
これらのドメインで一般的に使用されるツールは次のとおりです:
- Excel-それはあなたが二重迅速な時間で分析を行うことができますピボットテーブルやチャートを含むオプションの多様な範囲を提供します。 これは、要するに、データサイエンス/分析ツールのスイスアーミーナイフ
- QlikViewです–それはあなたが数回のクリックだけですべてのデータソースを統合、検索、視覚化、およ それはそれがとても人気になるかを学ぶための簡単で直感的なツールです。
- Tableau–今日の市場で最も人気のあるデータ可視化ツールの中にあります。 それは多量のデータを扱うことができ、Excelそっくりの計算機能および変数を提供する。 Tableauは、ダッシュボードとストーリーのインターフェイスがきちんとしているため、非常に気に入っています。
- Microstrategyは、ダッシュボード、自動配布、およびその他の主要なデータ分析タスクをサポートするもう1つのBIツールです。
- PowerBI-これは、ビジネスインテリジェンス(BI)空間でのMicrosoftの提供です。 PowerBIは、Microsoftの技術と統合するために構築されました。 したがって、組織にSharepointまたはSQLデータベースユーザーがいる場合、あなたとあなたのチームはこのツールに取り組むのが大好きです。
- Google Analytics–Google Analyticsはどのようにこのリストにそれを作ったのだろうか? さて、デジタルマーケティングは、ビジネスを変革する上で大きな役割を果たしており、あなたのデジタル努力を分析するために、これよりも優れたツールはありません。
予測分析と機械学習ツール
さらにはしごを上っていくと、複雑さとビジネス価値の点で賭け金が高くなりました! これは、ほとんどのデータ科学者のパンとバターがどこから来たのかというドメインです。 解決する問題の種類には、統計モデリング、予測、ニューラルネットワーク、ディープラーニングなどがあります。
このドメインで一般的に使用されているツールを理解してみましょう:
- Python–これは、その使いやすさ、柔軟性、オープンソースの性質のために、今日の業界でデータサイエンスのための最も支配的な言語の一つです。 これは、MLコミュニティで急速な人気と受け入れを得ています。
- R-Itは、データサイエンスで非常に一般的に使用され、尊敬されている別の言語です。 Rは繁栄し、信じられないほど支援コミュニティを持っており、それはほとんどの機械学習タスクをサポートするパッケージやライブラリの茄多
- Apache Spark-Sparkは2010年にUC Berkleyによってオープンソース化され、以来、ビッグデータの最大のコミュニティの1つになっています。 柔軟性、スピード、計算能力などの複数の利点があるため、ビッグデータ分析のスイスアーミーナイフとして知られています。
- Julia–それは今後の言語であり、Pythonの後継者として宣伝されています。 それはまだ初期段階にあり、将来どのように実行されるかを見るのは興味深いでしょう。
- Jupyter Notebook-これらのノートブックは、Pythonでのコーディングに広く使用されています。 主にPythonで使用されていますが、Julia、Rなどの他の言語もサポートしています。
これまで議論してきたツールは、真のオープンソースのツールです。 あなたは彼らのために支払うか、余分なライセンスを購入する必要はありません。 彼らは定期的に更新を維持し、リリースする繁栄と活発なコミュニティを持っています。
今、我々は業界のリーダーとして認識されているいくつかのプレミアムツールをチェックアウトします:
- SAS–それは非常に人気があり、強力なツールです。 これは、広く一般的に銀行や金融セクターで使用されています。 American Express、JP Morgan、Mu Sigma、Royal Bank of Scotlandなどの民間組織で非常に高いシェアを持っています。
- SPSS-Statistical Package for Social Sciencesの略で、SPSSは2009年にIBMに買収されました。 これは、高度な統計分析、機械学習アルゴリズム、テキスト分析、および大いに多くの広大なライブラリを提供しています。
- Matlab-Matlabは、組織の状況では本当に過小評価されていますが、学界や研究部門で広く使用されています。 最近、Python、R、SASなどには多くの根拠が失われていますが、大学、特に米国では、Matlabを使用して多くの学部コースを教えています。
深層学習のための共通フレームワーク
深層学習には高い計算リソースが必要であり、それらのリソースを効果的に利用するための特別なフレームワークが必 このため、GPUまたはTPUが必要になる可能性が最も高いでしょう。
このセクションでは、深層学習に使用されるフレームワークのいくつかを見てみましょう。
- TensorFlow-それは簡単に今日の業界で最も広く使用されているツールです。 Googleはそれと何か関係があるかもしれません!
- PyTorch–この超柔軟な深層学習フレームワークは、TensorFlowに大きな競争を与えています。 PyTorchは最近脚光を浴び、Facebookの研究者によって開発されました
- kerasとCaffeは、深層学習アプリケーションを構築するために広く使用される他のフレームワークです
人工知能ツール
Aumlの時代がここにあります。 あなたがこれらのツールのことを聞いたことがないなら、それはあなた自身を教育するのに良い時期です! これは、近い将来、データ科学者としてあなたが作業するものになる可能性があります。
最も人気のあるAutoMLツールのいくつかは、AutoKeras、Google Cloud AutoML、IBM Watson、DataRobot、H20の無人AI、AmazonのLexです。 AUMLはAI/MLコミュニティの次の大きなものになることが期待されています。 それはビジネスリーダーが戦略的な決定をするのにそれを使用できるように事の技術的な側面を除去するか、または減らすことを向けます。
これらのツールは、完全なパイプラインを自動化することができます!
エンドノート
データ収集エンジンと、データの取得、処理、および保存のためのパイプラインを達成するために必要なツールについて説明しました。 データサイエンスは、ドメインの大規模なスペクトルで構成され、各ドメインは、ツールやフレームワークの独自のセットを持っています。
あなたのデータサイエンスツールを選ぶことは、多くの場合、あなたの個人的な選択、あなたのドメインやプロジェクト、そしてもちろん、あなたの組織に