- Aperçu
- Introduction
- Table des matières
- Outils de science des données pour le Big Data
- Outils pour gérer le volume
- Outils de gestion de la variété
- Outils pour gérer la vitesse
- Outils de science des données largement utilisés
- Reporting et Business Intelligence
- Outils d’analyse prédictive et d’apprentissage automatique
- Cadres communs pour l’apprentissage profond
- Outils d’intelligence artificielle
- Notes de fin
Aperçu
- Il existe une pléthore d’outils de science des données – lesquels devriez-vous choisir?
- Voici une liste de plus de 20 outils de science des données répondant aux différentes étapes du cycle de vie de la science des données
Introduction
Quels sont les meilleurs outils pour effectuer des tâches de science des données? Et quel outil devriez-vous choisir en tant que nouveau venu dans la science des données?
Je suis sûr que vous avez posé (ou recherché) ces questions à un moment donné de votre propre parcours en science des données. Ce sont des questions valables! Les outils de science des données ne manquent pas dans l’industrie. En choisir un pour votre parcours et votre carrière peut être une décision délicate.
Avouons-le – la science des données est un vaste spectre et chacun de ses domaines nécessite une gestion des données d’une manière unique qui conduit de nombreux analystes / scientifiques des données à la confusion. Et si vous êtes un chef d’entreprise, vous rencontrerez des questions cruciales concernant les outils que vous et votre entreprise choisissez, car cela pourrait avoir un impact à long terme.
Encore une fois, la question est de savoir quel outil de science des données devriez-vous choisir?
Dans cet article, je vais tenter de dissiper cette confusion en répertoriant les outils largement utilisés dans l’espace de la science des données ventilés par leur utilisation et leurs points forts. Alors commençons!
Et si vous êtes un nouveau venu dans l’apprentissage automatique et / ou l’analyse métier, ou que vous venez de commencer, je vous encourage à tirer parti d’une initiative incroyable d’Analytics Vidhya appelée UnLock 2020. Couvrant deux programmes complets – le Programme de démarrage de l’Apprentissage automatique et le Programme de démarrage de l’analyse des affaires – cette initiative est limitée dans le temps, vous devez donc vous inscrire dès que possible pour donner un coup de pouce massif à votre carrière en science des données!
Table des matières
- Plongée dans le Big Data – Outils pour gérer le Big Data
- Volume
- Variété
- Volume
- Outils pour la Science des données
- Reporting et Business Intelligence
- Modélisation Prédictive et Apprentissage automatique
- Intelligence Artificielle
Outils de science des données pour le Big Data
Pour vraiment saisir le sens du Big Data, il est important que nous comprenions les principes de base qui définissent les données en tant que big Data. Ceux-ci sont connus comme les 3 V du big data:
- Volume
- Variété
- Vélocité
Outils pour gérer le volume
Comme son nom l’indique, le volume fait référence à l’échelle et à la quantité de données. Pour comprendre l’ampleur des données dont je parle, il faut savoir que plus de 90% des données dans le monde ont été créées au cours des deux dernières années!
Au cours de la décennie, avec l’augmentation de la quantité de données, la technologie s’est également améliorée. La diminution des coûts de calcul et de stockage a rendu la collecte et le stockage d’énormes quantités de données beaucoup plus faciles.
Le volume des données définit s’il est qualifié de big data ou non.
Lorsque nous avons des données allant de 1 Go à environ 10 Go, les outils traditionnels de science des données ont tendance à bien fonctionner dans ces cas. Alors, quels sont ces outils?
- Microsoft Excel – Excel est l’outil le plus simple et le plus populaire pour gérer de petites quantités de données. La quantité maximale de lignes qu’il prend en charge est juste une nuance de plus de 1 million et une feuille ne peut gérer que jusqu’à 16 380 colonnes à la fois. Ces chiffres ne sont tout simplement pas suffisants lorsque la quantité de données est importante.
- Microsoft Access – C’est un outil populaire de Microsoft utilisé pour le stockage de données. Des bases de données plus petites jusqu’à 2 Go peuvent être gérées en douceur avec cet outil, mais au-delà, cela commence à se fissurer.
- SQL – SQL est l’un des systèmes de gestion de données les plus populaires qui existe depuis les années 1970. C’était la solution de base de données principale pendant quelques décennies. SQL reste toujours populaire, mais il y a un inconvénient : il devient difficile de l’adapter à mesure que la base de données continue de croître.
Nous avons couvert certains des outils de base jusqu’à présent. Il est temps de libérer les gros canons maintenant! Si vos données sont supérieures à 10 Go jusqu’à un stockage supérieur à 1 To +, vous devez implémenter les outils que j’ai mentionnés ci-dessous:
- Hadoop – C’est un framework distribué open source qui gère le traitement et le stockage des données pour le big Data. Vous êtes susceptible de rencontrer cet outil chaque fois que vous construisez un projet d’apprentissage automatique à partir de zéro.
- Hive – C’est un entrepôt de données construit sur Hadoop. Hive fournit une interface de type SQL pour interroger les données stockées dans diverses bases de données et systèmes de fichiers qui s’intègrent à Hadoop.
Outils de gestion de la variété
La variété fait référence aux différents types de données disponibles. Le type de données peut être l’un de ceux-ci – Données structurées et non structurées.
Passons en revue les exemples relevant de ces différents types de données:
Prenez un moment pour observer ces exemples et les corréler avec vos données réelles.
Comme vous l’avez peut-être observé dans le cas de données structurées, il y a un certain ordre et une certaine structure à ces types de données alors que dans le cas de données non structurées, les exemples ne suivent aucune tendance ou modèle. Par exemple, les commentaires des clients peuvent varier en longueur, en sentiments et en d’autres facteurs. De plus, ces types de données sont énormes et diversifiées.
Il peut être très difficile de s’attaquer à ce type de données, alors quels sont les différents outils de science des données disponibles sur le marché pour gérer et gérer ces différents types de données?
Les deux bases de données les plus courantes sont SQL et NoSQL. SQL a été les acteurs dominants du marché pendant un certain nombre d’années avant l’émergence de NoSQL.
Quelques exemples pour SQL sont Oracle, MySQL, SQLite, alors que NoSQL se compose de bases de données populaires comme MongoDB, Cassandra, etc. Ces bases de données NoSQL connaissent un nombre énorme d’adoption en raison de leur capacité à évoluer et à gérer des données dynamiques.
Outils pour gérer la vitesse
Le troisième et dernier V représente la vitesse. C’est la vitesse à laquelle les données sont capturées. Cela inclut les données en temps réel et non en temps réel. Nous parlerons principalement des données en temps réel ici.
Nous avons beaucoup d’exemples autour de nous qui capturent et traitent des données en temps réel. Le plus complexe est celui des données de capteur collectées par les voitures autonomes. Imaginez être dans une voiture autonome – la voiture doit collecter et traiter dynamiquement des données concernant sa voie, sa distance par rapport aux autres véhicules, etc. tout en même temps!
Voici quelques autres exemples de données en temps réel collectées ::
- CCTV
- Trading d’actions
- Détection de fraude pour les transactions par carte de crédit
- Données réseau – médias sociaux (Facebook, Twitter, etc.)
Le saviez-vous ?
Plus de 1 To de données sont générées lors de chaque séance de trading à la bourse de New York!
Passons maintenant à certains des outils de science des données couramment utilisés pour gérer les données en temps réel:
- Apache Kafka – Kafka est un outil open source d’Apache. Il est utilisé pour la construction de pipelines de données en temps réel. Certains des avantages de Kafka sont: Il est tolérant aux pannes, très rapide et utilisé en production par un grand nombre d’organisations.
- Apache Storm – Cet outil d’Apache peut être utilisé avec presque tous les langages de programmation. Il peut traiter jusqu’à 1 million de tuples par seconde et il est hautement évolutif. C’est un bon outil à considérer pour une vitesse de données élevée.
- Amazon Kinesis – Cet outil d’Amazon est similaire à Kafka mais il est livré avec un coût d’abonnement. Cependant, il est proposé comme une solution prête à l’emploi, ce qui en fait une option très puissante pour les organisations.
- Apache Flink – Flink est un autre outil d’Apache que nous pouvons utiliser pour des données en temps réel. Certains des avantages de Flink sont des performances élevées, une tolérance aux pannes et une gestion efficace de la mémoire.
Maintenant que nous avons une bonne compréhension des différents outils couramment utilisés pour travailler avec le Big Data, passons au segment où vous pouvez tirer parti des données en appliquant des techniques et des algorithmes avancés d’apprentissage automatique.
Outils de science des données largement utilisés
Si vous mettez en place un tout nouveau projet de science des données, vous aurez une tonne de questions à l’esprit. Cela est vrai quel que soit votre niveau, que vous soyez un scientifique des données, un analyste des données, un chef de projet ou un cadre supérieur en science des données.
Certaines des questions auxquelles vous serez confronté sont:
- Quels outils devez-vous utiliser dans différents domaines de la science des données ?
- Dois-je acheter des licences pour les outils ou opter pour une licence open source ?, et ainsi de suite
Dans cette section, nous discuterons de certains des outils de science des données populaires utilisés dans l’industrie selon différents domaines.
La science des données est un terme large en soi et il se compose d’une variété de domaines différents et chaque domaine a sa propre importance commerciale et sa complexité qui est magnifiquement capturée dans l’image ci-dessous:
Le spectre de la science des données comprend divers domaines et ces domaines sont représentés par leur complexité relative et la valeur commerciale qu’ils apportent. Reprenons chacun des points que j’ai montrés dans le spectre ci-dessus.
Reporting et Business Intelligence
Commençons par l’extrémité inférieure du spectre. Il permet à une organisation d’identifier les tendances et les modèles afin de prendre des décisions stratégiques cruciales. Les types d’analyse vont du MIS à l’analyse de données, en passant par le tableau de bord.
Les outils couramment utilisés dans ces domaines sont:
- Excel – Il offre une gamme variée d’options, y compris des tableaux croisés dynamiques et des graphiques qui vous permettent de faire des analyses en un temps double et rapide. C’est, en bref, le Couteau suisse des outils de science et d’analyse des données
- QlikView – Il vous permet de consolider, de rechercher, de visualiser et d’analyser toutes vos sources de données en quelques clics. C’est un outil facile et intuitif à apprendre, ce qui le rend si populaire.
- Tableau- It est aujourd’hui l’un des outils de visualisation de données les plus populaires sur le marché. Il est capable de gérer de grandes quantités de données et offre même des fonctions et des paramètres de calcul de type Excel. Tableau est très apprécié en raison de son tableau de bord soigné et de son interface graphique.
- Microstrategy – C’est un autre outil de BI qui prend en charge les tableaux de bord, les distributions automatisées et d’autres tâches d’analyse de données clés.
- PowerBI – C’est une offre Microsoft dans l’espace Business Intelligence (BI). PowerBI a été conçu pour s’intégrer aux technologies Microsoft. Donc, si votre organisation a un utilisateur de base de données Sharepoint ou SQL, vous et votre équipe adorerez travailler sur cet outil.
- Google Analytics – Vous vous demandez comment Google Analytics est-il arrivé à cette liste? Eh bien, le marketing numérique joue un rôle majeur dans la transformation des entreprises et il n’y a pas de meilleur outil que celui-ci pour analyser vos efforts numériques.
Outils d’analyse prédictive et d’apprentissage automatique
En gravissant les échelons, l’enjeu est de taille tant en termes de complexité que de valeur métier ! C’est le domaine d’où viennent la plupart des scientifiques de données. Certains des types de problèmes que vous allez résoudre sont la modélisation statistique, la prévision, les réseaux de neurones et l’apprentissage en profondeur.
Laissez-nous comprendre les outils couramment utilisés dans ce domaine:
- Python – C’est l’un des langages les plus dominants pour la science des données dans l’industrie aujourd’hui en raison de sa facilité, de sa flexibilité et de sa nature open source. Il a gagné en popularité et en acceptation rapides dans la communauté ML.
- R – C’est un autre langage très couramment utilisé et respecté en science des données. R a une communauté florissante et incroyablement solidaire et il est livré avec une pléthore de packages et de bibliothèques qui prennent en charge la plupart des tâches d’apprentissage automatique.
- Apache Spark – Spark a été open source par UC Berkley en 2010 et est depuis devenue l’une des plus grandes communautés du big data. Il est connu comme le couteau suisse de l’analyse de big Data car il offre de multiples avantages tels que la flexibilité, la vitesse, la puissance de calcul, etc.
- Julia – C’est un langage à venir et est présenté comme le successeur de Python. Il en est encore à son stade naissant et il sera intéressant de voir comment il se comporte à l’avenir.
- Notebooks Jupyter – Ces notebooks sont largement utilisés pour le codage en Python. Bien qu’il soit principalement utilisé pour Python, il prend également en charge d’autres langages tels que Julia, R, etc.
Les outils dont nous avons discuté jusqu’à présent sont de véritables outils open source. Vous n’avez pas besoin de les payer ou d’acheter des licences supplémentaires. Ils ont des communautés prospères et actives qui maintiennent et publient régulièrement des mises à jour.
Maintenant, nous allons découvrir quelques outils haut de gamme reconnus comme des leaders de l’industrie:
- SAS – C’est un outil très populaire et puissant. Il est principalement et couramment utilisé dans les secteurs bancaire et financier. Il a une part très élevée dans des organisations privées comme American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland, etc.
- SPSS – Abréviation de Paquet statistique pour les Sciences sociales, SPSS a été acquise par IBM en 2009. Il offre une analyse statistique avancée, une vaste bibliothèque d’algorithmes d’apprentissage automatique, une analyse de texte et bien plus encore.
- Matlab – Matlab est vraiment sous-estimé dans le paysage organisationnel, mais il est largement utilisé dans les divisions universitaires et de recherche. Il a perdu beaucoup de terrain ces derniers temps au profit de Python, R et SAS, mais les universités, en particulier aux États-Unis, enseignent encore beaucoup de cours de premier cycle en utilisant Matlab.
Cadres communs pour l’apprentissage profond
L’apprentissage profond nécessite des ressources de calcul élevées et nécessite des cadres spéciaux pour utiliser efficacement ces ressources. Pour cette raison, vous auriez très probablement besoin d’un GPU ou d’un TPU.
Examinons quelques-uns des frameworks utilisés pour l’apprentissage profond dans cette section.
- TensorFlow – C’est facilement l’outil le plus utilisé dans l’industrie aujourd’hui. Google pourrait avoir quelque chose à voir avec ça!
- PyTorch – Ce cadre d’apprentissage profond super flexible donne une concurrence majeure à TensorFlow. PyTorch est récemment entré sous les feux de la rampe et a été développé par des chercheurs de Facebook
- Keras et Caffe sont d’autres frameworks largement utilisés pour la création d’applications d’apprentissage profond
Outils d’intelligence artificielle
L’ère de l’AutoML est arrivée. Si vous n’avez pas entendu parler de ces outils, c’est le bon moment pour vous renseigner! Cela pourrait bien être ce avec quoi vous travaillerez en tant que data scientist dans un proche avenir.
Certains des outils AutoML les plus populaires sont AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, l’IA sans pilote de H20 et Lex d’Amazon. AutoML devrait être la prochaine grande chose dans la communauté AI / ML. Il vise à éliminer ou à réduire le côté technique des choses afin que les chefs d’entreprise puissent l’utiliser pour prendre des décisions stratégiques.
Ces outils pourront automatiser le pipeline complet !
Notes de fin
Nous avons discuté du moteur de collecte de données et des outils nécessaires pour accomplir le pipeline de récupération, de traitement et de stockage des données. La science des données comprend un large éventail de domaines et chaque domaine possède son propre ensemble d’outils et de cadres.
Choisir votre outil de science des données dépend souvent de votre choix personnel, de votre domaine ou de votre projet, et bien sûr de votre organisation.