- Descripción general
- Introducción
- Tabla de contenidos
- Herramientas de ciencia de datos para Big Data
- Herramientas para manejar Volumen
- Herramientas para manejar Variedad
- Herramientas para manejar la velocidad
- Herramientas de ciencia de datos ampliamente utilizadas
- Informes e Inteligencia de negocios
- Herramientas de Análisis predictivo y Aprendizaje automático
- Marcos comunes para Aprendizaje profundo
- Herramientas de inteligencia artificial
- Notas finales
Descripción general
- Hay una gran cantidad de herramientas de ciencia de datos disponibles, ¿cuál debe elegir?
- Aquí hay una lista de más de 20 herramientas de ciencia de datos que se adaptan a diferentes etapas del ciclo de vida de la ciencia de datos
Introducción
¿Cuáles son las mejores herramientas para realizar tareas de ciencia de datos? ¿Y qué herramienta debería elegir como recién llegado a la ciencia de datos?
Estoy seguro de que ha hecho (o buscado) estas preguntas en algún momento de su propio viaje de ciencia de datos. Estas son preguntas válidas! No hay escasez de herramientas de ciencia de datos en la industria. Elegir uno para su viaje y carrera puede ser una decisión difícil.
Seamos realistas: la ciencia de datos es un amplio espectro y cada uno de sus dominios requiere el manejo de datos de una manera única que lleva a muchos analistas/científicos de datos a la confusión. Y si usted es un líder empresarial, se encontrará con preguntas cruciales sobre las herramientas que usted y su empresa eligen, ya que podrían tener un impacto a largo plazo.
De nuevo, la pregunta es ¿qué herramienta de ciencia de datos debe elegir?
En este artículo, intentaré aclarar esta confusión enumerando las herramientas ampliamente utilizadas utilizadas en el espacio de ciencia de datos desglosadas por su uso y puntos fuertes. ¡Así que comencemos!
Y si es un recién llegado al aprendizaje automático y / o al análisis de negocios, o recién está comenzando, le animo a aprovechar una increíble iniciativa de Analytics Vidhya llamada UnLock 2020. Esta iniciativa abarca dos programas integrales, el Programa de Inicio de Aprendizaje Automático y el Programa de Inicio de Análisis de Negocios, por lo que tendrá que inscribirse lo antes posible para dar un impulso masivo a su carrera de ciencia de datos.
Tabla de contenidos
- Bucear en Big Data-Herramientas para manejar Big Data
- Volumen
- Variedad
- Volumen
- Herramientas para la Ciencia de datos
- Informes e Inteligencia de Negocios
- Modelado Predictivo y Aprendizaje automático
- Inteligencia Artificial
Herramientas de ciencia de datos para Big Data
Para comprender realmente el significado detrás del Big Data, es importante que entendamos los principios básicos que definen los datos como big data. Estos se conocen como las 3 V de big data:
- Volumen
- Variedad
- Velocidad
Herramientas para manejar Volumen
Como su nombre indica, volumen se refiere a la escala y la cantidad de datos. Para entender la escala de los datos de los que estoy hablando, debe saber que más del 90% de los datos en el mundo se crearon en los últimos dos años.
A lo largo de la década, con el aumento en la cantidad de datos, la tecnología también ha mejorado. La disminución de los costos computacionales y de almacenamiento ha hecho que la recopilación y el almacenamiento de grandes cantidades de datos sea mucho más fácil.
El volumen de los datos define si se califica como big data o no.
Cuando tenemos datos que van de 1 Gb a alrededor de 10 Gb, las herramientas tradicionales de ciencia de datos tienden a funcionar bien en estos casos. Entonces, ¿qué son estas herramientas?
- Microsoft Excel-Excel prevalece como la herramienta más fácil y popular para manejar pequeñas cantidades de datos. La cantidad máxima de filas que admite es solo un tono de más de 1 millón y una hoja solo puede manejar hasta 16,380 columnas a la vez. Estos números simplemente no son suficientes cuando la cantidad de datos es grande.
- Microsoft Access-Es una herramienta popular de Microsoft que se utiliza para el almacenamiento de datos. Bases de datos más pequeñas de hasta 2 Gb se pueden manejar sin problemas con esta herramienta, pero más allá de eso, comienza a agrietarse.
- SQL-SQL es uno de los sistemas de gestión de datos más populares que ha existido desde la década de 1970. Fue la solución de base de datos principal durante algunas décadas. SQL sigue siendo popular, pero hay un inconveniente: se vuelve difícil escalarlo a medida que la base de datos continúa creciendo.
Hemos cubierto algunas de las herramientas básicas hasta el momento. ¡Es hora de desatar las armas grandes ahora! Si sus datos son mayores de 10 Gb hasta un almacenamiento superior a 1 Tb+, debe implementar las herramientas que he mencionado a continuación:
- Hadoop-It es un marco distribuido de código abierto que gestiona el procesamiento y almacenamiento de datos para big data. Es probable que te encuentres con esta herramienta cada vez que construyas un proyecto de aprendizaje automático desde cero.
- Hive-It es un almacén de datos construido sobre Hadoop. Hive proporciona una interfaz de tipo SQL para consultar los datos almacenados en varias bases de datos y sistemas de archivos que se integran con Hadoop.
Herramientas para manejar Variedad
La variedad se refiere a los diferentes tipos de datos que existen. El tipo de datos puede ser uno de estos: datos estructurados y no estructurados.
Repasemos los ejemplos que caen bajo el paraguas de estos diferentes tipos de datos:
Tómese un momento para observar estos ejemplos y correlacionarlos con sus datos del mundo real.
Como puede haber observado en el caso de los datos estructurados, hay un cierto orden y estructura en estos tipos de datos, mientras que en el caso de los datos no estructurados, los ejemplos no siguen ninguna tendencia o patrón. Por ejemplo, los comentarios de los clientes pueden variar en longitud, sentimientos y otros factores. Además, estos tipos de datos son enormes y diversos.
Abordar este tipo de datos puede ser muy difícil, así que, ¿cuáles son las diferentes herramientas de ciencia de datos disponibles en el mercado para administrar y manejar estos diferentes tipos de datos?
Las dos bases de datos más comunes son SQL y NoSQL. SQL ha sido el actor dominante en el mercado durante varios años antes de que surgiera NoSQL.
Algunos ejemplos de SQL son Oracle, MySQL, SQLite, mientras que NoSQL consiste en bases de datos populares como MongoDB, Cassandra, etc. Estas bases de datos NoSQL están viendo enormes números de adopción debido a su capacidad para escalar y manejar datos dinámicos.
Herramientas para manejar la velocidad
La tercera y última V representa la velocidad. Esta es la velocidad a la que se capturan los datos. Esto incluye datos en tiempo real y no real. Hablaremos principalmente de los datos en tiempo real aquí.
Tenemos muchos ejemplos a nuestro alrededor que capturan y procesan datos en tiempo real. El más complejo es el de los datos de los sensores recogidos por los coches autónomos. Imagine estar en un automóvil autónomo: el automóvil tiene que recopilar y procesar dinámicamente datos sobre su carril, distancia de otros vehículos, etc. todo al mismo tiempo!
Algunos otros ejemplos de datos en tiempo real que se recopilan son:
- CCTV
- Comercio de acciones
- Detección de fraude para transacciones con tarjeta de crédito
- Datos de red-redes sociales (Facebook, Twitter, etc.)
¿Lo sabías?
¡Se generan más de 1 Tb de datos durante cada sesión de negociación en la bolsa de valores de Nueva York!
Ahora, pasemos a algunas de las herramientas de ciencia de datos de uso común para manejar datos en tiempo real:
- Apache Kafka – Kafka es una herramienta de código abierto de Apache. Se utiliza para construir canalizaciones de datos en tiempo real. Algunas de las ventajas de Kafka son que es tolerante a fallos, muy rápido y utilizado en producción por un gran número de organizaciones.
- Apache Storm-Esta herramienta de Apache se puede utilizar con casi todos los lenguajes de programación. Puede procesar hasta 1 Millón de tuplas por segundo y es altamente escalable. Es una buena herramienta a tener en cuenta para una alta velocidad de datos.
- Amazon Kinesis: Esta herramienta de Amazon es similar a Kafka, pero viene con un costo de suscripción. Sin embargo, se ofrece como una solución lista para usar, lo que lo convierte en una opción muy poderosa para las organizaciones.
- Apache Flink – Flink es otra herramienta de Apache que podemos utilizar para datos en tiempo real. Algunas de las ventajas de Flink son el alto rendimiento, la tolerancia a fallos y la gestión eficiente de la memoria.
Ahora que tenemos un conocimiento sólido de las diferentes herramientas que se usan comúnmente para trabajar con Big Data, pasemos al segmento donde puede aprovechar los datos aplicando técnicas y algoritmos avanzados de aprendizaje automático.
Herramientas de ciencia de datos ampliamente utilizadas
Si está configurando un proyecto de ciencia de datos completamente nuevo, tendrá muchas preguntas en mente. Esto es cierto independientemente de su nivel, ya sea un científico de datos, un analista de datos, un gerente de proyecto o un ejecutivo sénior de ciencia de datos.
Algunas de las preguntas que enfrentará son:
- ¿Qué herramientas debe usar en diferentes dominios de la ciencia de datos?
- ¿Debo comprar licencias para las herramientas u optar por una de código abierto?, y así sucesivamente
En esta sección, discutiremos algunas de las herramientas populares de ciencia de datos utilizadas en la industria de acuerdo con diferentes dominios.
Ciencia de datos es un término amplio en sí mismo y consiste en una variedad de dominios diferentes y cada dominio tiene su propia importancia y complejidad de negocio, que se captura bellamente en la imagen de abajo:
El espectro de la ciencia de datos consta de varios dominios y estos dominios están representados por su complejidad relativa y el valor comercial que proporcionan. Abordemos cada uno de los puntos que he mostrado en el espectro anterior.
Informes e Inteligencia de negocios
Comencemos con el extremo inferior del espectro. Permite a una organización identificar tendencias y patrones para tomar decisiones estratégicas cruciales. Los tipos de análisis van desde MIS, análisis de datos, hasta el tablero de instrumentos.
Las herramientas más utilizadas en estos dominios son:
- Excel: Ofrece una amplia gama de opciones, incluidas tablas dinámicas y gráficos que le permiten realizar análisis en un tiempo doble y rápido. Esta es, en resumen, la Navaja suiza de herramientas de ciencia/análisis de datos
- QlikView: le permite consolidar, buscar, visualizar y analizar todas sus fuentes de datos con solo unos pocos clics. Es una herramienta fácil e intuitiva de aprender que lo hace tan popular.
- Tableau-Es una de las herramientas de visualización de datos más populares del mercado en la actualidad. Es capaz de manejar grandes cantidades de datos e incluso ofrece funciones y parámetros de cálculo similares a Excel. Tableau es muy apreciado por su panel de control y su interfaz de historia.
- Microstrategy: Es otra herramienta de BI que admite paneles, distribuciones automatizadas y otras tareas clave de análisis de datos.
- PowerBI-It es una oferta de Microsoft en el espacio de Inteligencia de Negocios (BI). PowerBI fue construido para integrarse con las tecnologías de Microsoft. Por lo tanto, si su organización tiene un usuario de base de datos Sharepoint o SQL, a usted y a su equipo les encantará trabajar en esta herramienta.
- Google Analytics – se pregunta ¿cómo Google Analytics hacer a esta lista? Bueno, el marketing digital juega un papel importante en la transformación de los negocios y no hay mejor herramienta que esta para analizar sus esfuerzos digitales.
Herramientas de Análisis predictivo y Aprendizaje automático
Subiendo de nivel, ¡las apuestas se han vuelto altas en términos de complejidad y valor comercial! Este es el dominio de donde proviene el pan y la mantequilla de la mayoría de los científicos de datos. Algunos de los tipos de problemas que resolverá son el modelado estadístico, la previsión, las redes neuronales y el aprendizaje profundo.
Entendamos las herramientas de uso común en este dominio:
- Python: Este es uno de los lenguajes más dominantes para la ciencia de datos en la industria hoy en día debido a su facilidad, flexibilidad y naturaleza de código abierto. Ha ganado rápida popularidad y aceptación en la comunidad de ML.
- R – Es otro lenguaje muy utilizado y respetado en la ciencia de datos. R tiene una comunidad próspera e increíblemente solidaria y viene con una gran cantidad de paquetes y bibliotecas que admiten la mayoría de las tareas de aprendizaje automático.
- Apache Spark-Spark fue de código abierto de UC Berkley en 2010 y desde entonces se ha convertido en una de las comunidades más grandes en big data. Es conocida como la navaja suiza del análisis de big data, ya que ofrece múltiples ventajas como flexibilidad, velocidad, potencia computacional, etc.
- Julia – Es un próximo lenguaje y está siendo promocionado como el sucesor de Python. Todavía está en su etapa naciente y será interesante ver cómo funciona en el futuro.
- Cuadernos de Jupyter: Estos cuadernos se utilizan ampliamente para codificar en Python. Aunque se usa predominantemente para Python, también soporta otros lenguajes como Julia, R, etc.
Las herramientas que hemos discutido hasta ahora son verdaderas herramientas de código abierto. No es necesario pagar por ellos ni comprar licencias adicionales. Tienen comunidades activas y prósperas que mantienen y publican actualizaciones de forma regular.
Ahora, echaremos un vistazo a algunas herramientas premium que son reconocidas como líderes de la industria:
- SAS-Es una herramienta muy popular y poderosa. Es de uso frecuente y común en los sectores bancario y financiero. Tiene una participación muy alta en organizaciones privadas como American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland, etc.
- SPSS-Abreviatura de Statistical Package for Social Sciences, SPSS fue adquirido por IBM en 2009. Ofrece análisis estadísticos avanzados, una amplia biblioteca de algoritmos de aprendizaje automático, análisis de texto y mucho más.
- Matlab-Matlab está muy subestimado en el panorama organizacional, pero es ampliamente utilizado en las divisiones académicas y de investigación. Ha perdido mucho terreno en los últimos tiempos con Python, R y SAS, pero las universidades, especialmente en los EE.UU., todavía imparten muchos cursos de pregrado utilizando Matlab.
Marcos comunes para Aprendizaje profundo
El aprendizaje profundo requiere altos recursos computacionales y necesita marcos especiales para utilizar esos recursos de manera efectiva. Debido a esto, lo más probable es que necesite una GPU o una TPU.
Veamos algunos de los marcos utilizados para el aprendizaje profundo en esta sección.
- TensorFlow-Es fácilmente la herramienta más utilizada en la industria hoy en día. Google podría tener algo que ver con eso!
- PyTorch: Este marco de aprendizaje profundo súper flexible está ofreciendo una gran competencia a TensorFlow. PyTorch ha pasado recientemente a la palestra y fue desarrollado por investigadores de Facebook
- Keras y Caffe son otros marcos utilizados ampliamente para crear aplicaciones de aprendizaje profundo
Herramientas de inteligencia artificial
La era de AutoML ya está aquí. Si no has oído hablar de estas herramientas, ¡entonces es un buen momento para educarte! Esto bien podría ser con lo que usted, como científico de datos, trabajará en un futuro cercano.
Algunas de las herramientas de AutoML más populares son AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, la IA sin conductor de H20 y Lex de Amazon. Se espera que AutoML sea la próxima gran cosa en la comunidad de AI/ML. Su objetivo es eliminar o reducir el aspecto técnico de las cosas para que los líderes empresariales puedan usarlo para tomar decisiones estratégicas.
¡Estas herramientas podrán automatizar la canalización completa!
Notas finales
Hemos analizado el motor de recopilación de datos y las herramientas necesarias para llevar a cabo la canalización de recuperación, procesamiento y almacenamiento de datos. La ciencia de datos consiste en un amplio espectro de dominios y cada dominio tiene su propio conjunto de herramientas y marcos de trabajo.
Elegir su herramienta de ciencia de datos a menudo dependerá de su elección personal, su dominio o proyecto y, por supuesto, su organización.