- visão geral
- introdução
- Índice
- de Ciência de Dados Ferramentas para Grandes volumes de Dados
- Ferramentas para lidar com o Volume
- as ferramentas de manipulação da variedade
- Ferramentas para movimentação de Velocidade
- ferramentas amplamente usadas de Ciência dos dados
- Reporting and Business Intelligence
- análise preditiva e Ferramentas de aprendizagem de máquinas
- Frameworks Common for Deep Learning
- Ferramentas de Inteligência Artificial
- End Notes
visão geral
- há uma infinidade de ferramentas de ciência dos dados lá fora – Qual é que você deve pegar?
- aqui está uma lista de mais de 20 ferramentas de ciência dos dados que atendem a diferentes fases do ciclo de vida da ciência dos dados
introdução
quais são as melhores ferramentas para executar tarefas de ciência dos dados? E que ferramenta você deve pegar como um recém-chegado em Informática?Tenho certeza que você fez (ou procurou) estas perguntas em algum momento de sua própria jornada de ciência dos dados. Estas são perguntas válidas! Não há escassez de ferramentas de ciência dos dados na indústria. Escolher um para a sua viagem e carreira pode ser uma decisão complicada.
vamos encarar-a ciência dos dados é um vasto espectro e cada um dos seus domínios requer tratamento de dados de uma forma única que leva muitos analistas/cientistas de dados para a confusão. E se você é um líder de negócios, você se depararia com questões cruciais sobre as ferramentas que você e sua empresa escolhem, pois pode ter um impacto a longo prazo.Então, novamente, a questão é qual ferramenta de ciência de dados você deve escolher?
neste artigo, vou tentar esclarecer esta confusão listando as ferramentas amplamente utilizadas no espaço de ciência de dados, discriminadas por seu uso e pontos fortes. Então, vamos começar!
e se você é um novato na aprendizagem de máquinas e / ou análise de negócios, ou está apenas começando, eu encorajo você a alavancar uma iniciativa incrível pela análise Vidhya chamado desbloquear 2020. Cobrindo dois programas abrangentes-Machine Learning Starter Program e o Business Analytics Starter Program-esta iniciativa está ligada ao tempo, então você precisa se inscrever o mais rápido possível para dar à sua carreira de ciência dos dados um enorme impulso!
Índice
- Mergulho em Grandes Dados – Ferramentas para lidar com Big Data
- Volume
- Diversas
- Volume
- Ferramentas para Ciência de Dados
- Relatórios e Business Intelligence
- modelos de previsão e de Aprendizagem de Máquina
- Inteligência Artificial
de Ciência de Dados Ferramentas para Grandes volumes de Dados
Para verdadeiramente compreender o significado por trás de Grandes volumes de Dados, é importante entender os princípios básicos que definem dados como big data. Estes são conhecidos como os 3 V de grandes dados:
- Volume
- Diversas
- Velocidade
Ferramentas para lidar com o Volume
Como o nome sugere, o volume se refere à escala e à quantidade de dados. Para entender a escala dos dados de que estou falando, você precisa saber que mais de 90% dos dados no mundo foram criados nos últimos dois anos!
ao longo da década, com o aumento da quantidade de dados, a tecnologia também se tornou melhor. A diminuição dos custos computacionais e de armazenamento tornou muito mais fácil a recolha e armazenamento de enormes quantidades de dados.
o volume dos dados define se se qualifica como dados grandes ou não.
quando temos dados que variam de 1Gb a cerca de 10Gb, as ferramentas tradicionais de ciência dos dados tendem a funcionar bem nestes casos. O que são estas ferramentas?Microsoft Excel-Excel prevalece como a ferramenta mais fácil e mais popular para lidar com pequenas quantidades de dados. A quantidade máxima de linhas que suporta é apenas uma sombra acima de 1 milhão e uma folha pode segurar apenas até 16.380 colunas de cada vez. Estes números simplesmente não são suficientes quando a quantidade de dados é grande.
- Microsoft Access – é uma ferramenta popular da Microsoft que é usada para armazenamento de dados. Bases de dados menores até 2Gb podem ser tratadas suavemente com esta ferramenta, mas além disso, ela começa a rachar.
- o SQL-SQL é um dos sistemas de gestão de dados mais populares desde a década de 1970. foi a solução de base de dados primária por algumas décadas. SQL ainda permanece popular, mas há uma desvantagem-torna-se difícil escalá-lo à medida que o banco de dados continua a crescer.
temos coberto alguns dos instrumentos básicos até agora. É hora de soltar as Armas Grandes agora! Se seus dados são superiores a 10Gb até o armazenamento maior que 1Tb+, então você precisa implementar as ferramentas que mencionei abaixo:
- Hadoop – é uma estrutura distribuída de código aberto que gerencia o processamento e armazenamento de dados para grandes dados. É provável que você se depare com esta ferramenta sempre que você construir um projeto de aprendizagem de máquina do zero.
- Colmeia – é um armazém de Dados construído em cima de Hadoop. Hive fornece uma interface semelhante a SQL para consultar os dados armazenados em vários bancos de dados e sistemas de arquivos que se integram com o Hadoop.
as ferramentas de manipulação da variedade
referem-se aos diferentes tipos de dados existentes. O tipo de dados pode ser um desses – dados estruturados e não estruturados.
Vamos através de exemplos caindo sob a égide desses diferentes tipos de dados:
Tome um momento para observar estes exemplos e correlacioná-los com os seus dados do mundo real.
como você poderia ter observado no caso de dados estruturados, há uma certa ordem e estrutura para estes tipos de dados, enquanto no caso de dados não estruturados, os exemplos não seguem qualquer tendência ou padrão. Por exemplo, o feedback do cliente pode variar em comprimento, sentimentos e outros fatores. Além disso, estes tipos de dados são enormes e diversificados.
pode ser muito difícil lidar com este tipo de dados, por isso quais são as diferentes ferramentas de ciência dos dados disponíveis no mercado para gerir e lidar com estes diferentes tipos de dados?
as duas bases de dados mais comuns são SQL e NoSQL. A SQL tem sido o operador dominante no mercado durante vários anos antes de a NoSQL ter surgido.
alguns exemplos para SQL são Oracle, MySQL, SQLite, enquanto NoSQL consiste em bases de dados populares como MongoDB, Cassandra, etc. Estas bases de dados NoSQL estão vendo números de adoção enormes por causa de sua capacidade de escalar e lidar com dados dinâmicos.
Ferramentas para movimentação de Velocidade
o terceiro e último V representa a velocidade. Esta é a velocidade a que os dados são capturados. Isto inclui dados em tempo real e não em tempo real. Vamos falar principalmente dos dados em tempo real.Temos muitos exemplos à nossa volta que capturam e processam dados em tempo real. O mais complexo é o sensor de dados coletados por auto-condução carros. Imagine estar em um carro de auto-condução – o carro tem que coletar dinamicamente e processar dados sobre a sua faixa de rodagem, distância de outros veículos, etc. tudo ao mesmo tempo!
alguns outros exemplos de dados em tempo real a serem recolhidos são::
- CCTV
- Stock trading
- fraude na detecção de transacções de cartão de crédito
- rede de dados-redes sociais (Facebook, Twitter, etc.)
sabias?
mais de 1Tb de dados são gerados durante cada sessão de comércio na bolsa de valores de Nova Iorque!
Now, let’s head on some of the commonly used data science to handle real-time data data:
- Apache Kafka-Kafka é uma ferramenta de código aberto do Apache. É usado para construir oleodutos de dados em tempo real. Algumas das vantagens de Kafka são-é culpa-tolerante, realmente rápido, e usado na produção por um grande número de organizações.
- Apache Storm-esta ferramenta do Apache pode ser usada com quase todas as linguagens de programação. Pode processar até 1 milhão de tuplas por segundo e é altamente escalável. É uma boa ferramenta para considerar para alta velocidade de dados.
- Amazon Kinesis – esta ferramenta da Amazon é semelhante ao Kafka, mas vem com um custo de assinatura. No entanto, é oferecido como uma solução fora da caixa, o que o torna uma opção muito poderosa para as organizações.
- Apache Flink-Flink é mais uma ferramenta do Apache que podemos usar para dados em tempo real. Algumas das vantagens do Flink são alta performance, tolerância a falhas e gestão eficiente da memória.
Agora que temos uma compreensão sólida sobre as diferentes ferramentas comumente sendo usados para trabalhar com Grandes volumes de Dados, vamos passar para o segmento onde você pode tirar proveito dos dados pela aplicação de avançadas técnicas de aprendizado de máquina e algoritmos.
ferramentas amplamente usadas de Ciência dos dados
se você está criando um novo projeto de ciência dos dados, você terá uma tonelada de perguntas em mente. Isso é verdade independentemente do seu nível – seja um cientista de dados, um analista de dados, um gerente de projeto, ou um executivo sénior de ciência de dados.Algumas das perguntas que você vai enfrentar são::
- quais as ferramentas que você deve usar em diferentes domínios da ciência dos dados?
- devo comprar licenças para as ferramentas ou optar por uma de código aberto?, e assim por diante
nesta seção, vamos discutir algumas das ferramentas populares de ciência dos dados usadas na indústria de acordo com diferentes domínios.A Ciência dos dados é um termo amplo em si mesma e consiste de uma variedade de domínios diferentes e cada domínio tem sua própria importância e complexidade de negócios que é maravilhosamente capturada na imagem abaixo.:
o espectro da ciência dos dados consiste em vários domínios e estes domínios são representados pela sua complexidade relativa e pelo valor comercial que fornecem. Vamos pegar cada um dos pontos que mostrei no espectro acima.
Reporting and Business Intelligence
let’s begin with the lower end of the spectrum. Permite a uma organização identificar tendências e padrões de modo a tomar decisões estratégicas cruciais. Os tipos de análise variam de MIS, análise de dados, até dashboarding.
as ferramentas comumente usadas nestes domínios são::
- Excel-ele dá uma gama diversificada de opções, incluindo tabelas pivô e gráficos que permitem que você faça a análise em tempo duplo-rápido. Este é, em suma, o canivete suíço de ferramentas de análise/ciência de dados
- QlikView – permite consolidar, pesquisar, visualizar e analisar todas as suas fontes de dados com apenas alguns cliques. É uma ferramenta fácil e intuitiva para aprender o que a torna tão popular.
- Tableau-está entre as ferramentas de visualização de dados mais populares no mercado hoje. Ele é capaz de lidar com grandes quantidades de dados e até mesmo oferece funções e parâmetros de cálculo do tipo Excel. Tableau é muito apreciado por causa de seu painel limpo e interface de história.
- Microestratégia-é mais uma ferramenta BI que suporta painéis, distribuições automatizadas e outras tarefas chave de análise de dados.
- PowerBI-é uma oferta da Microsoft no espaço Business Intelligence (BI). O PowerBI foi construído para se integrar com a Microsoft technologies. Então, se sua organização tem um Sharepoint ou usuário de banco de dados SQL, você e sua equipe vão adorar trabalhar nesta ferramenta.
- Google Analytics-se perguntando como o Google Analytics chegou a esta lista? Bem, o marketing digital desempenha um papel importante na transformação das empresas e não há melhor ferramenta do que esta para analisar os seus esforços digitais.
análise preditiva e Ferramentas de aprendizagem de máquinas
subindo ainda mais a escada, as apostas apenas ficaram altas em termos de complexidade, bem como o valor de Negócio! Este é o domínio de onde vem o pão e a manteiga da maioria dos cientistas de dados. Alguns dos tipos de problemas que você vai resolver São modelagem estatística, previsão, redes neurais e aprendizado profundo.
vamos entender as ferramentas comumente usadas neste domínio:Python-esta é uma das línguas mais dominantes para a ciência dos dados na indústria hoje por causa de sua facilidade, flexibilidade, natureza de código aberto. Ganhou popularidade e aceitação rápida na comunidade ML.
- R-é outra linguagem muito comumente usada e respeitada na ciência dos dados. R tem uma comunidade próspera e incrivelmente solidária e vem com uma infinidade de pacotes e bibliotecas que suportam a maioria das tarefas de aprendizado de máquina.
- Apache Spark-Spark foi aberto pela UC Berkley em 2010 e desde então tornou-se uma das maiores comunidades em big data. É conhecido como o canivete suíço do Big data analytics, pois oferece várias vantagens como flexibilidade, velocidade, poder computacional, etc.
- Julia – é uma linguagem próxima e está sendo apontado como o sucessor de Python. Ele ainda está em sua fase nascente e será interessante ver como ele funciona no futuro.
- Jupyter Notebooks-estes notebooks são amplamente utilizados para codificação em Python. Embora seja predominantemente usado em Python, ele também suporta outras linguagens como Julia, R, etc.
as ferramentas que discutimos até agora são verdadeiras ferramentas de código aberto. Você não precisa pagar por eles ou comprar quaisquer licenças extras. Eles têm comunidades prósperas e ativas que mantêm e divulgam atualizações regularmente.Agora, vamos verificar algumas ferramentas premium que são reconhecidas como líderes da indústria:
- SAS-é uma ferramenta muito popular e poderosa. É predominantemente usado nos setores bancário e financeiro. Tem uma participação muito elevada em organizações privadas como American Express, JP Morgan, Mu Sigma, Royal Bank Of Scotland, etc.
- SPSS-abreviação para pacote estatístico para Ciências Sociais, SPSS foi adquirido pela IBM em 2009. Ele oferece análise estatística avançada, uma vasta biblioteca de algoritmos de aprendizagem de máquinas, análise de texto, e muito mais.
- Matlab-Matlab é realmente subestimado na paisagem organizacional, mas é amplamente utilizado na academia e divisões de pesquisa. Ele perdeu muito terreno nos últimos tempos para pessoas como Python, R e SAS, mas as universidades, especialmente nos EUA, ainda ensinam muitos cursos de graduação usando Matlab.
Frameworks Common for Deep Learning
Deep Learning requires high computational resources and needs special frameworks to use those resources effectively. Devido a isso, você provavelmente necessitaria de uma GPU ou uma TPU.
vejamos alguns dos quadros utilizados para a aprendizagem profunda nesta secção.
- TensorFlow-é facilmente a ferramenta mais utilizada na indústria de hoje. O Google pode ter alguma coisa a ver com isso!
- PyTorch-este quadro de aprendizagem profunda super flexível está a dar grande concorrência ao TensorFlow. PyTorch tem vindo recentemente a entrar na ribalta e foi desenvolvido por pesquisadores no Facebook
- Keras e Caffe são outros frameworks usados extensivamente para construir aplicações de aprendizagem profunda
Ferramentas de Inteligência Artificial
a era do AutoML está aqui. Se você não ouviu falar dessas ferramentas, então é uma boa hora para se educar! Isto pode muito bem ser o que você, como cientista de dados, estará trabalhando em um futuro próximo.
algumas das ferramentas AutoML mais populares são AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, H20’s Driverless AI, e Amazon’s Lex. O AutoML é esperado para ser a próxima grande coisa na comunidade AI/ML. Visa eliminar ou reduzir o lado técnico das coisas para que os líderes empresariais possam usá-lo para tomar decisões estratégicas.
estas ferramentas serão capazes de automatizar o gasoduto completo!
End Notes
we have discussed the data collection engine and the tools required to accomplish the pipeline for retrieval, processing, and storage of data. A ciência dos dados consiste em um amplo espectro de domínio e cada domínio tem seu próprio conjunto de ferramentas e frameworks.A escolha da sua ferramenta de ciência de dados irá, muitas vezes, depender da sua escolha pessoal, do seu domínio ou projecto e, claro, da sua organização.