Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise
()
Sobre este e-book
Neste livro, Tatiana Escovedo e Adriano Koshiyama focam no processo e nas técnicas relacionadas aos algoritmos preditivos mais comumente utilizados, mas mostrando também a importância da etapa de preparação dos dados brutos, limpeza e análise. Você vai aprender como utilizar Data Science para resolver problemas e agregar valor ao negócio, aprendendo com os dados. O trajeto inicia com uma introdução a conceitos de Estatística e Álgebra Linear, passando para o tema Pré-processamento de dados, uma etapa importantíssima para o entendimento do problema e preparação dos dados para a aplicação dos algoritmos de Machine Learning, chegando aos modelos de Classificação, Regressão, Associação e Agrupamento. Todos os conceitos teóricos apresentados serão complementados com exemplos práticos na linguagem R.
Leia mais títulos de Tatiana Escovedo
Engenharia de Software para Ciência de Dados: Um guia de boas práticas com ênfase na construção de sistemas de Machine Learning em Python Nota: 0 de 5 estrelas0 notas
Relacionado a Introdução a Data Science
Ebooks relacionados
Big Data: Técnicas e tecnologias para extração de valor dos dados Nota: 4 de 5 estrelas4/5Pandas Python: Data Wrangling para Ciência de Dados Nota: 0 de 5 estrelas0 notasMachine Learning: Introdução à classificação Nota: 0 de 5 estrelas0 notasPython De A A Z Nota: 0 de 5 estrelas0 notasPostgreSQL: Banco de dados para aplicações web modernas Nota: 5 de 5 estrelas5/5MySQL: Comece com o principal banco de dados open source do mercado Nota: 4 de 5 estrelas4/5Programação Funcional: Uma introdução em Clojure Nota: 4 de 5 estrelas4/5Django de A a Z: Crie aplicações web rápidas, seguras e escaláveis com Python Nota: 0 de 5 estrelas0 notasAprenda a programar com Python: Descomplicando o desenvolvimento de software Nota: 5 de 5 estrelas5/5Big Data Nota: 5 de 5 estrelas5/5Estruturas de Dados: Domine as práticas essenciais em C, Java, C#, Python e JavaScript Nota: 0 de 5 estrelas0 notasBig Data para Executivos e Profissionais de Mercado - Terceira Edição: Big Data Nota: 0 de 5 estrelas0 notasInteligência Artificial como serviço: Uma introdução aos Serviços Cognitivos da Microsoft Azure Nota: 3 de 5 estrelas3/5Lógica de programação com Portugol: Mais de 80 exemplos, 55 exercícios com gabarito e vídeos complementares Nota: 0 de 5 estrelas0 notasArquitetura de Nuvem - Amazon Web Services (AWS) Nota: 4 de 5 estrelas4/5Aplicações web real-time com Node.js Nota: 5 de 5 estrelas5/5Mestrado e Doutorado em Computação: Um guia para iniciação e sobrevivência, sem academês Nota: 0 de 5 estrelas0 notasAlgoritmos em Java: Busca, ordenação e análise Nota: 5 de 5 estrelas5/5Tuning de SQL: Melhore a performance de suas aplicações Oracle Nota: 0 de 5 estrelas0 notasInteligência artificial: Análise de dados e inovação para iniciantes Nota: 0 de 5 estrelas0 notasGestão e Governança de Dados: Promovendo dados como ativo de valor nas empresas Nota: 0 de 5 estrelas0 notasModernização de Aplicação no Microsoft Azure: Explorando o potencial da nuvem Nota: 0 de 5 estrelas0 notasGraphQL: A revolucionária linguagem de consulta e manipulação de dados para APIs Nota: 0 de 5 estrelas0 notasApache Lucene: Sistemas de busca com técnicas de Recuperação de Informação Nota: 0 de 5 estrelas0 notasMétricas Ágeis: Obtenha melhores resultados em sua equipe Nota: 0 de 5 estrelas0 notasManual de sobrevivência do novo programador: Dicas pragmáticas para sua evolução profissional Nota: 4 de 5 estrelas4/5Orientação a Objetos em C#: Conceitos e implementações em .NET Nota: 5 de 5 estrelas5/5Agile: Desenvolvimento de software com entregas frequentes e foco no valor de negócio Nota: 5 de 5 estrelas5/5CodeIgniter: Produtividade na criação de aplicações web em PHP Nota: 0 de 5 estrelas0 notas
Computadores para você
Excel Para Iniciantes Nota: 0 de 5 estrelas0 notasO plano de marketing em 4 etapas: Estratégias e passos chave para criar planos de marketing que funcionem Nota: 0 de 5 estrelas0 notasInteligência artificial: O guia completo para iniciantes sobre o futuro da IA Nota: 5 de 5 estrelas5/5Lógica de programação com Portugol: Mais de 80 exemplos, 55 exercícios com gabarito e vídeos complementares Nota: 0 de 5 estrelas0 notasDescomplicando Passo A Passo Deep Web Nota: 5 de 5 estrelas5/5Chatgpt O Roteiro Do Milionário Nota: 0 de 5 estrelas0 notasMarketing Do Instagram (guia Para Iniciantes 2023) Nota: 0 de 5 estrelas0 notasPower Bi Black Belt Nota: 0 de 5 estrelas0 notasProgramação Python Ilustrada Para Iniciantes E Intermediários: Abordagem “aprenda Fazendo” – Passo A Passo Nota: 0 de 5 estrelas0 notasComo Criar Um Ebook De Alta Conversão Nota: 4 de 5 estrelas4/5Ler e escrever bem: um aprendizado importante para vencer no ENEM e na vida Nota: 0 de 5 estrelas0 notasFundamentos De Banco De Dados Nota: 0 de 5 estrelas0 notasO Que Os Pobres Não Sabem Sobre Os Ricos Nota: 5 de 5 estrelas5/5Chatgpt Ai - Contextos, Comandos, Dicas. Nota: 0 de 5 estrelas0 notasGanhe Dinheiro Criando Um Jogo Para Celular Nota: 0 de 5 estrelas0 notasPacote Microsoft Office Capacitação Nota: 0 de 5 estrelas0 notasA Bíblia Do Swing Trader Nota: 0 de 5 estrelas0 notasSucesso Nos Anúncios Do Instagram Nota: 0 de 5 estrelas0 notasMega-sena: A Ciência De Dados Por Trás Dos Números Nota: 0 de 5 estrelas0 notasEstruturas de Dados: Domine as práticas essenciais em C, Java, C#, Python e JavaScript Nota: 0 de 5 estrelas0 notasAfinal, O Que É Business Intelligence? Nota: 4 de 5 estrelas4/5Inteligência artificial: Como aprendizado de máquina, robótica e automação moldaram nossa sociedade Nota: 0 de 5 estrelas0 notasJava O Guia Completo Nota: 0 de 5 estrelas0 notasCurso Excel Nota: 0 de 5 estrelas0 notasSegredos Ocultos Da T.i. Nota: 0 de 5 estrelas0 notasIntrodução e boas práticas em UX Design Nota: 5 de 5 estrelas5/5Descomplicando o Docker 2a edição Nota: 0 de 5 estrelas0 notasEngenharia de Requisitos: software orientado ao negócio Nota: 5 de 5 estrelas5/5
Avaliações de Introdução a Data Science
0 avaliação0 avaliação
Pré-visualização do livro
Introdução a Data Science - Tatiana Escovedo
Sumário
ISBN
Agradecimentos
Sobre os autores
Prefácio
1. Introdução a Data Science
2. Introdução a R
3. Conceitos básicos de estatística e álgebra linear
4. Pré-processamento de dados
5. Modelos de Classificação
6. Práticas de Classificação
7. Modelos de Regressão
8. Práticas de Regressão
9. Modelos de Associação e Agrupamento
10. Práticas de Associação e Agrupamento
11. Conclusão
ISBN
Impresso e PDF: 978-85-7254-054-4
EPUB: 978-85-7254-055-1
MOBI: 978-85-7254-056-8
Caso você deseje submeter alguma errata ou sugestão, acesse http://erratas.casadocodigo.com.br.
Agradecimentos
Os autores gostariam de agradecer a todos aqueles que de certa forma contribuíram para que o projeto deste livro saísse do papel e se tornasse realidade. Principalmente, à Editora Casa do Código e a Vivian Matsui, por terem nos dado a oportunidade de publicar este livro e por terem pacientemente aguardado os novos conteúdos.
Tatiana Escovedo
Aos meus pais Cristina e Mauricio, que me proporcionaram uma educação de qualidade ao longo de toda a minha vida, ao meu irmão Rafael e a todos os professores que tive durante minha formação acadêmica, que sempre estimularam minha vontade de aprender, em especial a meus orientadores de mestrado e doutorado, prof. Carlos Lucena e prof. Marley Vellasco. Ao meu companheiro, Marcos Kalinowski, por todo o amor e companheirismo em todos os segmentos da minha vida.
Aos meus alunos e ex-alunos da PUC-Rio, que me estimulam todos os dias a aprender mais e inventar novas maneiras para apresentar conceitos complexos de forma leve e divertida. Aos meus amigos pessoais do Liceu Franco Brasileiro, do Studio Bertha Rosanova e da PUC-Rio e também aos colegas que viraram amigos da Petrobras, que admiro muito e que me estimulam a me tornar a cada dia uma profissional melhor. Também ao meu primeiro gerente, Zair Ramos, que sempre me incentivou desde meus primeiros anos de profissão.
Finalmente, ao meu amigo e coautor deste livro, Adriano Koshiyama, que adotei como filho
em 2012 e que desde então é o meu maior parceiro nos trabalhos acadêmicos e profissionais de Data Science.
Adriano Koshiyama
À minha mãe Sayonara e ao meu pai Adriano por todos os incentivos criados e exemplos dados para a formação da pessoa que sou. Aos meus irmãos pelos momentos compartilhados, felizes e tristes, no decorrer de minha vida. Obrigado a vocês por tudo.
Aos meus orientadores de graduação, prof. Maria Cristina Lorenzon e prof. Wagner Tassinari, por me educarem em análise de dados, teoria e prática, assim como por me darem a primeira oportunidade em pesquisa acadêmica. Aos meus orientadores de mestrado, prof. Marley Vellasco e prof. Ricardo Tanscheit, por me introduzirem ao mundo da Inteligência Artificial e acreditarem no meu potencial para pesquisa, ensino e extensão. Ao meu orientador de doutorado, prof. Philip Treleaven, pela mentoria acadêmica, intelectual e pessoal.
Por fim, à minha amiga e coautora deste livro, Tatiana Escovedo, que me adotou como mãe
e até hoje tem tomado conta de mim. Ela foi a maior incentivadora para a escrita e conclusão desta obra.
Sobre os autores
Tatiana Escovedo é Doutora em Engenharia Elétrica pela Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio, 2015) na área de Métodos de Apoio a Decisão (Machine Learning e Redes Neurais), Mestre em Informática (PUC-Rio, 2007) na área de Engenharia de Software e Bacharel em Informática (PUC-Rio, 2005). Tem experiência na área de Ciência da Computação, com ênfase em Engenharia de Software e Ciência de Dados, atuando principalmente nos seguintes temas: Desenvolvimento de Sistemas, Machine Learning, Business Intelligence e Sistemas Colaborativos. Desde 2006, é Analista de Sistemas da Petrobras e, desde 2009, é Professora e Coordenadora de cursos de pós-graduação Lato Sensu da PUC-Rio: Especialização em Análise e Projeto de Sistemas e Especialização em Ciência de Dados. Com múltiplos interesses, é apaixonada por ensinar, aprender e resolver problemas com soluções criativas. Nas horas vagas, é bailarina e pensa em maneiras de mudar o mundo. Mais informações podem ser encontradas em seu perfil no LinkedIn: https://www.linkedin.com/in/tatiana-escovedo/ e no seu currículo Lattes: http://lattes.cnpq.br/9742782503967999.
Tatiana EscovedoFigura -1.1: Tatiana Escovedo
Adriano Koshiyama é Doutorando em Ciência da Computação desde 2016 pela University College London (UCL), Mestre em Engenharia Elétrica pela Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio, 2014) na área de Métodos de Apoio a Decisão (Machine Learning, Estatística e Otimização) e Bacharel em Economia Pela UFRRJ (2011). Entre 2014 e 2015, foi Assistente de Pesquisa em projetos de P&D e Professor Assistente da PUC-Rio. Trabalhou como Consultor da NanoBusiness Information and Innovation na área de tecnologia e como Cientista de Dados na Sieve Price Intelligence, posteriormente adquirida pela B2W Digital SA, sendo responsável principalmente pelas estratégias de precificação automática. Entre 2016 e 2018, atuou na Nomura International PLC em seu Quant Strategies Desk (Renda Fixa) e na MindX como um cientista de dados, desenvolvendo produtos de aprendizado de máquina para avaliação psicométrica. Recentemente, ele foi estagiário no AI Labs no Goldman Sachs, trabalhando como estrategista em Machine Learning, assim como estudante associado no Alan Turing Institute. Seus principais tópicos de pesquisa estão relacionados a Ciência de Dados, Machine Learning, métodos estatísticos, otimização e finanças. Mais informações podem ser encontradas em seu perfil no LinkedIn: https://www.linkedin.com/in/koshiyama/ e no seu currículo Lattes: http://lattes.cnpq.br/3216456737953353.
Adriano KoshiyamaFigura -1.2: Adriano Koshiyama
Prefácio
Quando iniciei meus estudos em Data Science (ou Ciência de Dados, em português), há muitos anos, sentia que a maioria dos livros existentes na literatura era muito complexa, recheada de demonstrações matemáticas e detalhes técnicos muitas vezes assustadores para um iniciante na área, especialmente aqueles cuja base matemática não era tão profunda.
Cada pessoa tem um estilo preferido de aprendizagem e, apesar de muitos preferirem conteúdos detalhados e profundos, o estilo que sempre funcionou para mim foi o que eu chamo de aprendizado cebola
, pois é feito em camadas: gosto de ter primeiro uma visão geral de todos os assuntos e, depois, ir me aprofundando em determinados tópicos de acordo com a minha necessidade.
Além disso, a maioria dos livros técnicos é escrita em inglês e muitos estudantes têm dificuldades de compreensão do idioma, ou mesmo preferem ler em português. Desta forma, surgiu a ideia de escrever um livro introdutório de Ciência de Dados em português, que pudesse guiar os aprendizes iniciantes nesta área fascinante, e estimulá-los a se desenvolverem em tópicos mais avançados.
Esperamos que a leitura seja agradável e que este livro possa ser útil na sua caminhada! Bons estudos.
Público-alvo e organização do livro
Este livro é indicado para profissionais, estudantes e professores que desejem iniciar seus estudos em Data Science e algoritmos de Machine Learning e que tenham noções de conceitos matemáticos e de lógica de programação.
O objetivo principal deste livro é mostrar como utilizar Data Science para resolver problemas e gerar produtos que agreguem valor ao negócio, aprendendo com os dados. Assim, o foco deste livro é no processo e nas técnicas relacionadas aos algoritmos preditivos mais comumente utilizados em Ciência de Dados, mas mostrando também a importância da etapa de preparação dos dados brutos, limpeza e análise exploratória.
Passaremos pelas etapas necessárias para resolução de problemas de Data Science do início ao fim, contemplando teoria e prática. Para tal, todos os conceitos teóricos apresentados serão complementados com exemplos práticos na linguagem R. O capítulo 2 explica como instalar os requisitos necessários para trabalhar com R em seu computador e traz uma introdução aos principais comandos da linguagem.
O capítulo 3 traz uma introdução a conceitos de Estatística e Álgebra Linear para que seja possível compreender melhor o funcionamento dos algoritmos apresentados no livro. Serão apresentados exemplos práticos com a linguagem R para melhor entendimento dos conceitos.
O capítulo 4 aborda o tema Pré-processamento de dados, uma etapa importantíssima para o entendimento do problema e preparação dos dados para a aplicação dos algoritmos de Machine Learning, a seguir.
Os capítulos 5 e 6 abordam problemas de Classificação, e os capítulos 7 e 8, por sua vez, problemas de Regressão. Os capítulos 9 e 10 abordam os problemas de Associação e Agrupamento, finalizando os algoritmos de Machine Learning apresentados neste livro.
Finalmente, o capítulo 11 conclui o livro, trazendo um projeto completo de Data Science do início ao fim e sugestões de aprofundamento dos estudos.
Código-fonte
Todos os códigos e bases de dados utilizados neste livro estão disponíveis no repositório do GitHub: https://github.com/tatianaesc/introdatascience.
Capítulo 1
Introdução a Data Science
1.1 Banco de dados ou bando de dados?
Nosso cenário mundial atual é caracterizado pela criação e crescimento de inúmeras bases de dados, diariamente e em velocidade exponencial. Ainda em 2017, estimava-se que cerca de 90% dos dados armazenados na Web tinham sido gerados nos últimos 2 anos (DOMO, 2017) e, em 2020, a internet já alcançava 59% da população mundial (DOMO, 2020). Em 2014, em um relatório da EMC (EMC, 2014), já era prevista para a década seguinte uma taxa de crescimento mundial de dados em torno de 40%, alcançando cerca de 44 zettabytes (44 trilhões de GB) de informações digitais em todo o mundo. Estes dados são gerados, em sua maioria, por aplicativos e web sites de redes sociais, bancos, e-commerce e sistemas internos de empresas, como ilustra a figura a seguir.
Principais fontes de dados da atualidadeFigura 1.1: Principais fontes de dados da atualidade
Para processar e obter informação útil a partir destes dados, é necessário automatizar diversas tarefas de coleta, processamento e análise de dados para tomada de decisão, uma vez que, devido ao grande volume de dados disponível, torna-se inviável realizar estas tarefas manualmente. Nesse contexto, surge a Inteligência Artificial, que visa simular o comportamento de um cérebro humano utilizando máquinas.
De forma mais técnica e de acordo com a definição do Gartner Group (https://www.gartner.com/en), Mineração de Dados (Data Mining) é o processo de descoberta de novas e significativas correlações, padrões e tendências em grandes volumes de dados, por meio do uso de técnicas e reconhecimento de padrões, estatística e outras ferramentas matemáticas. Para encontrar padrões, o processo de Data Mining utiliza técnicas de Machine Learning (Aprendizado de Máquina).
Geralmente, Machine Learning se concentra na descoberta de padrões ou de fórmulas matemáticas que expliquem o relacionamento entre os dados, sem necessariamente se preocupar com seu grau de utilidade ou aplicação ao negócio, e estuda formas de automatização de tarefas inteligentes que seriam difíceis de serem realizadas por humanos. Já em Data Mining, o objetivo principal é a extração do conhecimento pelo analista, não levando em conta o tempo necessário ou a natureza das atividades para esta tarefa.
Assim, pode-se dizer que em Machine Learning o aprendizado é o objetivo principal, enquanto no Data Mining, o aprendizado é um meio para extração de conhecimento (que deve ser avaliado e aplicado). Também se pode dizer que Machine Learning é um subconjunto das técnicas utilizadas na área de Inteligência Artificial, pois usa algoritmos baseados em matemática e estatística para realizar a tarefa de aprendizado.
Apesar de as técnicas de reconhecimento de padrões e de análise exploratória de dados utilizadas em Data Mining e Machine Learning serem antigas e em sua grande parte provenientes da Estatística, elas só passaram a ser efetivamente usadas para exploração de dados nos últimos anos, devido a fatores como: maior volume de dados disponível, criação e popularização de Data Warehouses (grandes armazéns de dados, com arquitetura de dados voltada para a tomada de decisão), recursos computacionais potentes, forte competição empresarial e criação de diversos softwares.
O conceito de Data Science (ou Ciência de Dados), por sua vez, é mais amplo: refere-se à coleta de dados de várias fontes para fins de análise, com o objetivo de apoiar a tomada de decisões, utilizando geralmente grandes quantidades de dados, de forma sistematizada. Quase sempre, além de olhar para os dados passados para entender o comportamento dos mesmos (atividade conhecida como Business Intelligence - BI), deseja-se também realizar análises de forma preditiva, por exemplo, utilizando técnicas de Data Mining e/ou Machine Learning.
Assim, Data Science não é uma ferramenta, mas sim um conjunto de métodos com o objetivo apoiar decisões de negócio baseadas em dados. Por se tratar de uma área muito vasta, optamos por focar este livro no processo e nas técnicas relacionadas aos algoritmos preditivos de Machine Learning mais comumente utilizados, mas mostrando também a importância da etapa de preparação dos dados brutos, limpeza e análise. Desta forma, é possível aplicar os algoritmos e gerar um produto que agregue valor ao negócio, ou seja, aplicar a ciência para aprender com os dados, e não simplesmente executar os algoritmos. Vale a pena ressaltar, entretanto, que a literatura especializada muitas vezes utiliza os termos Data Science, Machine Learning e Data Mining de forma intercambiável e/ou complementar, muito provavelmente porque este tema tem crescido e se popularizado com grande velocidade nos últimos anos, faltando, ainda, uma melhor organização da literatura quanto à nomenclatura utilizada.
Para trabalhar com Data Science, como o nome já indica, precisamos de dados, e quanto mais dados (desde que sejam de qualidade), melhor, pois será mais fácil de encontrar os padrões ou fórmulas matemáticas que os expliquem. Estes dados podem ser oriundos de fontes (estruturadas ou não) como planilhas, documentos, imagens, bancos de dados (relacionais ou não), Data Warehouses e Data Lakes e, na prática, têm qualidade ruim, sendo necessário gastar um tempo considerável na sua preparação, limpeza e enriquecimento. Assim, para ser capaz de realizar todas as etapas necessárias para efetivamente