O PySpark pode ser um grande consumidor de recursos, principalmente quando você está trabalhando com grandes conjuntos de dados. Ajustar as configurações pode ajudar a otimizar o uso de memória e melhorar o desempenho.
Categoria: Ciência de Dados
Engenharia de Dados Não é Engenharia de Software – Parte 2
Aqui está um segredo de engenharia de dados: os pipelines de dados raramente são testados em unidade. Os pipelines de dados geralmente são testados simplesmente implantando-os — geralmente primeiro em um ambiente de teste ou homologação.
5 Dicas Para Entrar no Mercado de Ciência de Dados
Entrar no mercado de Ciência de Dados pode ser um processo desafiador, mas existem algumas etapas que você pode seguir para aumentar suas chances de conseguir uma vaga.
7 Datasets Públicos Para Projetos de Data Science
Ter um bom portfólio de projetos para buscar vagas em Data Science é um diferencial. E isso já não é novidade! Mas encontrar bons datasets públicos pode ser um desafio. Para ajudar você, uma lista de 7 Datasets Públicos Para Projetos de Data Science.
Data Science na Indústria de Videogames
De acordo com uma estimativa da Accenture, o mercado global de videogames vale mais de US$ 300 bilhões. Vamos explorar as várias maneiras pelas quais a Ciência de Dados é usada na indústria de jogos.
Gerenciamento de Metadados na Era do Big Data
O Gerenciamento de Metadados, parte fundamental de um processo de Governança de Dados, vem mostrando cada vez mais sua importância. Vamos discutir o Gerenciamento de Metadados na Era do Big Data.
8 Conceitos Estatísticos Fundamentais Para Data Science
Neste artigo veremos 8 Conceitos Estatísticos Fundamentais Para Data Science que você precisa entender ao estudar ou trabalhar com Ciência de Dados.
3 Estratégias Para Trabalhar com Grandes Conjuntos de Dados em Python
Como Cientista de Dados, é bastante comum ter que lidar com “Big Data”, que corresponde a conjuntos de dados que, embora possam não ser tão grandes, são grandes o suficiente para fazer um computador lutar para processá-los.
O Processo de Data Science
O objetivo deste post é definir e descrever as principais etapas do Processo de Data Science. Para os iniciantes isso ajuda a compreender as técnicas e ferramentas usadas em cada parte do processo.
Por Que Você Deve Aprender Álgebra Linear Para Trabalhar com Machine Learning?
Assim como uma base sólida é essencial para um edifício, a Álgebra Linear constitui um segmento de aprendizado essencial para trabalhar com Machine Learning. Este artigo apresenta as cinco principais razões Por Que Você Deve Aprender Álgebra Linear Para Trabalhar com Machine Learning?