R é uma linguagem de programação de computadores, que é usada para manipulação de dados estatísticos e gráficos. A linguagem R é amplamente utilizada entre os estatísticos e mineradores de dados para o desenvolvimento de software estatístico e análise de dados. Pesquisas recentes mostram que a popularidade do R tem aumentado substancialmente nos últimos anos.
História
R é uma implementação da linguagem de programação S combinada com a semântica de escopo léxico e Schemas. S foi criado por John Chambers, na Bell Labs. Existem algumas diferenças importantes, mas a maior parte do código escrito para S funciona inalterado.
R foi criado por Ross Ihaka e Robert Gentleman na Universidade de Auckland, Nova Zelândia, e atualmente é desenvolvido pela equipe de Desenvolvimento do R, da qual John Chambers é um membro. O código fonte para o ambiente de software R é escrito principalmente em C, Fortran e R. R está disponível gratuitamente sob a licença GNU General Public e em vários sistemas operacionais como MAC, Windows e Linux. R usa uma interface de linha de comando, mas há também vários front-ends gráficos para ele, como RStudio.
Principais características
- Fornece acesso completo aos algoritmos e sua implementação
- Fornece um fórum permitindo aos pesquisadores explorar e expandir os métodos utilizados para analisar dados.
- É o produto de trabalho de mais de 1000 especialistas nas áreas de estatística e análise de dados.
- Permite que Cientistas de todo o mundo – e não apenas os dos países ricos – possam ter acesso as ferramentas de software necessárias para realizar pesquisas.
- Promove a investigação reprodutível (código criados como funções, podem ser reproduzidos), fornecendo ferramentas abertas e acessíveis
- As funções do R são escritas em … R! Isto permite verificar facilmente o que as funções realmente fazem.
Vantagens e Desvantagens
Vantagens |
Desvantagens |
Rápido e gratuito | Curva de aprendizagem significativa |
Pesquisadores de Estatística fornecem os seus métodos em pacotes de R | Não há suporte comercial |
Nos gráficos perde apenas para o Matlab | Trabalhando com grandes conjuntos de dados é limitada pela RAM |
Comunidade de usuários ativos | Fácil cometer erros se não conhecer bem a linguagem |
Excelente para a simulação, programação, análises intensivas de computador, etc.
|
Preparação e limpeza de dados pode ser mais confusa e mais propenso erro em R que em soluções proprietárias como SPSS ou SAS |
Interfaces com software de armazenamento de banco de dados (SQL) | Descobrir que métodos utilizar ou como usar uma função pode ser frustrante. |
Por que aprender R?
R está se tornando a língua padrão para a ciência de dados. Isso não quer dizer que é a única linguagem ou que é a melhor ferramenta para cada trabalho. É, no entanto, a mais amplamente utilizada e está aumentando em popularidade.
A O’Reilly Media realizou uma pesquisa em 2014 para entender as ferramentas que os cientistas de dados estão usando atualmente. Eles descobriram que R é a linguagem de programação mais popular (se você excluir SQL como linguagem de programação).
Olhando de forma mais ampla, existem outros rankings que olham para a popularidade das linguagens de programação em geral (não apenas entre os cientistas de dados). Por exemplo, Redmonk mede a popularidade de linguagens de programação através da análise de fóruns de discussão (Stack Overflow) e uso (no GitHub). Em seus últimos rankings, R está colocado em 13°, o mais alto de qualquer linguagem de programação estatística. O Redmonk também observou que R tem aumentado significativamente em popularidade ao longo do tempo.
Aprendendo R
Algumas boas fontes oficiais para aprender o R:
Rseek (use o Rseek ao invés do Google para buscas relacionadas ao R)
Por fim:
- Conheça as classes e seus objetos
- Como R é interativo, os erros são seus amigos!
- MAIS IMPORTANTE – quanto mais tempo você usar R, mais confortável e confiante você se tornará. Depois de fazer seu primeiro projeto real no R, você não vai olhar para trás. Eu prometo.
David Matos