R faz estatísticas. Você pode vê-lo como um concorrente de sistemas analíticos como SAS Analytics, para não mencionar os pacotes mais simples como StatSoft ou Minitab. Muitos estatísticos profissionais, sejam do governo, nos negócios ou na indústria farmacêutica passam suas carreiras usando IBM SPSS ou SAS sem escrever uma linha de código R. Por isso, em parte, a decisão de aprender e de usar R é uma questão de cultura corporativa e como você prefere trabalhar. Eu uso várias ferramentas como Cientista de Dados, mas a maioria do que eu faço é feito em R. Estes exemplos mostram o porquê:
- R é uma linguagem de script poderosa. R é uma linguagem de script poderosa com acesso a a expressões regulares para a manipulação de texto. Dados não-estruturados exigem os recursos de uma linguagem de programação e, embora SAS e SPSS tenham linguagens de script para tarefas que vão além do menu, R foi escrito como uma linguagem de programação e assim é uma ferramenta melhor para essa finalidade.
- R está liderando o caminho. Muitos novos desenvolvimentos na área de estatística, aparecem primeiro como pacotes R antes de seguirem seu caminho em plataformas comerciais.
- Integração com a publicação do documento. R integra-se facilmente com o sistema de publicação de documentos LaTeX, o que significa que os resultados estatísticos e gráficos a partir de R podem ser incorporados em documentos com qualidade de publicação. Isto não é para todos, mas se você quer escrever um livro sobre as suas análises de dados ou simplesmente não gosta de copiar seus resultados em um documento de processamento de texto, o caminho mais curto e mais elegante encontra-se através de R e LaTeX.
- Sem custo. R é gratuito. Mesmo para uma grande empresa, é bom saber que você pode utilizar uma solução de análise de dados totalmente gratuita e de tecnologia de ponta.
R já está no século 21
Abordagem exploratória para análise de dados tornou-se norma em projetos de dados. R apoia esta abordagem, o que pode explicar por que ele é tão popular. Orientação a objetos também ajuda R a se manter como uma linguagem atual. A solução IBM InfoSphere® Streams agora suporta R analytics para dados que são diferentes dos previstos por John Chambers (criador da linguagem). Muitos gigantes da tecnologia estão prestando cada vez mais atenção ao R.
O que R não faz bem
Para ser justo, há algumas coisas que R não faz bem. R pode não ser a melhor opção para todos os usuários:
- R não é um repositório de dados. A maneira mais fácil de inserir dados em R é inseri-los em outro lugar e em seguida importá-los para R. Esforços têm sido feitos para adicionar uma planilha de front-end para R, mas não avançaram. Não só a ausência de um recurso de planilha afeta a entrada de dados, mas também é difícil inspecionar visualmente dados no R, como você pode fazer em SPSS ou Excel.
- R torna as tarefas comuns difíceis. Na pesquisa médica, por exemplo, a primeira coisa que você faz com os dados é calcular estatísticas de resumo para todas as variáveis, enquanto listando a ocorrência de não-resposta e falta de dados. Este é um processo de três cliques em SPSS, mas R não tem nenhuma função “built-in” para calcular esta informação bastante óbvia e exibi-la em forma de tabela. Você poderia escrever algo com bastante facilidade, mas às vezes você só quer apontar e clicar.
- A curva de aprendizagem para R não é trivial. Um novato pode abrir uma plataforma estatística baseada em menus e obter resultados em minutos. Nem todo mundo quer se tornar um programador para ser um analista e talvez nem todo mundo precise.
- R é open source. A comunidade R é grande, madura e ativa e R é certamente um dos mais bem sucedidos projetos de código aberto. Este é um conceito comprovado e um produto de qualidade comprovada. Mas com qualquer produto de código aberto, a confiabilidade depende de transparência. Nós acreditamos no código porque podemos verificá-lo nós mesmos e porque outras pessoas podem verificá-lo e relatar erros. Este não é o mesmo como um projeto empresarial que se encarrega de avaliar e validar seu software. E no caso de pacotes R menos utilizados, você não tem nenhuma razão para supor que eles realmente produzem resultados corretos.
Conclusão
Preciso aprender R? Talvez não; necessidade é uma palavra forte. R é uma valiosa ferramenta para análise de dados? Certamente. A linguagem foi concebida para refletir a maneira que os estatísticos pensam e trabalham. R reforça bons hábitos de análise. Para mim, é a ferramenta certa para o trabalho.
David Matos
1 thought on “Por quê escolher R?”