Aqui estão 10 algoritmos de Machine Learning que são muito populares e ajudam a resolver inúmeros problemas de negócio.
Regressão Linear: Algoritmo usado para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. Pode ser usados em modelagem estatística (estudar a relação entre variáveis) ou Machine Learning (construir modelos preditivos). Existem vários tipos de técnicas de regressão: regressão linear, logística, polinomial, etc…
Regressão Logística: Apesar do nome, é um algoritmo de classificação usado para estimar valores discretos (valores binários como 0/1, sim/não, verdadeiro/falso) com base em um determinado conjunto de variáveis independentes.
Árvores de Decisão: Um modelo semelhante a uma árvore usado para classificação e regressão. Ele divide os dados com base em determinadas condições, tornando-os intuitivos e fáceis de entender.
Floresta Aleatória (Random Forest): Um poderoso modelo de aprendizado supervisionado usado tanto para classificação quanto para regressão, mas é mais comumente usado em problemas de classificação. É um conjunto de árvores de decisão.
AdaBoost (Adaptive Boosting): Um algoritmo de boosting que combina vários estimadores fracos (normalmente árvores de decisão) para criar um classificador forte.
Gradient Boosting Machines (GBM): Uma técnica ensemble que constrói modelos sequencialmente, cada novo modelo corrigindo erros cometidos pelos anteriores. As variantes incluem XGBoost, LightGBM e CatBoost.
Naive Bayes: Uma família de classificadores probabilísticos baseados na aplicação do teorema de Bayes com fortes suposições (ingênuas) de independência entre os recursos.
Support Vector Machine (SVM): Um poderoso modelo de aprendizado supervisionado usado tanto para classificação quanto para regressão, mas é mais comumente usado em problemas de classificação. Funciona encontrando o hiperplano que melhor divide um conjunto de dados em classes.
K-Nearest Neighbors (KNN): Um algoritmo de aprendizado de máquina supervisionado simples e fácil de implementar que pode ser usado tanto para classificação quanto para regressão. É um algoritmo de aprendizagem não paramétrico.
Clustering K-Means: Um algoritmo de aprendizagem não supervisionada usado para clusterizar (agrupar) dados por similaridade. Ele particiona os dados em K clusters distintos com base na distância ao centróide de um cluster.
Muitos outros algoritmos de Machine Learning mais avançados são variações, composições ou junções desses algoritmos.
David Matos