Inteligência Artificial, e uma das suas sub-áreas, Machine Learning, estão cada vez mais presentes em nossas vidas. A fase do hype já passou e estamos na fase da consolidação, em que a tecnologia é implementada e usada em escala cada vez maior.
E alguns termos que até pouco tempo atrás estavam restritos aos profissionais mais técnicos, hoje fazem parte de reuniões e do dia a dia das empresas.
Aqui estão 10 Termos de Inteligência Artificial Explicados de Forma Simples.
1- Regressão
Uma tarefa de aprendizado de máquina (Machine Learning) supervisionado que tenta prever um resultado numérico a partir de dados históricos.
Por exemplo, se tivermos dados históricos sobre casas com o número de quartos, o tamanho e o preço de venda, podemos treinar um modelo de regressão que, ao receber dados de uma nova casa com o número de quartos e o tamanho, será capaz de prever o preço da casa.
2- Classificação
Uma tarefa de aprendizado de máquina supervisionado que busca classificar os pontos de dados em diferentes categorias (ou classes) que são pré-determinadas pelos dados de treinamento.
Por exemplo, se tivermos um conjunto de dados médicos consistindo em medidas biológicas (frequência cardíaca, temperatura corporal, idade, altura, peso etc.) e se uma pessoa tem ou não uma doença específica, poderíamos treinar um modelo de classificação para prever se um outro paciente pode ou não desenvolver a doença.
Usamos dados históricos para treinar um modelo que então ao receber dados de novos pacientes será capaz de prever sua categoria (doente ou não doente, por exemplo).
3- Underfitting
Um fenômeno em que um algoritmo de aprendizado de máquina não se ajusta bem o suficiente aos dados de treinamento, resultando em baixo desempenho nos dados de treino e em dados semelhantes, mas distintos (dados de teste).
Um exemplo comum de underfitting ocorre quando uma rede neural não é treinada por tempo suficiente ou quando não há dados de treinamento suficientes. O fenômeno inverso é o overfitting.
4- Overfitting
Um fenômeno em que um algoritmo de aprendizado de máquina é muito ajustado aos dados de treinamento, tornando o desempenho nos dados de treino muito alto, mas o desempenho em dados de teste baixo devido à baixa generalização.
Um exemplo comum de overfitting ocorre quando uma rede neural é treinada por muito tempo. O fenômeno inverso é o underfitting. Queremos um modelo que seja equilibrado e undefitting e overfitting são problemas que o Cientista de Dados deve evitar.
5- Função de Custo (Cost Function)
Machine Learning em sua essência é Matemática. Durante o treinamento, os algoritmos de Machine Learning estão tentando minimizar uma função para obter o melhor desempenho, exatamente a função de custo. É simplesmente o erro que o algoritmo comete em um determinado conjunto de dados.
Às vezes, também é chamado de “função de perda”, termo usado de forma intercambiável com “função de custo”, embora as duas sejam diferenciadas em alguns contextos.
6- Dados de Treino
São dados históricos sobre determinado evento ou fenômeno. Coletamos dados de treino para treinar um algoritmo e então gerar um modelo. Esse modelo é uma formulação matemática que estabelece a relação entre os dados.
Ou seja, sem os dados de treino, não temos como criar um modelo. E com o volume de dados cada vez maior em nosso dia a dia, fica fácil compreender porque Machine Learning e IA vêm crescendo em importância dentro das empresas.
7- Dados de Teste
Um subconjunto de dados no qual um modelo não é treinado e que é usado para testar a performance do modelo. Ou seja, são dados que o modelo ainda não viu e o que desejamos é exatamente saber se o modelo está funcionando bem.
Dependendo do volume de dados e da complexidade do modelo, podemos usar dados de teste durante o treinamento (treinamos o modelo em uma passada e testamos na sequência). Nesse caso o conjunto de dados é chamado de Dados de Validação.
8- Rede Neural
Um tipo específico de algoritmo de aprendizado de máquina que pode ser representado graficamente como uma rede, inspirado na maneira como os cérebros biológicos funcionam.
A rede representa muitas operações matemáticas simples (adição, multiplicação, etc.) que são combinadas para produzir uma operação complexa que pode realizar uma tarefa complicada (por exemplo, identificar carros em uma imagem ou gerar texto).
9- Parâmetro
Os parâmetros, também chamados de pesos ou coeficientes, são os valores aprendidos pelo algoritmo durante o treinamento. Se “olharmos” dentro de um modelo de Machine Learning, são os parâmetros o que veremos.
Os parâmetros não são definidos pelo criador do modelo e os valores são determinados pelo processo de treinamento automaticamente.
10- Hiperparâmetro
Um valor que participa da definição da estrutura geral de um modelo ou comportamento de um algoritmo. Os hiperparâmetros não são alterados pelo processo de treinamento do modelo e são definidos antecipadamente antes do treinamento.
Muitos valores potenciais para hiperparâmetros são geralmente testados para encontrar aqueles que otimizam o processo de treinamento. Por exemplo, em uma rede neural, o número de camadas é um hiperparâmetro (não alterado pelo treinamento), enquanto os valores dentro das camadas (“pesos”) são parâmetros (alterados pelo treinamento).
Se o modelo de Machine Learning fosse um rádio, então um hiperparâmetro seria um botão ou controle no rádio, enquanto os valores possíveis desses botões seriam parâmetros.
Caso queira praticar Machine Learning de forma gratuita, recomendo este curso online:
Python Fundamentos Para Análise de Dados
David Matos