Resumo
Para resumir, você aprendeu quatro algoritmos: k-NN, Regressão Logística, Árvore de Decisão e Floresta Aleatória. Cada um possui suas próprias vantagens e desvantagens, que foram discutidas ao final de suas respectivas seções.
A visualização a seguir ilustra como cada algoritmo se comporta em diferentes conjuntos de dados sintéticos:
Aqui, quanto mais intensa a cor, maior a confiança do modelo em suas previsões.
Você notará que cada conjunto de dados possui um modelo diferente que apresenta o melhor desempenho. É difícil saber antecipadamente qual modelo funcionará melhor, portanto, a melhor abordagem é testar vários. Essa é a ideia por trás do Teorema do Almoço Grátis.
No entanto, em algumas situações, o conhecimento sobre os algoritmos pode ajudar a descartar certos modelos previamente se eles não forem adequados para a tarefa.
Por exemplo, isso ocorre com a Regressão Logística (sem utilizar PolynomialFeatures
), que sabemos criar uma fronteira de decisão linear. Assim, ao observar a complexidade do segundo conjunto de dados na imagem, seria possível prever antecipadamente que ela não teria um bom desempenho.
Como outro exemplo, se a tarefa exigir velocidade de previsão extremamente alta — como fazer previsões em tempo real em um aplicativo — então k-NN é uma escolha inadequada. O mesmo vale para uma Floresta Aleatória com muitas Árvores de Decisão. É possível reduzir o número de árvores utilizando o parâmetro n_estimators
para melhorar a velocidade, mas isso pode resultar em desempenho inferior.
A tabela a seguir pode ajudar a entender qual pré-processamento é necessário antes de treinar cada modelo e como o desempenho do modelo é afetado conforme o número de características ou instâncias aumenta:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain what "requires scaling" means for these models?
How do I decide which algorithm to use for my dataset?
Can you clarify the meaning of the training and prediction complexity notations?
Awesome!
Completion rate improved to 4.17
Resumo
Deslize para mostrar o menu
Para resumir, você aprendeu quatro algoritmos: k-NN, Regressão Logística, Árvore de Decisão e Floresta Aleatória. Cada um possui suas próprias vantagens e desvantagens, que foram discutidas ao final de suas respectivas seções.
A visualização a seguir ilustra como cada algoritmo se comporta em diferentes conjuntos de dados sintéticos:
Aqui, quanto mais intensa a cor, maior a confiança do modelo em suas previsões.
Você notará que cada conjunto de dados possui um modelo diferente que apresenta o melhor desempenho. É difícil saber antecipadamente qual modelo funcionará melhor, portanto, a melhor abordagem é testar vários. Essa é a ideia por trás do Teorema do Almoço Grátis.
No entanto, em algumas situações, o conhecimento sobre os algoritmos pode ajudar a descartar certos modelos previamente se eles não forem adequados para a tarefa.
Por exemplo, isso ocorre com a Regressão Logística (sem utilizar PolynomialFeatures
), que sabemos criar uma fronteira de decisão linear. Assim, ao observar a complexidade do segundo conjunto de dados na imagem, seria possível prever antecipadamente que ela não teria um bom desempenho.
Como outro exemplo, se a tarefa exigir velocidade de previsão extremamente alta — como fazer previsões em tempo real em um aplicativo — então k-NN é uma escolha inadequada. O mesmo vale para uma Floresta Aleatória com muitas Árvores de Decisão. É possível reduzir o número de árvores utilizando o parâmetro n_estimators
para melhorar a velocidade, mas isso pode resultar em desempenho inferior.
A tabela a seguir pode ajudar a entender qual pré-processamento é necessário antes de treinar cada modelo e como o desempenho do modelo é afetado conforme o número de características ou instâncias aumenta:
n
– number of instances (samples);m
– number of features;t
– number of trees in a Random Forest;k
– number of neighbors in k-NN;*
Scaling is not required ifpenalty=None
in Logistic Regression;**
PolynomialFeatures adds more features, so the effective number of featuresm
increases.
Obrigado pelo seu feedback!