Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Fluxo de Trabalho de Machine Learning | Conceitos de Machine Learning
Introdução ao Aprendizado de Máquina com Python

bookFluxo de Trabalho de Machine Learning

Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.

Etapa 1. Obtenção dos Dados

Definição do problema, escolha de uma métrica de desempenho e determinação do que caracteriza um bom resultado. Em seguida, coleta dos dados necessários a partir das fontes disponíveis e organização em um formato pronto para uso em Python. Se os dados já estiverem em um arquivo CSV, o pré-processamento pode começar imediatamente.

Exemplo

Um hospital compila registros de pacientes e dados demográficos em um arquivo CSV. O objetivo é prever readmissões, buscando acurácia superior a 80%.

Etapa 2. Pré-processamento dos Dados

Esta etapa inclui:

  • Limpeza de dados: tratamento de valores ausentes e entradas não numéricas;
  • EDA: análise e visualização dos dados para compreender relações e detectar problemas;
  • Engenharia de atributos: seleção ou criação de atributos que melhorem o desempenho do modelo.

Exemplo

Valores ausentes (por exemplo, pressão arterial) são preenchidos e atributos categóricos (por exemplo, raça) são convertidos em formato numérico.

Etapa 3. Modelagem

Esta etapa inclui:

  • Escolha de um modelo com base no tipo de problema e experimentos;
  • Ajuste de hiperparâmetros para melhorar o desempenho;
  • Avaliação do modelo em dados não vistos.
Note
Estude Mais

Hiperparâmetros são como controles ajustáveis que definem como o modelo é treinado—como duração do treinamento ou complexidade do modelo.

Exemplo

Um modelo de classificação é selecionado para prever readmissão (sim/não). Após o ajuste, ele é avaliado em um conjunto de validação/teste para verificar a generalização.

Etapa 4. Implantação

Quando um modelo apresenta bom desempenho, ele é implantado em sistemas reais. O modelo deve ser monitorado, atualizado com novos dados e aprimorado ao longo do tempo, frequentemente reiniciando o ciclo a partir da Etapa 1.

Exemplo

O modelo é integrado ao sistema hospitalar para sinalizar pacientes de alto risco na admissão, auxiliando a equipe a agir precocemente.

Note
Nota

Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.

O pré-processamento de dados e a modelagem podem ser realizados com scikit-learn. Os próximos capítulos apresentam fluxos de trabalho de pré-processamento e pipelines, seguidos pela modelagem utilizando k-nearest neighbors (KNeighborsClassifier), incluindo treinamento, ajuste e avaliação.

1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

question mark

Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

Select the correct answer

question mark

Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain more about data preprocessing steps?

What is feature engineering and why is it important?

How does KNeighborsClassifier work in machine learning?

bookFluxo de Trabalho de Machine Learning

Deslize para mostrar o menu

Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.

Etapa 1. Obtenção dos Dados

Definição do problema, escolha de uma métrica de desempenho e determinação do que caracteriza um bom resultado. Em seguida, coleta dos dados necessários a partir das fontes disponíveis e organização em um formato pronto para uso em Python. Se os dados já estiverem em um arquivo CSV, o pré-processamento pode começar imediatamente.

Exemplo

Um hospital compila registros de pacientes e dados demográficos em um arquivo CSV. O objetivo é prever readmissões, buscando acurácia superior a 80%.

Etapa 2. Pré-processamento dos Dados

Esta etapa inclui:

  • Limpeza de dados: tratamento de valores ausentes e entradas não numéricas;
  • EDA: análise e visualização dos dados para compreender relações e detectar problemas;
  • Engenharia de atributos: seleção ou criação de atributos que melhorem o desempenho do modelo.

Exemplo

Valores ausentes (por exemplo, pressão arterial) são preenchidos e atributos categóricos (por exemplo, raça) são convertidos em formato numérico.

Etapa 3. Modelagem

Esta etapa inclui:

  • Escolha de um modelo com base no tipo de problema e experimentos;
  • Ajuste de hiperparâmetros para melhorar o desempenho;
  • Avaliação do modelo em dados não vistos.
Note
Estude Mais

Hiperparâmetros são como controles ajustáveis que definem como o modelo é treinado—como duração do treinamento ou complexidade do modelo.

Exemplo

Um modelo de classificação é selecionado para prever readmissão (sim/não). Após o ajuste, ele é avaliado em um conjunto de validação/teste para verificar a generalização.

Etapa 4. Implantação

Quando um modelo apresenta bom desempenho, ele é implantado em sistemas reais. O modelo deve ser monitorado, atualizado com novos dados e aprimorado ao longo do tempo, frequentemente reiniciando o ciclo a partir da Etapa 1.

Exemplo

O modelo é integrado ao sistema hospitalar para sinalizar pacientes de alto risco na admissão, auxiliando a equipe a agir precocemente.

Note
Nota

Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.

O pré-processamento de dados e a modelagem podem ser realizados com scikit-learn. Os próximos capítulos apresentam fluxos de trabalho de pré-processamento e pipelines, seguidos pela modelagem utilizando k-nearest neighbors (KNeighborsClassifier), incluindo treinamento, ajuste e avaliação.

1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

question mark

Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

Select the correct answer

question mark

Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5
some-alt