Fluxo de Trabalho de Machine Learning
Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.
Etapa 1. Obtenção dos Dados
Definição do problema, escolha de uma métrica de desempenho e determinação do que caracteriza um bom resultado. Em seguida, coleta dos dados necessários a partir das fontes disponíveis e organização em um formato pronto para uso em Python. Se os dados já estiverem em um arquivo CSV, o pré-processamento pode começar imediatamente.
Exemplo
Um hospital compila registros de pacientes e dados demográficos em um arquivo CSV. O objetivo é prever readmissões, buscando acurácia superior a 80%.
Etapa 2. Pré-processamento dos Dados
Esta etapa inclui:
- Limpeza de dados: tratamento de valores ausentes e entradas não numéricas;
- EDA: análise e visualização dos dados para compreender relações e detectar problemas;
- Engenharia de atributos: seleção ou criação de atributos que melhorem o desempenho do modelo.
Exemplo
Valores ausentes (por exemplo, pressão arterial) são preenchidos e atributos categóricos (por exemplo, raça) são convertidos em formato numérico.
Etapa 3. Modelagem
Esta etapa inclui:
- Escolha de um modelo com base no tipo de problema e experimentos;
- Ajuste de hiperparâmetros para melhorar o desempenho;
- Avaliação do modelo em dados não vistos.
Hiperparâmetros são como controles ajustáveis que definem como o modelo é treinado—como duração do treinamento ou complexidade do modelo.
Exemplo
Um modelo de classificação é selecionado para prever readmissão (sim/não). Após o ajuste, ele é avaliado em um conjunto de validação/teste para verificar a generalização.
Etapa 4. Implantação
Quando um modelo apresenta bom desempenho, ele é implantado em sistemas reais. O modelo deve ser monitorado, atualizado com novos dados e aprimorado ao longo do tempo, frequentemente reiniciando o ciclo a partir da Etapa 1.
Exemplo
O modelo é integrado ao sistema hospitalar para sinalizar pacientes de alto risco na admissão, auxiliando a equipe a agir precocemente.
Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.
O pré-processamento de dados e a modelagem podem ser realizados com scikit-learn. Os próximos capítulos apresentam fluxos de trabalho de pré-processamento e pipelines, seguidos pela modelagem utilizando k-nearest neighbors (KNeighborsClassifier), incluindo treinamento, ajuste e avaliação.
1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?
2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain more about data preprocessing steps?
What is feature engineering and why is it important?
How does KNeighborsClassifier work in machine learning?
Incrível!
Completion taxa melhorada para 3.13
Fluxo de Trabalho de Machine Learning
Deslize para mostrar o menu
Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.
Etapa 1. Obtenção dos Dados
Definição do problema, escolha de uma métrica de desempenho e determinação do que caracteriza um bom resultado. Em seguida, coleta dos dados necessários a partir das fontes disponíveis e organização em um formato pronto para uso em Python. Se os dados já estiverem em um arquivo CSV, o pré-processamento pode começar imediatamente.
Exemplo
Um hospital compila registros de pacientes e dados demográficos em um arquivo CSV. O objetivo é prever readmissões, buscando acurácia superior a 80%.
Etapa 2. Pré-processamento dos Dados
Esta etapa inclui:
- Limpeza de dados: tratamento de valores ausentes e entradas não numéricas;
- EDA: análise e visualização dos dados para compreender relações e detectar problemas;
- Engenharia de atributos: seleção ou criação de atributos que melhorem o desempenho do modelo.
Exemplo
Valores ausentes (por exemplo, pressão arterial) são preenchidos e atributos categóricos (por exemplo, raça) são convertidos em formato numérico.
Etapa 3. Modelagem
Esta etapa inclui:
- Escolha de um modelo com base no tipo de problema e experimentos;
- Ajuste de hiperparâmetros para melhorar o desempenho;
- Avaliação do modelo em dados não vistos.
Hiperparâmetros são como controles ajustáveis que definem como o modelo é treinado—como duração do treinamento ou complexidade do modelo.
Exemplo
Um modelo de classificação é selecionado para prever readmissão (sim/não). Após o ajuste, ele é avaliado em um conjunto de validação/teste para verificar a generalização.
Etapa 4. Implantação
Quando um modelo apresenta bom desempenho, ele é implantado em sistemas reais. O modelo deve ser monitorado, atualizado com novos dados e aprimorado ao longo do tempo, frequentemente reiniciando o ciclo a partir da Etapa 1.
Exemplo
O modelo é integrado ao sistema hospitalar para sinalizar pacientes de alto risco na admissão, auxiliando a equipe a agir precocemente.
Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.
O pré-processamento de dados e a modelagem podem ser realizados com scikit-learn. Os próximos capítulos apresentam fluxos de trabalho de pré-processamento e pipelines, seguidos pela modelagem utilizando k-nearest neighbors (KNeighborsClassifier), incluindo treinamento, ajuste e avaliação.
1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?
2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?
Obrigado pelo seu feedback!