Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Fluxo de Trabalho em Aprendizado de Máquina | Conceitos de Machine Learning
Introdução ao ML com Scikit-learn

bookFluxo de Trabalho em Aprendizado de Máquina

Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.

Etapa 1. Obtenção dos Dados

Iniciar pela definição do problema e identificação dos dados necessários. Selecionar uma métrica para avaliar o desempenho e determinar qual resultado será considerado satisfatório.

Em seguida, coletar os dados, frequentemente de múltiplas fontes como bancos de dados, e trazê-los para um formato adequado para processamento em Python.

Se os dados já estiverem disponíveis em um arquivo .csv, o pré-processamento pode começar imediatamente, e esta etapa pode ser ignorada.

Exemplo

Um hospital fornece registros históricos de pacientes de seu banco de dados juntamente com informações demográficas de um banco de dados nacional de saúde, compilados em um arquivo CSV. A tarefa é prever readmissões de pacientes, com acurácia acima de 80% definida como métrica alvo para desempenho satisfatório.

Etapa 2. Pré-processamento dos dados

Esta etapa consiste em:

  • Limpeza dos dados: tratamento de valores ausentes, dados não numéricos, etc;
  • Análise exploratória dos dados (EDA): análise e visualização do conjunto de dados para identificar padrões e relações entre as variáveis e, de modo geral, obter insights sobre como o conjunto de treinamento pode ser aprimorado;
  • Engenharia de atributos: seleção, transformação ou criação de novos atributos com base nos insights da EDA para melhorar o desempenho do modelo.

Exemplo

No conjunto de dados do hospital, valores ausentes para métricas importantes como pressão arterial podem ser preenchidos, e variáveis categóricas como raça podem ser convertidas em códigos numéricos para análise.

Etapa 3. Modelagem

Esta etapa inclui:

  • Escolha do modelo: seleção de um ou mais modelos mais adequados para o problema, com base nas características do algoritmo e nos resultados experimentais;
  • Ajuste de hiperparâmetros: ajuste dos hiperparâmetros para alcançar o melhor desempenho possível.
Note
Aprofunde-se

Considere os hiperparâmetros como botões e controles em uma máquina que podem ser ajustados para controlar seu funcionamento. Em aprendizado de máquina, esses "botões e controles" são configurações (valores) que um cientista de dados ajusta antes de iniciar o treinamento do modelo. Por exemplo, hiperparâmetros podem incluir quanto tempo o modelo será treinado ou quão detalhado deve ser o treinamento.

  • Avaliação do modelo: medição do desempenho em dados não vistos.

Exemplo

Um modelo de classificação é selecionado para prever readmissões de pacientes, adequado para resultados binários (readmitido ou não). Seus hiperparâmetros são ajustados para otimizar o desempenho. Por fim, a avaliação é realizada em um conjunto de validação ou teste separado para verificar o quão bem o modelo generaliza além dos dados de treinamento.

Etapa 4. Implantação

Após obter um modelo ajustado com desempenho satisfatório, o próximo passo é a implantação. O modelo implantado deve ser continuamente monitorado, aprimorado quando necessário e atualizado com novos dados à medida que se tornam disponíveis. Esse processo frequentemente retorna à Etapa 1.

Exemplo

Quando o modelo prevê readmissões com precisão, ele é integrado ao sistema de banco de dados do hospital para alertar a equipe sobre pacientes de alto risco no momento da admissão, aprimorando o cuidado ao paciente.

Note
Nota

Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.

O pré-processamento de dados e a modelagem podem ser realizados com a biblioteca scikit-learn (importada como sklearn). Os próximos capítulos abordam etapas básicas de pré-processamento e a construção de pipelines. A etapa de modelagem é então apresentada utilizando o algoritmo k-nearest neighbors (KNeighborsClassifier no sklearn) como exemplo. Isso inclui a construção do modelo, ajuste de hiperparâmetros e avaliação de desempenho.

1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

question mark

Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

Select the correct answer

question mark

Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 3.13

bookFluxo de Trabalho em Aprendizado de Máquina

Deslize para mostrar o menu

Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.

Etapa 1. Obtenção dos Dados

Iniciar pela definição do problema e identificação dos dados necessários. Selecionar uma métrica para avaliar o desempenho e determinar qual resultado será considerado satisfatório.

Em seguida, coletar os dados, frequentemente de múltiplas fontes como bancos de dados, e trazê-los para um formato adequado para processamento em Python.

Se os dados já estiverem disponíveis em um arquivo .csv, o pré-processamento pode começar imediatamente, e esta etapa pode ser ignorada.

Exemplo

Um hospital fornece registros históricos de pacientes de seu banco de dados juntamente com informações demográficas de um banco de dados nacional de saúde, compilados em um arquivo CSV. A tarefa é prever readmissões de pacientes, com acurácia acima de 80% definida como métrica alvo para desempenho satisfatório.

Etapa 2. Pré-processamento dos dados

Esta etapa consiste em:

  • Limpeza dos dados: tratamento de valores ausentes, dados não numéricos, etc;
  • Análise exploratória dos dados (EDA): análise e visualização do conjunto de dados para identificar padrões e relações entre as variáveis e, de modo geral, obter insights sobre como o conjunto de treinamento pode ser aprimorado;
  • Engenharia de atributos: seleção, transformação ou criação de novos atributos com base nos insights da EDA para melhorar o desempenho do modelo.

Exemplo

No conjunto de dados do hospital, valores ausentes para métricas importantes como pressão arterial podem ser preenchidos, e variáveis categóricas como raça podem ser convertidas em códigos numéricos para análise.

Etapa 3. Modelagem

Esta etapa inclui:

  • Escolha do modelo: seleção de um ou mais modelos mais adequados para o problema, com base nas características do algoritmo e nos resultados experimentais;
  • Ajuste de hiperparâmetros: ajuste dos hiperparâmetros para alcançar o melhor desempenho possível.
Note
Aprofunde-se

Considere os hiperparâmetros como botões e controles em uma máquina que podem ser ajustados para controlar seu funcionamento. Em aprendizado de máquina, esses "botões e controles" são configurações (valores) que um cientista de dados ajusta antes de iniciar o treinamento do modelo. Por exemplo, hiperparâmetros podem incluir quanto tempo o modelo será treinado ou quão detalhado deve ser o treinamento.

  • Avaliação do modelo: medição do desempenho em dados não vistos.

Exemplo

Um modelo de classificação é selecionado para prever readmissões de pacientes, adequado para resultados binários (readmitido ou não). Seus hiperparâmetros são ajustados para otimizar o desempenho. Por fim, a avaliação é realizada em um conjunto de validação ou teste separado para verificar o quão bem o modelo generaliza além dos dados de treinamento.

Etapa 4. Implantação

Após obter um modelo ajustado com desempenho satisfatório, o próximo passo é a implantação. O modelo implantado deve ser continuamente monitorado, aprimorado quando necessário e atualizado com novos dados à medida que se tornam disponíveis. Esse processo frequentemente retorna à Etapa 1.

Exemplo

Quando o modelo prevê readmissões com precisão, ele é integrado ao sistema de banco de dados do hospital para alertar a equipe sobre pacientes de alto risco no momento da admissão, aprimorando o cuidado ao paciente.

Note
Nota

Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.

O pré-processamento de dados e a modelagem podem ser realizados com a biblioteca scikit-learn (importada como sklearn). Os próximos capítulos abordam etapas básicas de pré-processamento e a construção de pipelines. A etapa de modelagem é então apresentada utilizando o algoritmo k-nearest neighbors (KNeighborsClassifier no sklearn) como exemplo. Isso inclui a construção do modelo, ajuste de hiperparâmetros e avaliação de desempenho.

1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

question mark

Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?

Select the correct answer

question mark

Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5
some-alt