Fluxo de Trabalho em Aprendizado de Máquina
Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.
Etapa 1. Obtenção dos Dados
Iniciar pela definição do problema e identificação dos dados necessários. Selecionar uma métrica para avaliar o desempenho e determinar qual resultado será considerado satisfatório.
Em seguida, coletar os dados, frequentemente de múltiplas fontes como bancos de dados, e trazê-los para um formato adequado para processamento em Python.
Se os dados já estiverem disponíveis em um arquivo .csv
, o pré-processamento pode começar imediatamente, e esta etapa pode ser ignorada.
Exemplo
Um hospital fornece registros históricos de pacientes de seu banco de dados juntamente com informações demográficas de um banco de dados nacional de saúde, compilados em um arquivo CSV. A tarefa é prever readmissões de pacientes, com acurácia acima de 80% definida como métrica alvo para desempenho satisfatório.
Etapa 2. Pré-processamento dos dados
Esta etapa consiste em:
- Limpeza dos dados: tratamento de valores ausentes, dados não numéricos, etc;
- Análise exploratória dos dados (EDA): análise e visualização do conjunto de dados para identificar padrões e relações entre as variáveis e, de modo geral, obter insights sobre como o conjunto de treinamento pode ser aprimorado;
- Engenharia de atributos: seleção, transformação ou criação de novos atributos com base nos insights da EDA para melhorar o desempenho do modelo.
Exemplo
No conjunto de dados do hospital, valores ausentes para métricas importantes como pressão arterial podem ser preenchidos, e variáveis categóricas como raça podem ser convertidas em códigos numéricos para análise.
Etapa 3. Modelagem
Esta etapa inclui:
- Escolha do modelo: seleção de um ou mais modelos mais adequados para o problema, com base nas características do algoritmo e nos resultados experimentais;
- Ajuste de hiperparâmetros: ajuste dos hiperparâmetros para alcançar o melhor desempenho possível.
Considere os hiperparâmetros como botões e controles em uma máquina que podem ser ajustados para controlar seu funcionamento. Em aprendizado de máquina, esses "botões e controles" são configurações (valores) que um cientista de dados ajusta antes de iniciar o treinamento do modelo. Por exemplo, hiperparâmetros podem incluir quanto tempo o modelo será treinado ou quão detalhado deve ser o treinamento.
- Avaliação do modelo: medição do desempenho em dados não vistos.
Exemplo
Um modelo de classificação é selecionado para prever readmissões de pacientes, adequado para resultados binários (readmitido ou não). Seus hiperparâmetros são ajustados para otimizar o desempenho. Por fim, a avaliação é realizada em um conjunto de validação ou teste separado para verificar o quão bem o modelo generaliza além dos dados de treinamento.
Etapa 4. Implantação
Após obter um modelo ajustado com desempenho satisfatório, o próximo passo é a implantação. O modelo implantado deve ser continuamente monitorado, aprimorado quando necessário e atualizado com novos dados à medida que se tornam disponíveis. Esse processo frequentemente retorna à Etapa 1.
Exemplo
Quando o modelo prevê readmissões com precisão, ele é integrado ao sistema de banco de dados do hospital para alertar a equipe sobre pacientes de alto risco no momento da admissão, aprimorando o cuidado ao paciente.
Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.
O pré-processamento de dados e a modelagem podem ser realizados com a biblioteca scikit-learn
(importada como sklearn
). Os próximos capítulos abordam etapas básicas de pré-processamento e a construção de pipelines. A etapa de modelagem é então apresentada utilizando o algoritmo k-nearest neighbors (KNeighborsClassifier
no sklearn
) como exemplo. Isso inclui a construção do modelo, ajuste de hiperparâmetros e avaliação de desempenho.
1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?
2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 3.13
Fluxo de Trabalho em Aprendizado de Máquina
Deslize para mostrar o menu
Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.
Etapa 1. Obtenção dos Dados
Iniciar pela definição do problema e identificação dos dados necessários. Selecionar uma métrica para avaliar o desempenho e determinar qual resultado será considerado satisfatório.
Em seguida, coletar os dados, frequentemente de múltiplas fontes como bancos de dados, e trazê-los para um formato adequado para processamento em Python.
Se os dados já estiverem disponíveis em um arquivo .csv
, o pré-processamento pode começar imediatamente, e esta etapa pode ser ignorada.
Exemplo
Um hospital fornece registros históricos de pacientes de seu banco de dados juntamente com informações demográficas de um banco de dados nacional de saúde, compilados em um arquivo CSV. A tarefa é prever readmissões de pacientes, com acurácia acima de 80% definida como métrica alvo para desempenho satisfatório.
Etapa 2. Pré-processamento dos dados
Esta etapa consiste em:
- Limpeza dos dados: tratamento de valores ausentes, dados não numéricos, etc;
- Análise exploratória dos dados (EDA): análise e visualização do conjunto de dados para identificar padrões e relações entre as variáveis e, de modo geral, obter insights sobre como o conjunto de treinamento pode ser aprimorado;
- Engenharia de atributos: seleção, transformação ou criação de novos atributos com base nos insights da EDA para melhorar o desempenho do modelo.
Exemplo
No conjunto de dados do hospital, valores ausentes para métricas importantes como pressão arterial podem ser preenchidos, e variáveis categóricas como raça podem ser convertidas em códigos numéricos para análise.
Etapa 3. Modelagem
Esta etapa inclui:
- Escolha do modelo: seleção de um ou mais modelos mais adequados para o problema, com base nas características do algoritmo e nos resultados experimentais;
- Ajuste de hiperparâmetros: ajuste dos hiperparâmetros para alcançar o melhor desempenho possível.
Considere os hiperparâmetros como botões e controles em uma máquina que podem ser ajustados para controlar seu funcionamento. Em aprendizado de máquina, esses "botões e controles" são configurações (valores) que um cientista de dados ajusta antes de iniciar o treinamento do modelo. Por exemplo, hiperparâmetros podem incluir quanto tempo o modelo será treinado ou quão detalhado deve ser o treinamento.
- Avaliação do modelo: medição do desempenho em dados não vistos.
Exemplo
Um modelo de classificação é selecionado para prever readmissões de pacientes, adequado para resultados binários (readmitido ou não). Seus hiperparâmetros são ajustados para otimizar o desempenho. Por fim, a avaliação é realizada em um conjunto de validação ou teste separado para verificar o quão bem o modelo generaliza além dos dados de treinamento.
Etapa 4. Implantação
Após obter um modelo ajustado com desempenho satisfatório, o próximo passo é a implantação. O modelo implantado deve ser continuamente monitorado, aprimorado quando necessário e atualizado com novos dados à medida que se tornam disponíveis. Esse processo frequentemente retorna à Etapa 1.
Exemplo
Quando o modelo prevê readmissões com precisão, ele é integrado ao sistema de banco de dados do hospital para alertar a equipe sobre pacientes de alto risco no momento da admissão, aprimorando o cuidado ao paciente.
Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.
O pré-processamento de dados e a modelagem podem ser realizados com a biblioteca scikit-learn
(importada como sklearn
). Os próximos capítulos abordam etapas básicas de pré-processamento e a construção de pipelines. A etapa de modelagem é então apresentada utilizando o algoritmo k-nearest neighbors (KNeighborsClassifier
no sklearn
) como exemplo. Isso inclui a construção do modelo, ajuste de hiperparâmetros e avaliação de desempenho.
1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?
2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?
Obrigado pelo seu feedback!