Summary  
This chapter explains how to implement the k-Nearest Neighbors classification algorithm in code using a library’s classifier class, including feature scaling with StandardScaler and the proper use of fit(), transform(), and predict() methods.

General domain of usage  
Recommendation systems

## KNeighborsClassifier
A implementação do k-Nearest Neighbors é bastante simples. Basta importar e utilizar a classe `KNeighborsClassifier`.

Após importar a classe e criar um objeto da classe assim:
```python
# Importing the class
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
```
É necessário fornecer os dados de treinamento utilizando o método `.fit()`:
```python
knn.fit(X_scaled, y)
```
E pronto! Agora é possível prever novos valores.
```python
y_pred = knn.predict(X_new_scaled)
```

## Escalonamento dos dados

No entanto, lembre-se de que os dados **devem ser escalonados**. `StandardScaler` é comumente utilizado para esse propósito:

Você deve calcular $$\bar x$$ e $$s$$ **apenas no conjunto de treino** usando `.fit()` ou `.fit_transform()`.
Depois, utilize `.transform()` no **conjunto de teste** para que ambos os conjuntos sejam escalonados de forma idêntica:

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

Utilizar valores de escalonamento diferentes para treino e teste prejudica as previsões.

## Exemplo

Previsão se uma pessoa gosta de **Star Wars VI** usando suas avaliações para os Episódios IV e V (de <a href="https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset" target="_blank"><svg width="1em" height="1em" viewBox="0 0 30 32" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M17.289 17.305v0c-1.754 1.754-4.597 1.754-6.351 0l-7.76-7.759c-1.755-1.755-1.755-4.601 0-6.356v0c1.753-1.753 4.595-1.756 6.351-0.005l6.208 6.187"></path><path fill="none" stroke="#098f67" style="stroke: var(--color1, #098f67)" stroke-linejoin="miter" stroke-linecap="round" stroke-miterlimit="4" stroke-width="2.4156" d="M12.504 13.97v0c1.754-1.754 4.597-1.754 6.351 0l7.762 7.762c1.754 1.754 1.754 4.597 0 6.351v0c-1.754 1.754-4.597 1.754-6.351 0l-5.953-5.953"></path></svg> The Movies Dataset</a>).
Após o treinamento, testamos dois usuários: um avaliou IV/V como `5` e `5`, o outro como `4.5` e `4`.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/starwars_binary.csv')

# Dropping the target column and leaving only features as `X_train`
X_train = df.drop('StarWars6', axis=1)
# Storing target column as `y_train`, which contains 1 (liked SW 6) or 0 (didn't like SW 6)
y_train = df['StarWars6']

# Test set of two people
X_test = np.array([[5, 5], [4.5, 4]])

# Scaling the data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Building a model and predict new instances
knn = KNeighborsClassifier(n_neighbors=13).fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(y_pred)

Quais dos seguintes nomes de classes do scikit-learn são usados para implementar o classificador k-Nearest Neighbors e para escalar características ao preparar dados para k-NN?

Domine os principais algoritmos de classificação que impulsionam o aprendizado de máquina moderno. Explore como modelos como k-NN, regressão logística, árvores de decisão e florestas aleatórias fazem previsões, avalie sua precisão e compreenda quando utilizar cada um. Desenvolva habilidades para comparar modelos e escolher o mais adequado para seus dados.

Descubra como o algoritmo dos k-vizinhos mais próximos realiza previsões com base na similaridade. Aprenda a lidar com múltiplas variáveis, ajustar parâmetros e aplicar validação cruzada para aprimorar a precisão.

Compreender como a regressão logística modela probabilidades e classifica resultados.
Prática de implementação, interpretação de fronteiras de decisão e aplicação de regularização para evitar overajuste.

Aprenda como as árvores de decisão dividem os dados em grupos significativos com base nos valores das características. Explore como parâmetros como profundidade da árvore e número mínimo de amostras por folha afetam o desempenho do modelo e a generalização.

Explore como as florestas aleatórias combinam múltiplas árvores de decisão para melhorar a precisão e a robustez. Compreenda o papel da aleatoriedade e aplique este método de ensemble a dados do mundo real.

Avaliação de modelos utilizando métricas como acurácia, precisão, recall e F1-score. Interpretação de matrizes de confusão e comparação de múltiplos classificadores para identificar o modelo de melhor desempenho.

Implementação do k-NN

KNeighborsClassifier

Escalonamento dos dados

Exemplo