Neste desafio, será necessário construir a mesma Regressão Polinomial de grau 2 do desafio anterior. No entanto, será preciso dividir o conjunto em um conjunto de treinamento e um conjunto de teste para calcular o RMSE para ambos. Isso é necessário para avaliar se o modelo está sofrendo de overfitting ou underfitting.  
Aqui está um lembrete da função `train_test_split()` que você irá utilizar.

E também um lembrete da função `mean_squared_error()` com `np.sqrt()` necessária para calcular o RMSE:
```python
rmse = np.sqrt(mean_squared_error(y_true, y_predicted))
```

import unittest
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error


# Codefinity helper
def _dynamic_test(test_case, condition, success_msg, fail_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    # 1 — X only contains "age"
    def test_X_contains_age(self):
        import user_code

        try:
            X = user_code.X
            condition = list(X.columns) == ["age"]
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "X is correctly assigned from df[['age']].",
            "Expected X = df[['age']]."
        )

    # 2 — PolynomialFeatures applied
    def test_polynomial_features(self):
        import user_code

        try:
            n = user_code.n
            X = user_code.X
            expected = PolynomialFeatures(n).fit_transform(X)
            condition = np.allclose(user_code.X_tilde, expected)
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "PolynomialFeatures applied correctly to X.",
            "Expected X_tilde = PolynomialFeatures(n).fit_transform(X)."
        )

    # 3 — split correctness
    def test_split(self):
        import user_code

        try:
            total = len(user_code.X_tilde)
            condition = (
                len(user_code.X_tilde_train) + len(user_code.X_tilde_test) == total
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Dataset split correctly.",
            "Expected train_test_split(X_tilde, y, test_size=0.3, random_state=0)."
        )

    # 4 — model is fitted
    def test_model_fitted(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = isinstance(user_code.model, RegressionResultsWrapper)

        _dynamic_test(
            self,
            condition,
            "Model is fitted correctly using OLS.",
            "Expected model = sm.OLS(y_train, X_tilde_train).fit()."
        )

    # 5 — predictions for train and test exist & correct shape
    def test_predictions(self):
        import user_code

        try:
            cond1 = isinstance(user_code.y_train_pred, np.ndarray)
            cond2 = isinstance(user_code.y_test_pred, np.ndarray)
            cond3 = len(user_code.y_train_pred) == len(user_code.y_train)
            cond4 = len(user_code.y_test_pred) == len(user_code.y_test)

            condition = cond1 and cond2 and cond3 and cond4
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Predictions for train and test sets computed correctly.",
            "Expected model.predict(X_tilde_train/test)."
        )

    # 6 — RMSE computed manually with sqrt(MSE)
    def test_rmse_correct(self):
        import user_code

        try:
            train_expected = np.sqrt(
                mean_squared_error(user_code.y_train, user_code.y_train_pred)
            )
            test_expected = np.sqrt(
                mean_squared_error(user_code.y_test, user_code.y_test_pred)
            )

            condition = (
                np.isclose(train_expected, user_code.train_rmse)
                and np.isclose(test_expected, user_code.test_rmse)
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "RMSE is computed using sqrt(MSE).",
            "Expected RMSE = np.sqrt(mean_squared_error(...))."
        )

    # 7 — summary must be printed
    def test_summary_called(self):
        condition = False
        try:
            with open("user_code.py", "r") as f:
                contents = f.read().replace(" ", "")
            condition = "model.summary()" in contents
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "model.summary() is printed.",
            "Expected print(model.summary())."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Ao concluir a tarefa, você notará que o RMSE do teste é ainda menor do que o RMSE do treinamento. Normalmente, os modelos não apresentam resultados melhores em instâncias não vistas. Neste caso, a diferença é pequena e ocorre por acaso. Nosso conjunto de dados é relativamente pequeno e, ao dividir, o conjunto de teste recebeu pontos de dados um pouco melhores (mais fáceis de prever).

A Regressão Linear é um conceito fundamental em análise preditiva. É amplamente utilizada por cientistas de dados, analistas de dados e estatísticos, pois é fácil de construir e interpretar, mas poderosa o suficiente para diversas tarefas.

Vamos começar com o modelo mais simples de Regressão Linear! Você aprenderá o conceito por trás da Regressão Linear e como realizar previsões em Python.

A maioria das tarefas de previsão do mundo real envolve mais de uma variável. Você aprenderá como lidar com Regressão Linear com múltiplas variáveis.

Uma linha reta nem sempre descreve bem os dados. Vamos aprender como construir um modelo mais complexo para previsão! É para isso que a Regressão Polinomial é adequada.

Agora que você sabe como construir vários modelos de Regressão Linear, é necessário um método para escolher o melhor. Isso pode ser feito utilizando métricas. Esta seção explica as métricas mais utilizadas e as dificuldades que podem surgir ao utilizá-las.

Desafio: Previsão de Preços Usando Regressão Polinomial

Desafio: Previsão de Preços Usando Regressão Polinomial

Solução