У цьому завданні необхідно побудувати ту ж Поліноміальну регресію другого ступеня, що й у попередньому завданні. Однак потрібно розділити набір даних на тренувальний та тестовий набори, щоб обчислити RMSE для обох цих наборів. Це необхідно для оцінки, чи модель перенавчається або недонавчається.  
Нагадування про функцію `train_test_split()`, яку слід використати.

А також нагадування про функцію `mean_squared_error()` разом із `np.sqrt()` для обчислення RMSE:
```python
rmse = np.sqrt(mean_squared_error(y_true, y_predicted))
```

import unittest
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error


# Codefinity helper
def _dynamic_test(test_case, condition, success_msg, fail_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True)
    else:
        test_case._testMethodName = fail_msg
        test_case.fail(fail_msg)


class TestUserCode(unittest.TestCase):

    # 1 — X only contains "age"
    def test_X_contains_age(self):
        import user_code

        try:
            X = user_code.X
            condition = list(X.columns) == ["age"]
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "X is correctly assigned from df[['age']].",
            "Expected X = df[['age']]."
        )

    # 2 — PolynomialFeatures applied
    def test_polynomial_features(self):
        import user_code

        try:
            n = user_code.n
            X = user_code.X
            expected = PolynomialFeatures(n).fit_transform(X)
            condition = np.allclose(user_code.X_tilde, expected)
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "PolynomialFeatures applied correctly to X.",
            "Expected X_tilde = PolynomialFeatures(n).fit_transform(X)."
        )

    # 3 — split correctness
    def test_split(self):
        import user_code

        try:
            total = len(user_code.X_tilde)
            condition = (
                len(user_code.X_tilde_train) + len(user_code.X_tilde_test) == total
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Dataset split correctly.",
            "Expected train_test_split(X_tilde, y, test_size=0.3, random_state=0)."
        )

    # 4 — model is fitted
    def test_model_fitted(self):
        import user_code
        from statsmodels.regression.linear_model import RegressionResultsWrapper

        condition = isinstance(user_code.model, RegressionResultsWrapper)

        _dynamic_test(
            self,
            condition,
            "Model is fitted correctly using OLS.",
            "Expected model = sm.OLS(y_train, X_tilde_train).fit()."
        )

    # 5 — predictions for train and test exist & correct shape
    def test_predictions(self):
        import user_code

        try:
            cond1 = isinstance(user_code.y_train_pred, np.ndarray)
            cond2 = isinstance(user_code.y_test_pred, np.ndarray)
            cond3 = len(user_code.y_train_pred) == len(user_code.y_train)
            cond4 = len(user_code.y_test_pred) == len(user_code.y_test)

            condition = cond1 and cond2 and cond3 and cond4
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "Predictions for train and test sets computed correctly.",
            "Expected model.predict(X_tilde_train/test)."
        )

    # 6 — RMSE computed manually with sqrt(MSE)
    def test_rmse_correct(self):
        import user_code

        try:
            train_expected = np.sqrt(
                mean_squared_error(user_code.y_train, user_code.y_train_pred)
            )
            test_expected = np.sqrt(
                mean_squared_error(user_code.y_test, user_code.y_test_pred)
            )

            condition = (
                np.isclose(train_expected, user_code.train_rmse)
                and np.isclose(test_expected, user_code.test_rmse)
            )
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "RMSE is computed using sqrt(MSE).",
            "Expected RMSE = np.sqrt(mean_squared_error(...))."
        )

    # 7 — summary must be printed
    def test_summary_called(self):
        condition = False
        try:
            with open("user_code.py", "r") as f:
                contents = f.read().replace(" ", "")
            condition = "model.summary()" in contents
        except:
            condition = False

        _dynamic_test(
            self,
            condition,
            "model.summary() is printed.",
            "Expected print(model.summary())."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Після виконання завдання ви помітите, що тестове RMSE навіть менше за тренувальне RMSE. Зазвичай моделі не демонструють кращих результатів на невідомих даних. У цьому випадку різниця незначна й обумовлена випадковістю. Наш набір даних досить малий, і під час розділення тестовий набір отримав трохи кращі (легші для прогнозування) дані.

Лінійна регресія є ключовим поняттям у прогностичній аналітиці. Вона широко використовується дата-сайентістами, аналітиками даних та статистиками, оскільки її легко побудувати та інтерпретувати, але вона достатньо потужна для багатьох завдань.

Почнемо з найпростішої моделі лінійної регресії. Ви ознайомитеся з основною ідеєю лінійної регресії та дізнаєтеся, як здійснювати прогнозування в Python.

Більшість реальних задач прогнозування включають більше ніж одну ознаку. Ви дізнаєтеся, як працювати з лінійною регресією з декількома ознаками.

Пряма лінія не завжди добре описує дані. Дізнаймося, як побудувати складнішу модель для прогнозування. Саме для цього підходить поліноміальна регресія.

Тепер, коли ви знаєте, як створювати різні моделі лінійної регресії, необхідно визначити спосіб вибору найкращої з них. Це можливо за допомогою метрик. У цьому розділі розглядаються найбільш поширені метрики та труднощі, з якими можна зіткнутися під час їх використання.

Завдання: Прогнозування Цін за Допомогою Поліноміальної Регресії

Рішення