Вивчайте TF-IDF | Базові Текстові Моделі

Розуміння TF-IDF

Хоча модель мішка слів є простою та ефективною, вона має тенденцію переоцінювати поширені терміни, що ускладнює виявлення рідкісніших, але більш інформативних слів. Щоб вирішити цю проблему, часто використовується модель TF-IDF.

Визначення

TF-IDF (частота терміна — обернена частота документа) — це статистична міра, яка відображає важливість слова для конкретного документа відносно більшого корпусу.

На відміну від BoW, яка базується на підрахунку термінів, TF-IDF враховує як частоту терміна в документі, так і його обернену частоту в усьому корпусі. Це зменшує вплив поширених термінів і виділяє рідкісніші, більш інформативні слова.

Як працює TF-IDF

TF-IDF-оцінка для терміна в документі обчислюється за формулою:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

де:

$t$ — термін (слово або n-грам);
$d$ — документ.

Існує багато варіантів обчислення значень $\operatorname{tf}$ та $\operatorname{idf}$ . Розглянемо один із поширених підходів для кожного з них:

Частота терміна (TF)

Відображає, наскільки часто термін зустрічається в документі, визначаючи його відносну важливість у цьому документі. Подібно до моделі мішок слів, часто використовується простий підрахунок:

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Зворотна частота документа (IDF)

Вимірює рідкість терміна в усьому корпусі. Може обчислюватися як натуральний логарифм відношення загальної кількості документів до кількості документів, що містять цей термін:

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

У цій формулі використовується згладжування (додавання 1), щоб уникнути ділення на нуль, і гарантується, що навіть поширені терміни отримують ненульове значення IDF. Таким чином, IDF зменшує вагу частих термінів і підкреслює більш інформативні, рідкісні слова.

Без компонента IDF TF-IDF зводиться до простого підрахунку термінів — фактично повертаючись до моделі мішок слів.

Обчислення TF-IDF

Розглянемо простий приклад:

У цьому випадку маємо лише два документи та використовуємо лише уніграмми (окремі слова), тому обчислення є простими. Спочатку обчислюємо частоти термів для кожного слова в обох документах, а потім — значення IDF для термінів "a" та "is".

Примітка

Оскільки в нашому корпусі лише два документи, кожен термін, що зустрічається в обох документах, матиме значення IDF 1, а інші терміни — значення IDF ~1.406465.

Нарешті, можемо обчислити значення TF-IDF для кожного терміну в кожному документі, перемноживши TF на IDF, що дає наступну матрицю:

L2-нормалізація

Отримані TF-IDF-вектори можуть суттєво відрізнятися за модулем, особливо у великих корпусах, через різну довжину документів. Саме тому часто застосовується L2-нормалізація — для приведення всіх векторів до однакової довжини, що забезпечує коректне та неупереджене порівняння документів різної довжини.

Дізнатися більше

L2-нормалізація, також відома як евклідова нормалізація, — це процес, який застосовується до окремих векторів для коригування їхніх значень так, щоб довжина вектора дорівнювала 1.

L2-нормалізація виконується шляхом ділення кожного елемента вектора на евклідову норму цього вектора.

Якщо вектор документа має вигляд:

d = (w_1, w_2, w_3, ..., w_N)

де $w_i$ — це вага терміна $i$ ,

тоді евклідова норма обчислюється так:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

а нормалізований вектор виглядає так:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

Нижче показано, як працює L2-нормалізація для двовимірного вектора (документ з двома термінами):

Примітка

Не хвилюйтеся, якщо формули здаються складними. Все, що ми робимо — це ділимо кожне значення TF-IDF у документі на довжину (або модуль) вектора TF-IDF цього документа. Це масштабує вектор так, що його довжина стає 1, забезпечуючи коректне порівняння векторів.

Тепер застосуємо L2-нормалізацію до нашої TF-IDF матриці, яку ми обчислили вище:

Отримана матриця — це саме той приклад, який ми розглядали в одному з попередніх розділів.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 6

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain why L2 normalization is important for comparing documents?

How does TF-IDF differ from the bag of words model in practice?

Can you walk me through a step-by-step example of calculating TF-IDF for a small dataset?

Awesome!

Completion rate improved to 3.45

Свайпніть щоб показати меню

Розуміння TF-IDF

Визначення

Як працює TF-IDF

TF-IDF-оцінка для терміна в документі обчислюється за формулою:

\def\tfidf{\operatorname{tf-idf}} \def\tf{\operatorname{tf}} \def\idf{\operatorname{idf}} \tfidf(t, d) = \tf(t, d) \times \idf(t)

де:

$t$ — термін (слово або n-грам);
$d$ — документ.

Частота терміна (TF)

\def\tf{\operatorname{tf}} \def\count{\operatorname{count}} \tf(t, d) = \count(t, d)

Зворотна частота документа (IDF)

\def\idf{\operatorname{idf}} \def\df{\operatorname{df}} \idf(t) = \log\Bigl(\frac{1 + N_{documents}}{1 + \df(t)}\Bigr) + 1

Обчислення TF-IDF

Розглянемо простий приклад:

Примітка

L2-нормалізація

Дізнатися більше

L2-нормалізація виконується шляхом ділення кожного елемента вектора на евклідову норму цього вектора.

Якщо вектор документа має вигляд:

d = (w_1, w_2, w_3, ..., w_N)

де $w_i$ — це вага терміна $i$ ,

тоді евклідова норма обчислюється так:

\|d\|_2 = \sqrt{w^2_1 + w^2_2 + w^2_3 + ... + w^2_N}

а нормалізований вектор виглядає так:

d_{norm} = \Bigl(\frac{w_1}{\|d\|_2}, \frac{w_2}{\|d\|_2}, \frac{w_3}{\|d\|_2}, ..., \frac{w_N}{\|d\|_2})

Нижче показано, як працює L2-нормалізація для двовимірного вектора (документ з двома термінами):

Примітка

Тепер застосуємо L2-нормалізацію до нашої TF-IDF матриці, яку ми обчислили вище:

Отримана матриця — це саме той приклад, який ми розглядали в одному з попередніх розділів.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 3. Розділ 6