Основи Векторних Подань Слів
Розуміння векторних подань слів
Традиційні методи представлення тексту, такі як bag of words та TF-IDF, мають суттєві обмеження. Вони розглядають слова ізольовано, ігноруючи семантичні зв'язки, та створюють високорозмірні, розріджені вектори, які стають обчислювально неефективними при роботі з великими корпусами.
Векторні подання слів вирішують ці проблеми, враховуючи контекст появи слів, що забезпечує більш глибоке розуміння мови.
Векторні подання слів — це щільні векторні представлення слів у неперервному векторному просторі, де семантично подібні слова розташовані поруч.
Було розроблено кілька моделей і технік для створення змістовних векторних подань слів:
-
Word2Vec: розроблена компанією Google, Word2Vec представляє слова у вигляді щільних векторів, використовуючи дві архітектури: continuous bag of words (CBoW), яка передбачає слово за його контекстом, та Skip-gram, яка передбачає контекстні слова за заданим словом;
-
GloVe: створена у Стенфорді, GloVe (global vectors) генерує векторні подання слів шляхом аналізу глобальної статистики спільної зустрічальності слів у всьому корпусі, фіксуючи семантичні зв'язки на основі частоти спільної появи пар слів;
-
FastText: представлена Facebook AI Research, FastText базується на Word2Vec, представляючи слова як набір n-грам символів. Це дозволяє моделювати підсловникову інформацію, покращуючи здатність працювати з рідкісними та невідомими словами, а також з мовами з багатою морфологією.
Word2Vec та FastText є найбільш поширеними моделями для створення векторних подань слів. Однак, оскільки FastText є лише вдосконаленою версією Word2Vec, ми пропустимо його та зосередимося лише на Word2Vec.
Як працює Word2Vec?
Word2Vec перетворює слова у вектори за допомогою процесу, який починається з one-hot кодування, де кожне слово у словнику представляється унікальним вектором з однією 1 серед нулів. Розглянемо приклад:
Цей вектор слугує вхідними даними для нейронної мережі, яка призначена для «навчання» векторних подань слів. Архітектура мережі може відповідати одній із двох моделей:
- CBoW (безперервний мішок слів): прогнозує цільове слово на основі контексту, який задається оточуючими словами;
- Skip-gram: прогнозує слова контексту на основі цільового слова.
В обох архітектурах Word2Vec під час кожної ітерації навчання моделі подається цільове слово та слова, що його оточують, як контекст, представлений у вигляді one-hot векторів. Навчальна вибірка таким чином фактично складається з цих пар або груп, де кожне цільове слово асоціюється з відповідними словами контексту.
Кожне слово у словнику по черзі стає цільовим, коли модель проходить текст за допомогою техніки ковзного контекстного вікна. Ця техніка систематично переміщується по кожному слову, забезпечуючи повноцінне навчання на основі всіх можливих контекстів у корпусі.
Контекстне вікно — це фіксована кількість слів навколо цільового слова, які модель використовує для вивчення його контексту. Воно визначає, скільки слів до та після цільового слова враховується під час навчання.
Розглянемо приклад із розміром вікна, що дорівнює 2, для кращого розуміння:
Розмір вікна контексту 2 означає, що модель враховує до 2 слів зліва та справа від цільового слова, якщо ці слова доступні в межах тексту. Як видно, якщо з будь-якого боку є менше ніж 2 слова, модель враховує стільки слів, скільки доступно.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain the main differences between Word2Vec, GloVe, and FastText?
How does the sliding context window impact the quality of word embeddings?
Can you provide a simple example of how Word2Vec learns word relationships?
Awesome!
Completion rate improved to 3.45
Основи Векторних Подань Слів
Свайпніть щоб показати меню
Розуміння векторних подань слів
Традиційні методи представлення тексту, такі як bag of words та TF-IDF, мають суттєві обмеження. Вони розглядають слова ізольовано, ігноруючи семантичні зв'язки, та створюють високорозмірні, розріджені вектори, які стають обчислювально неефективними при роботі з великими корпусами.
Векторні подання слів вирішують ці проблеми, враховуючи контекст появи слів, що забезпечує більш глибоке розуміння мови.
Векторні подання слів — це щільні векторні представлення слів у неперервному векторному просторі, де семантично подібні слова розташовані поруч.
Було розроблено кілька моделей і технік для створення змістовних векторних подань слів:
-
Word2Vec: розроблена компанією Google, Word2Vec представляє слова у вигляді щільних векторів, використовуючи дві архітектури: continuous bag of words (CBoW), яка передбачає слово за його контекстом, та Skip-gram, яка передбачає контекстні слова за заданим словом;
-
GloVe: створена у Стенфорді, GloVe (global vectors) генерує векторні подання слів шляхом аналізу глобальної статистики спільної зустрічальності слів у всьому корпусі, фіксуючи семантичні зв'язки на основі частоти спільної появи пар слів;
-
FastText: представлена Facebook AI Research, FastText базується на Word2Vec, представляючи слова як набір n-грам символів. Це дозволяє моделювати підсловникову інформацію, покращуючи здатність працювати з рідкісними та невідомими словами, а також з мовами з багатою морфологією.
Word2Vec та FastText є найбільш поширеними моделями для створення векторних подань слів. Однак, оскільки FastText є лише вдосконаленою версією Word2Vec, ми пропустимо його та зосередимося лише на Word2Vec.
Як працює Word2Vec?
Word2Vec перетворює слова у вектори за допомогою процесу, який починається з one-hot кодування, де кожне слово у словнику представляється унікальним вектором з однією 1 серед нулів. Розглянемо приклад:
Цей вектор слугує вхідними даними для нейронної мережі, яка призначена для «навчання» векторних подань слів. Архітектура мережі може відповідати одній із двох моделей:
- CBoW (безперервний мішок слів): прогнозує цільове слово на основі контексту, який задається оточуючими словами;
- Skip-gram: прогнозує слова контексту на основі цільового слова.
В обох архітектурах Word2Vec під час кожної ітерації навчання моделі подається цільове слово та слова, що його оточують, як контекст, представлений у вигляді one-hot векторів. Навчальна вибірка таким чином фактично складається з цих пар або груп, де кожне цільове слово асоціюється з відповідними словами контексту.
Кожне слово у словнику по черзі стає цільовим, коли модель проходить текст за допомогою техніки ковзного контекстного вікна. Ця техніка систематично переміщується по кожному слову, забезпечуючи повноцінне навчання на основі всіх можливих контекстів у корпусі.
Контекстне вікно — це фіксована кількість слів навколо цільового слова, які модель використовує для вивчення його контексту. Воно визначає, скільки слів до та після цільового слова враховується під час навчання.
Розглянемо приклад із розміром вікна, що дорівнює 2, для кращого розуміння:
Розмір вікна контексту 2 означає, що модель враховує до 2 слів зліва та справа від цільового слова, якщо ці слова доступні в межах тексту. Як видно, якщо з будь-якого боку є менше ніж 2 слова, модель враховує стільки слів, скільки доступно.
Дякуємо за ваш відгук!