Зміст курсу

Основи Комп'ютерного Зору

1. Вступ до Комп'ютерного Зору

Що таке комп'ютерний зір?Основи Обробки Зображень Лінійна Алгебра для Обробки Зображень

2. Обробка Зображень з OpenCV

Базові Перетворення Перетворення Фур'є Низькочастотні та Високочастотні Фільтри Зменшення Шуму та Згладжування Вирівнювання Гістограми Техніки Суперроздільної Здатності Виявлення Країв Виявлення Кутів і Плям

3. Згорткові Нейронні Мережі

Вступ до Згорткових Нейронних Мереж Шари Згортки Шари Підвибірки Перетворення у вектор Функції активації Огляд популярних моделей CNN Завдання: Побудова CNN

4. Виявлення Об'єктів

Локалізація Об'єктів Виявлення Об'єктів Прогнозування Обмежувальних Рамок Перетин над Об'єднанням (IoU) та Метрики Оцінювання Приглушення Немаксимальних Значень (NMS)Якорні блоки Огляд Моделі YOLO Завдання: Виявлення Об'єктів Із Власною Моделлю Та YOLO

5. Огляд Розширених Тем

Трансферне навчання у комп'ютерному зорі Огляд Розпізнавання Обличчя Огляд Генерації Зображень

Лінійна Алгебра для Обробки Зображень

Лінійна алгебра відіграє ключову роль в обробці зображень. Оскільки цифрові зображення представлені у вигляді матриць піксельних значень, математичні операції, такі як перетворення, масштабування та обертання, можуть виконуватися за допомогою маніпуляцій з матрицями. Розглянемо основні поняття лінійної алгебри, які використовуються у комп'ютерному зорі.

Представлення зображення у вигляді матриць

Цифрове зображення — це, по суті, сітка пікселів, і кожен піксель має значення інтенсивності. У відтінках сірого це 2D-матриця, де кожен елемент відповідає рівню яскравості (0 — чорний, 255 — білий). Наприклад, просте 6×6 зображення у відтінках сірого може виглядати так:

Кольорові зображення, натомість, є 3D-матрицями (також називаються тензорами), з окремими шарами для червоного, зеленого та синього (RGB).

Зображення у відтінках сірого мають форму (60, 60), тобто складаються з 60 рядків і 60 стовпців, де кожен піксель представляє одне значення інтенсивності — є лише один колірний канал. На відміну від цього, RGB-зображення мають форму (60, 60, 3), що вказує на таку ж просторову роздільну здатність (60 рядків і 60 стовпців), але з додатковим виміром для кольору: кожен піксель містить три значення, які відповідають червоному, зеленому та синьому каналам, що разом визначають повний колір у цій точці.

Лінійні алгебраїчні перетворення для обробки зображень

Багато маніпуляцій із зображеннями базуються на операціях з матрицями, тому лінійна алгебра є основою комп'ютерного зору. Розглянемо найпоширеніші перетворення.

Масштабування зображення (зміна розміру)

Масштабування збільшує або зменшує розмір зображення. Це досягається множенням матриці зображення на матрицю масштабування:

S = [\begin{matrix} s_{x} & 0 \\ 0 & s_{y} \end{matrix}]

де s_x та s_y — коефіцієнти масштабування по ширині та висоті відповідно. Приклад: якщо потрібно подвоїти розмір зображення, використовуємо:

S = [\begin{matrix} 2 & 0 \\ 0 & 2 \end{matrix}]

Множення цієї матриці на координати кожного пікселя масштабує зображення.

Обертання зображення

Для обертання зображення на кут θ використовується матриця обертання:

R = [\begin{matrix} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{matrix}]

Наприклад, обертання зображення на 90 градусів за годинниковою стрілкою означає використання:

θ = 90°

R = [\begin{matrix} 0 & 1 \\ - 1 & 0 \end{matrix}]

Застосування цього перетворення переміщує кожен піксель на нову позицію, ефективно обертаючи зображення.

Зсув (скошування зображення)

Зсув спотворює зображення шляхом зміщення його рядків або стовпців. Матриця перетворення зсуву має вигляд:

Ω = [\begin{matrix} 1 & ω_{x} \\ ω_{y} & 1 \end{matrix}]

де ω_x та ω_y визначають ступінь скошування зображення по горизонталі та вертикалі. Зміщення зображення на 30% по горизонталі та 20% по вертикалі:

Ω = [\begin{matrix} 1 & 0.3 \\ 0.2 & 1 \end{matrix}]

Чому лінійна алгебра важлива в комп'ютерному зорі

Лінійна алгебра є основою багатьох завдань обробки зображень, зокрема:

Виявлення об'єктів (обмежувальні рамки базуються на перетвореннях);
Розпізнавання облич (власні вектори та PCA для виділення ознак);
Покращення зображень (фільтрація використовує матричні згортки);
Нейронні мережі (ваги зберігаються у вигляді матриць).

Розуміння цих базових операцій дозволяє ефективно маніпулювати зображеннями та створювати більш складні застосунки комп'ютерного зору.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 3

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат