Вступ до навчання з підкріпленням з використанням Python

Навчання з підкріпленням (RL) — це потужна гілка машинного навчання, зосереджена на тренуванні інтелектуальних агентів шляхом їхньої взаємодії з оточе…Показати більше

90 учнів

Вже зареєстровано

Курс для просунутого рівня

5 модулі

Інтерактивне середовище

37 глави

AI Асистент

37 завдання

Сертифікат для поширення

Результати

Зміст курсу

Схожі курси

Відгуки

Особливості

Ціни

Часті запитання

Результати

Зміст курсу

Схожі курси

Відгуки

Особливості

Ціни

Часті запитання

Що ви навчитеся

Розуміння основ навчання з підкріпленням

Балансування стратегій дослідження та використання

Володіння динамічним програмуванням у RL

Відмінності RL від інших парадигм навчання

Налаштування та запуск середовищ Gymnasium

Використання рівнянь Беллмана для оцінки політик

Застосування марковських процесів прийняття рішень у RL

Реалізація алгоритмів багаторукого бандита

Застосування методів Монте-Карло для безмодельного RL

Зміст курсу

Навчання з підкріпленням (RL) — це потужна гілка машинного навчання, зосереджена на тренуванні інтелектуальних агентів шляхом їхньої взаємодії з оточенням. У цьому курсі ви дізнаєтеся, як аге…

Дізнайтеся, як навчати агентів приймати оптимальні рішення шляхом спроб і помилок. Ознайомтеся з основами теорії підкріплювального навчання. Отримайте практичний досвід налаштування та запуску середовища Gymnasium.

Що таке RL?

Підкріплювальне навчання проти інших парадигм навчання

Марковський процес прийняття рішень

Епізоди та Винагороди

Модель, Політика та Значення

Дослідження проти Використання

Основи Gymnasium

Завдання: Налаштування Середовища

Опанування компромісу між дослідженням і використанням через проблему багаторукого бандита. Реалізація оцінки цінності дій, ε-жадібного методу, методу верхньої довірчої межі та градієнтного бандита. Оцінювання ефективності алгоритмів на змодельованих завданнях максимізації винагороди.

Вступ до Задачі

Значення Дій

Епсилон-Жадібний Алгоритм

Алгоритм Верхньої Довірчої Межі

Алгоритм Градієнтних Бандитів

Завдання: Задача з багаторукими бандитами

Опанування динамічного програмування для модельно-орієнтованого навчання з підкріпленням. Вивчення використання рівнянь Беллмана для оцінки та покращення стратегій. Реалізація алгоритмів ітерації політики та ітерації значення. Ознайомлення з узагальненою ітерацією політики як теоретичною основою для безмодельних методів.

Що таке динамічне програмування?

Узагальнена Ітерація Політики

Ітерація Політики

Ітерація Значень

Виклик: Динамічне Програмування

Опанування методів Монте-Карло для безмодельного навчання з підкріпленням. Оцінювання функцій цінності та виведення оптимальних стратегій на основі повних епізодів. Реалізація алгоритмів керування Монте-Карло на політиці та поза політикою. Вивчення стратегій дослідження для оптимізації безмодельного навчання.

Що Таке Методи Монте-Карло?

Оцінювання Функції Цінності

Керування методом Монте-Карло

Підходи до Дослідження

Керування методом Монте-Карло з політикою, що використовується

Off-Policy Керування Методом Монте-Карло

Інкрементні Реалізації

Завдання: Методи Монте-Карло

Опанування навчання з часовою різницею для безмодельного підкріплення. Оцінювання функцій цінності за частковими епізодами з використанням оновлень TD(0). Реалізація алгоритмів SARSA на політиці та Q-Learning поза політикою. Вивчення поєднання методів Монте-Карло та навчання з часовою різницею у n-кроковому TD та TD(λ).

Що Таке Навчання з Часовою Різницею?

TD(0): Оцінювання Функції Цінності

SARSA: Навчання з Часовою Різницею на Політиці

Q-Навчання: Позаполітичне TD-Навчання

Узагальнення TD-Навчання

Завдання: Навчання з Часовою Різницею

Покращуйте свої технічні навички!

зі знижкою до 55%

What you'll get with our subscription:

500+ найкращих курсівСертифікати про завершенняПерсоналізовані навчальні треки40+ практичних реальних проектів

Ваше підписка також включає 500+ курсів:

TEST COURSE WITH ALL TYPES OF COLUMN CHAPTERS

test python course with 6 sections

TEST SHORT VIDEO COURSE

Course without tasks for flow test

Course for E2E testing

Test mobile outline course

Super course

Проведення A/B Тесту

У світі бізнесу прийняття рішень на основі достовірних даних, а не інтуїції, може стати ключем до успіху. Цей курс зосереджений на одній важливій техніці: аналізі даних A/B тестування. Основою курсу є проєкт, у якому ви проведете детальний аналіз A/B тесту. Цей проєкт, який ви можете додати до свого резюме, розміщено на Codefinity, що дозволяє постійно його вдосконалювати та демонструвати зростаючу експертизу.

TEST FREE COURSE

description

Testing Video Player

TEST COURSE WITH ALL TYPES OF COLUMN CHAPTERS

test python course with 6 sections

TEST SHORT VIDEO COURSE

Course without tasks for flow test

Course for E2E testing

Test mobile outline course

Super course

Проведення A/B Тесту

TEST FREE COURSE

description

Testing Video Player

Чому обирають Codefinity

Web Developer

Kwizera Mugisha

The teaching methodology at Codefinity is excellent, and I particularly appreciate how it has prepared me to handle real-world coding problems. Currently, I am delving into Node.js and eagerly anticipate building full-stack projects that integrate all the knowledge I have gained.

Senior Business Analyst

Sherry Barnes-Fox

My first course was 4 hours, I did it in a few days, "nugget-style". The instructions are very clear and easy to understand. There is even a hint to help you get the answer. I love the learning style that is used, it engages me.

Accounts Payable Specialist

Bill Wagner

I have really liked the browser-based lessons that allow me to code within the lesson. The RUN button allows me to test the code I write before submitting for a grade.

IT Support Specialist

Daniel Chinea

I have gained a lot of practical and logical thinking skills, along with patience for myself and confidence in myself that I can learn programming. Years ago, I would have never thought that I could learn programming in any way, shape or form, and I was able to obtain these certifications and skills with Codefinity.

Technology Project Manager

Steve Bruening

The learning was progressive and made it easy to follow along and make progress. I could feel my skills increasing and building on each other as the course went along.

Project Manager

Stephanie Chan

As I went through the first course of the Python track, I liked the way the course was lay out (in easy and digestible modules) with little exercises at the end of each concept.

Крок за кроком до відмінних результатів

Розв'язуйте реальні завдання з кодування

Інтерактивне середовище кодування

Зануртеся в наше інтерактивне середовище: пишіть і запускайте свій код з миттєвим зворотним зв'язком і метриками успіху — навчайтеся, виконуючи на кожному кроці.

Отримуйте допомогу на вимогу

Підтримка на базі AI

Використовуйте вбудованого AI асистента для пояснення помилок, пропозицій виправлень або відповідей на будь-які питання щодо вашого коду — залишайтеся продуктивними і ніколи не застрягайте.

Закріпіть своє навчання

Перевірка знань

Завершуйте кожен модуль швидким тестом, який надає миттєвий зворотний зв'язок, відстежує ваш прогрес і гарантує, що ви освоїли ключові концепції.

Покажіть свої навички

Святкуйте успіх

Отримайте сертифікат, визнаний у галузі, після завершення і поділіться ним на LinkedIn одним кліком — нехай ваша мережа бачить, що ви можете.

Довіряють працівники провідних компаній
та студенти з провідних університетів

Миттєвий доступ до 500+ курсів

Необмежене навчання, миттєвий доступОтримайте повний доступ до всіх курсів і треків, включаючи відеоматеріали, тести та глибокі матеріали — починайте навчання в будь-який час.

Сертифікати, визнані у галузіОтримуйте сертифікати, що підтверджують вашу експертизу і підвищують вашу кар'єру в технологіях, AI, даних, маркетингу та інших сферах.

Навчання з підтримкою ШІОтримуйте персоналізовані підказки, миттєвий зворотний зв'язок і пояснення на базі AI для прискорення вашого прогресу.

Постійне розширення: нові курси та кар'єрні трекиБудьте попереду з постійно оновлюваними курсами, кар'єрними дорожніми картами, викликами та практичними тестами.

Розвивайте важливі навичкиОпануйте затребувані навички з курсами з AI, науки про дані, програмування, маркетингу, автоматизації, веб-розробки та інших.

Інтерактивне та безперервне навчанняЗаймайтеся практичними проектами, реальними вправами та інтуїтивним навчанням — без додаткових інструментів.

Повний доступ до каталогу

Одна підписка відкриває цей курс і весь наш каталог проектів і навичок.

Features:

500+ найкращих курсівПередовий AI Копілот

Персоналізовані навчальні треки40+ практичних реальних проектів

Без скасування, до закінчення обраного плану зі знижкою, я погоджуюсь, що Codefinity автоматично стягне плату $79 кожні 3 місяці поки я не скасую. Дізнайтеся більше про політику скасування та повернення в Умови підписки.

Спробуйте Codefinity з упевненістю — включена 30-денна гарантія повернення грошей

Щоб привітати вас у Codefinity, ми пропонуємо до 64% знижки на наші курси. Крім того, у нас є 30-денна гарантія повернення грошей, щоб ви могли спробувати нас без ризику.Ми щиро чекаємо на вас на нашій платформі і прагнемо зробити ваше навчання легким, інтерактивним і веселим.

Часті запитання

Як отримати доступ до платформи?

Хоча ви можете навчатися з Codefinity на будь-якому пристрої, ми настійно рекомендуємо використовувати комп'ютер або ноутбук для оптимізації вашого навчального досвіду.

Що робити, якщо у мене виникнуть питання під час навчання?

Усі наші курси мають інтегрованого AI-асистента, готового допомогти вам з будь-якими питаннями, які можуть виникнути під час навчання, і допомогти вирішити будь-які проблеми.

Чи потрібен технічний ступінь для навчання?

Ні, вам не потрібен попередній досвід, щоб почати навчання. Наші курси розроблені для початківців, тому ви можете легко розпочати свій шлях у технічній галузі.

Ще є запитання?

Напишіть ваше запитання тут

Вступ до навчання з підкріпленням з використанням Python

Курс для просунутого рівня

Що ви навчитеся

Зміст курсу

Ваше підписка також включає 500+ курсів:

Чому обирають Codefinity

Крок за кроком до відмінних результатів

Довіряють працівники провідних компаній та студенти з провідних університетів

Миттєвий доступ до 500+ курсів

Повний доступ до каталогу

Спробуйте Codefinity з упевненістю — включена 30-денна гарантія повернення грошей

Часті запитання

Ще є запитання?

Довіряють працівники провідних компаній
та студенти з провідних університетів