Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Що таке Beautiful Soup? | Декодування HTML за допомогою Beautiful Soup
Web Scraping з Python

bookЩо таке Beautiful Soup?

BeautifulSoup — це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що мало суттєві обмеження.

Щоб встановити BeautifulSoup, виконайте наступну команду у вашому терміналі або командному рядку:

  • pip install beautifulsoup4;
  • Для початку роботи імпортуйте BeautifulSoup з пакету bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак це можна реалізувати за допомогою urlopen з модуля urllib.request. Для початку парсингу передайте два параметри у функцію BeautifulSoup: HTML файл і парсер (використовуйте вбудований html.parser). Це створює об'єкт BeautifulSoup. Наприклад, відкрийте та прочитайте веб-сторінку.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Перший метод для ознайомлення — це .prettify(), який відображає HTML файл як вкладену структуру даних.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What are some other useful methods in BeautifulSoup?

Awesome!

Completion rate improved to 4.35

bookЩо таке Beautiful Soup?

Свайпніть щоб показати меню

BeautifulSoup — це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що мало суттєві обмеження.

Щоб встановити BeautifulSoup, виконайте наступну команду у вашому терміналі або командному рядку:

  • pip install beautifulsoup4;
  • Для початку роботи імпортуйте BeautifulSoup з пакету bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак це можна реалізувати за допомогою urlopen з модуля urllib.request. Для початку парсингу передайте два параметри у функцію BeautifulSoup: HTML файл і парсер (використовуйте вбудований html.parser). Це створює об'єкт BeautifulSoup. Наприклад, відкрийте та прочитайте веб-сторінку.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Перший метод для ознайомлення — це .prettify(), який відображає HTML файл як вкладену структуру даних.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 1
some-alt