Що таке Beautiful Soup?
BeautifulSoup — це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що мало суттєві обмеження.
Щоб встановити BeautifulSoup, виконайте наступну команду у вашому терміналі або командному рядку:
pip install beautifulsoup4;- Для початку роботи імпортуйте
BeautifulSoupз пакетуbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак це можна реалізувати за допомогою urlopen з модуля urllib.request. Для початку парсингу передайте два параметри у функцію BeautifulSoup: HTML файл і парсер (використовуйте вбудований html.parser). Це створює об'єкт BeautifulSoup. Наприклад, відкрийте та прочитайте веб-сторінку.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Перший метод для ознайомлення — це .prettify(), який відображає HTML файл як вкладену структуру даних.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What are some other useful methods in BeautifulSoup?
Awesome!
Completion rate improved to 4.35
Що таке Beautiful Soup?
Свайпніть щоб показати меню
BeautifulSoup — це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що мало суттєві обмеження.
Щоб встановити BeautifulSoup, виконайте наступну команду у вашому терміналі або командному рядку:
pip install beautifulsoup4;- Для початку роботи імпортуйте
BeautifulSoupз пакетуbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак це можна реалізувати за допомогою urlopen з модуля urllib.request. Для початку парсингу передайте два параметри у функцію BeautifulSoup: HTML файл і парсер (використовуйте вбудований html.parser). Це створює об'єкт BeautifulSoup. Наприклад, відкрийте та прочитайте веб-сторінку.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Перший метод для ознайомлення — це .prettify(), який відображає HTML файл як вкладену структуру даних.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Дякуємо за ваш відгук!