Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Abrindo Arquivo HTML | Familiarizando-se com HTML
Web Scraping com Python

bookAbrindo Arquivo HTML

Você já está familiarizado com os conceitos básicos de HTML, então agora explore o primeiro método de trabalhar com ele em Python.

Um dos módulos que pode ser utilizado para manipular arquivos HTML em Python é o urllib.request. Você precisará importar o método urlopen para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para este método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como mostrado no exemplo acima, o resultado é um objeto http.client.HTTPResponse, que não é a saída desejada. Para obter a estrutura HTML, aplique os métodos .read() e .decode('utf-8') ao objeto recebido.

Note
Definição

A parte decode("utf-8") é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página está codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para análise ou processamento do conteúdo.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado da aplicação dos métodos .read() e .decode(), obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.

Se o método .decode() não fosse aplicado, você receberia um objeto bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 8

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4.35

bookAbrindo Arquivo HTML

Deslize para mostrar o menu

Você já está familiarizado com os conceitos básicos de HTML, então agora explore o primeiro método de trabalhar com ele em Python.

Um dos módulos que pode ser utilizado para manipular arquivos HTML em Python é o urllib.request. Você precisará importar o método urlopen para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para este método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como mostrado no exemplo acima, o resultado é um objeto http.client.HTTPResponse, que não é a saída desejada. Para obter a estrutura HTML, aplique os métodos .read() e .decode('utf-8') ao objeto recebido.

Note
Definição

A parte decode("utf-8") é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página está codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para análise ou processamento do conteúdo.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado da aplicação dos métodos .read() e .decode(), obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.

Se o método .decode() não fosse aplicado, você receberia um objeto bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 8
some-alt