Abrindo Arquivo HTML
Você já está familiarizado com os conceitos básicos de HTML, então agora explore o primeiro método de trabalhar com ele em Python.
Um dos módulos que pode ser utilizado para manipular arquivos HTML em Python é o urllib.request. Você precisará importar o método urlopen para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para este método.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Como mostrado no exemplo acima, o resultado é um objeto http.client.HTTPResponse, que não é a saída desejada. Para obter a estrutura HTML, aplique os métodos .read() e .decode('utf-8') ao objeto recebido.
A parte decode("utf-8") é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página está codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para análise ou processamento do conteúdo.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Como resultado da aplicação dos métodos .read() e .decode(), obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.
Se o método .decode() não fosse aplicado, você receberia um objeto bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4.35
Abrindo Arquivo HTML
Deslize para mostrar o menu
Você já está familiarizado com os conceitos básicos de HTML, então agora explore o primeiro método de trabalhar com ele em Python.
Um dos módulos que pode ser utilizado para manipular arquivos HTML em Python é o urllib.request. Você precisará importar o método urlopen para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para este método.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Como mostrado no exemplo acima, o resultado é um objeto http.client.HTTPResponse, que não é a saída desejada. Para obter a estrutura HTML, aplique os métodos .read() e .decode('utf-8') ao objeto recebido.
A parte decode("utf-8") é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página está codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para análise ou processamento do conteúdo.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Como resultado da aplicação dos métodos .read() e .decode(), obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.
Se o método .decode() não fosse aplicado, você receberia um objeto bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!
Obrigado pelo seu feedback!