Aprenda Aplicando Métodos de String | Familiarização com HTML

O que pode ser feito com a página lida? Como se trata de uma string, é possível utilizar qualquer método de string. Por exemplo, o método .find() retorna o índice da primeira ocorrência de um elemento específico. Ele pode ser utilizado para localizar o título da página, encontrando os índices das tags de abertura e fechamento e considerando o comprimento da tag de fechamento.


              1234567891011121314
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")

# Indexes of opening and closing title tags
start = web_page.find("<title")
finish = web_page.find("</title>") + len("</title>")
print(web_page[start:finish])

Como mostrado no exemplo acima, duas variáveis, start e finish, foram criadas. A variável start armazena o índice do primeiro caractere dentro da tag de abertura <title>, enquanto a variável finish armazena o índice do caractere logo após a tag de fechamento </title>. O método .find() retorna o índice inicial da tag de fechamento, portanto, o comprimento da tag é somado para obter a posição final.

Aprofunde-se

A fatia de listas exclui o último elemento, por isso o próximo caractere após a tag de fechamento é utilizado.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 10

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

Can you show how to extract just the text inside the <title> tags?

Deslize para mostrar o menu


              1234567891011121314
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")

# Indexes of opening and closing title tags
start = web_page.find("<title")
finish = web_page.find("</title>") + len("</title>")
print(web_page[start:finish])

Aprofunde-se

A fatia de listas exclui o último elemento, por isso o próximo caractere após a tag de fechamento é utilizado.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 10