Oppiskele Suurten Tiedostojen Käsittely | Suorituskyvyn Parantaminen Sisäänrakennetuilla Työkaluilla

Pyyhkäise näyttääksesi valikon

Suurten tiedostojen tehokas käsittely on olennaista, kun työskennellään muistiin mahtumattomien tietoaineistojen kanssa. Python tarjoaa työkaluja, kuten open() ja map(), joiden avulla tiedostoja voidaan käsitellä laiskasti, mikä säästää muistia ja parantaa suorituskykyä.

Mitä ovat iteraattorit?

Ennen kuin siirrytään open()-funktion käyttöön, on tärkeää ymmärtää, mitä iteraattori tarkoittaa. Iteraattori on olio, joka edustaa tietovirtaa ja mahdollistaa yhden alkion kerrallaan käsittelyn. Iteraattorit toteuttavat kaksi metodia:

__iter__(): palauttaa iteraattoriolion itsensä;
__next__(): palauttaa seuraavan alkion virrasta ja nostaa StopIteration-poikkeuksen, kun alkioita ei ole enää jäljellä.

Oletetaan, että meillä on iteraattori nimeltä iterator_object. Sitä voidaan käydä läpi tavallisella for-silmukalla:

for element in iterator_object:
    ...  # Process the element

Todellisuudessa seuraavaa tapahtuu taustalla (next()-funktio kutsuu sisäisesti iteraattorin __next__()-metodia):

while True:
    try:
        element = next(iterator_object)
        ...  # Process the element
    except StopIteration:
        break

Toisin kuin tavalliset kokoelmat, iteraattoreille on ominaista laiska evaluointi, eli ne tuottavat tai hakevat tietoa vain tarvittaessa sen sijaan, että lataisivat kaiken muistiin kerralla. Tämä tekee niistä erittäin muistitehokkaita erityisesti suurten tietoaineistojen käsittelyssä.

Tiedosto-oliot iteraattoreina

open()-funktio palauttaa tiedosto-olion, joka on iteraattori. Tämä mahdollistaa:

Tiedoston läpikäynnin rivi riviltä for-silmukalla;
Yhden rivin lukemisen kerrallaan muistiin, mikä sopii suurille tiedostoille (kunhan yksittäiset rivit mahtuvat muistiin).

Esimerkiksi, jos lokitiedostossa on 1,000,000 riviä ja sekä INFO- että ERROR-viestejä, voimme silti laskea ERROR-esiintymät käymällä tiedoston läpi rivi kerrallaan, vaikka tiedosto ei kokonaisuudessaan mahtuisi muistiin (näin käy, jos lokitietoja lisätään huomattavasti enemmän).


              1234567891011
            
log_lines = [f"INFO: Log entry {i}" if i % 100 != 0 else f"ERROR: Critical issue {i}" for i in range(1, 1000001)]
with open("large_log.txt", "w") as log_file:
    log_file.write("\n".join(log_lines))

# Process the file to count error entries
error_count = 0
for line in open("large_log.txt"):
    if "ERROR" in line:
        error_count += 1

print(f"Total error entries: {error_count}")

Tiedostorivien muuntaminen map()-funktiolla

Kuten edellisessä luvussa mainittiin, map() palauttaa iteraattorin, joka soveltaa muunnosfunktiota laiskasti jokaiselle tiedoston riville. Samoin kuin tiedosto-oliot, map() käsittelee dataa yksi alkio kerrallaan lataamatta kaikkea muistiin, mikä tekee siitä tehokkaan vaihtoehdon suurten tiedostojen käsittelyyn.

Esimerkiksi luodaan tiedosto, joka sisältää 1000000 sähköpostiosoitetta, joista osa sisältää isoja kirjaimia. Tavoitteena on muuntaa kaikki sähköpostit pieniksi kirjaimiksi ja tallentaa normalisoidut tulokset uuteen tiedostoon ('normalized_emails.txt'). Käytämme tähän map()-funktiota varmistaen, että skripti pysyy tehokkaana ja soveltuu myös vielä suurempien tiedostojen käsittelyyn.


              12345678910111213141516171819202122
            
# Create a file with mixed-case email addresses
email_lines = [
    "John.Doe@example.com",
    "Jane.SMITH@domain.org",
    "BOB.brown@anotherexample.net",
    "ALICE.williams@sample.com"
] * 250000  # Repeat to simulate a large file

with open("email_list.txt", "w") as email_file:
    email_file.write("\n".join(email_lines))

# Process the file to standardize email addresses (convert to lowercase)
with open("email_list.txt") as input_file, open("normalized_emails.txt", "w") as output_file:
    # Use map() to convert each email to lowercase
    lowercase_emails = map(str.lower, input_file)
    for email in lowercase_emails:
        output_file.write(email)
      
    # Print the last email to verify the results
    print(email)

print('Done')

1. Sinun täytyy muuntaa kaikki tiedoston sähköpostiosoitteet pieniksi kirjaimiksi ja tallentaa ne uuteen tiedostoon ilman, että lataat koko tiedoston muistiin. Mikä lähestymistapa on tehokkain?

2. Mikä seuraavista väittämistä tiedosto-olioista on oikein?

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 2

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 2