Oppiskele Tehokkaat Merkkijonotoiminnot | Suorituskyvyn Parantaminen Sisäänrakennetuilla Työkaluilla

Pyyhkäise näyttääksesi valikon

Tehokas merkkijonojen yhdistäminen

Kun käsitellään useita merkkijonoja, on tärkeää käyttää mahdollisimman tehokasta tapaa yhdistämiseen. + (+=) -operaattorin toistuva käyttö on tehotonta suurilla tietomäärillä, koska se luo uuden merkkijonon jokaisella kerralla. Sen sijaan str.join() on huomattavasti nopeampi ja muistitehokkaampi.

Tarkastellaan kahden eri lähestymistavan suorituskykyä, kun merkkijonot yhdistetään rivinvaihtomerkillä yhdeksi merkkijonoksi. Ensimmäinen käyttää for-silmukkaa ja +=-operaattoria, kun taas toinen hyödyntää tehokkaampaa str.join()-menetelmää.


              1234567891011121314151617181920212223
            
import os
decorators = os.system('wget https://staging-content-media-cdn.codefinity.com/courses/8d21890f-d960-4129-bc88-096e24211d53/section_1/chapter_3/decorators.py 2>/dev/null')
from decorators import timeit_decorator

# Simulated lines of a report
lines = [f"Line {i}" for i in range(1, 1000001)]

# Inefficient concatenation
@timeit_decorator(number=50)
def concat_with_plus():
    result = ""
    for line in lines:
        result += line + "\n"
    return result

# Efficient concatenation
@timeit_decorator(number=50)
def concat_with_join():
    return "\n".join(lines) + "\n"  # Add final newline for consistency

result_plus = concat_with_plus()
result_join = concat_with_join()
print(result_plus == result_join)

Säännöllisten lausekkeiden esikääntäminen

Kun työskennellään säännöllisten lausekkeiden kanssa, suorituskyky voi muodostua ongelmaksi erityisesti suurten tietomäärien tai toistuvan mallin tunnistamisen yhteydessä. Tällaisissa tapauksissa mallin esikääntäminen on hyödyllinen optimointitekniikka.

Esikääntäminen varmistaa, että regex-moottori ei käännä mallia uudelleen joka käyttökerralla, mikä voi merkittävästi parantaa suorituskykyä, kun samaa mallia sovelletaan useita kertoja tietoaineistoon. Tämä lähestymistapa on erityisen hyödyllinen tilanteissa, kuten suodatuksessa, validoinnissa tai haussa suurissa tekstitiedostoissa.

Vertailkaamme kahden eri lähestymistavan suorituskykyä käyttäjätunnusten validoinnissa säännöllisten lausekkeiden avulla. Ensimmäinen tapa käyttää re.match-funktiota, jossa malli määritellään suoraan joka kutsukerralla. Toinen, tehokkaampi tapa esikääntää regex-malli käyttäen re.compile-funktiota ja käyttää sitä uudelleen kaikissa validoinneissa.


              1234567891011121314151617181920212223
            
import os
import re
decorators = os.system('wget https://staging-content-media-cdn.codefinity.com/courses/8d21890f-d960-4129-bc88-096e24211d53/section_1/chapter_3/decorators.py 2>/dev/null')
from decorators import timeit_decorator

# Simulated usernames
usernames = ["user123", "admin!@#", "test_user", "invalid!"] * 100000

# Naive approach
@timeit_decorator(number=10)
def validate_with_re():
    pattern = r"^\w+$"
    return [bool(re.match(pattern, username)) for username in usernames]

# Optimized approach
@timeit_decorator(number=10)
def validate_with_compiled_re():
    compiled_pattern = re.compile(r"^\w+$")
    return [bool(compiled_pattern.match(username)) for username in usernames]

result_without_precompiling = validate_with_re()
result_with_precompiling = validate_with_compiled_re()
print(result_without_precompiling == result_with_precompiling)

1. Generoit raportin, jossa on `10000` riviä, ja jokainen rivi edustaa tapahtumayhteenvetoa. Mikä menetelmä on tehokkain yhdistämään nämä rivit yhdeksi merkkijonoksi, jossa rivit erotetaan `;`-merkillä?

2. Miksi säännöllisen lausekkeen esikääntäminen `re.compile()`-funktiolla on usein nopeampaa kuin käyttää `re.match()`-funktiota suoraan mallin kanssa?

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 4

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 3. Luku 4

Tehokkaat Merkkijonotoiminnot

Tehokas merkkijonojen yhdistäminen

Säännöllisten lausekkeiden esikääntäminen

1. Generoit raportin, jossa on 10000 riviä, ja jokainen rivi edustaa tapahtumayhteenvetoa. Mikä menetelmä on tehokkain yhdistämään nämä rivit yhdeksi merkkijonoksi, jossa rivit erotetaan ;-merkillä?

2. Miksi säännöllisen lausekkeen esikääntäminen re.compile()-funktiolla on usein nopeampaa kuin käyttää re.match()-funktiota suoraan mallin kanssa?

1. Generoit raportin, jossa on `10000` riviä, ja jokainen rivi edustaa tapahtumayhteenvetoa. Mikä menetelmä on tehokkain yhdistämään nämä rivit yhdeksi merkkijonoksi, jossa rivit erotetaan `;`-merkillä?

2. Miksi säännöllisen lausekkeen esikääntäminen `re.compile()`-funktiolla on usein nopeampaa kuin käyttää `re.match()`-funktiota suoraan mallin kanssa?