Lernen Effiziente Zeichenkettenoperationen | Enhancing Performance With Built-in Tools

Swipe um das Menü anzuzeigen

Effiziente Zeichenkettenverkettung

Beim Arbeiten mit vielen Zeichenketten ist es entscheidend, die effizienteste Methode zur Verkettung zu verwenden. Die wiederholte Nutzung des +- (+=) Operators ist bei großen Datensätzen ineffizient, da jedes Mal eine neue Zeichenkette erstellt wird. Stattdessen ist die Verwendung von str.join() deutlich schneller und speichereffizienter.

Im Folgenden wird die Leistung zweier Ansätze zum Verketten von Zeichenketten mit Zeilenumbrüchen zu einer einzigen Zeichenkette verglichen. Der erste Ansatz verwendet eine for-Schleife mit dem +=-Operator, während der zweite die effizientere Methode str.join() nutzt.


              1234567891011121314151617181920212223
            
import os
decorators = os.system('wget https://staging-content-media-cdn.codefinity.com/courses/8d21890f-d960-4129-bc88-096e24211d53/section_1/chapter_3/decorators.py 2>/dev/null')
from decorators import timeit_decorator

# Simulated lines of a report
lines = [f"Line {i}" for i in range(1, 1000001)]

# Inefficient concatenation
@timeit_decorator(number=50)
def concat_with_plus():
    result = ""
    for line in lines:
        result += line + "\n"
    return result

# Efficient concatenation
@timeit_decorator(number=50)
def concat_with_join():
    return "\n".join(lines) + "\n"  # Add final newline for consistency

result_plus = concat_with_plus()
result_join = concat_with_join()
print(result_plus == result_join)

Vorkompilieren von regulären Ausdrücken

Beim Arbeiten mit regulären Ausdrücken kann die Leistung insbesondere bei großen Datensätzen oder wiederholten Mustervergleichen zu einem Problem werden. In solchen Fällen ist das Vorkompilieren des Musters eine sinnvolle Optimierungstechnik.

Das Vorab-Kompilieren stellt sicher, dass die Regex-Engine das Muster nicht bei jeder Verwendung neu kompiliert, was die Leistung erheblich verbessern kann, wenn dasselbe Muster mehrfach auf einen Datensatz angewendet wird. Dieser Ansatz ist besonders vorteilhaft in Szenarien wie Filtern, Validierung oder Suche in großen Textdateien.

Vergleichen wir die Leistung zweier Ansätze zur Validierung von Benutzernamen mit regulären Ausdrücken. Der erste Ansatz verwendet die Funktion re.match mit einem inline definierten Muster bei jedem Aufruf. Der zweite, effizientere Ansatz kompiliert das Regex-Muster vorab mit re.compile und verwendet es für alle Validierungen erneut.


              1234567891011121314151617181920212223
            
import os
import re
decorators = os.system('wget https://staging-content-media-cdn.codefinity.com/courses/8d21890f-d960-4129-bc88-096e24211d53/section_1/chapter_3/decorators.py 2>/dev/null')
from decorators import timeit_decorator

# Simulated usernames
usernames = ["user123", "admin!@#", "test_user", "invalid!"] * 100000

# Naive approach
@timeit_decorator(number=10)
def validate_with_re():
    pattern = r"^\w+$"
    return [bool(re.match(pattern, username)) for username in usernames]

# Optimized approach
@timeit_decorator(number=10)
def validate_with_compiled_re():
    compiled_pattern = re.compile(r"^\w+$")
    return [bool(compiled_pattern.match(username)) for username in usernames]

result_without_precompiling = validate_with_re()
result_with_precompiling = validate_with_compiled_re()
print(result_without_precompiling == result_with_precompiling)

1. Sie erstellen einen Bericht mit `10000` Zeilen, wobei jede Zeile eine Transaktionsübersicht darstellt. Welche Methode ist am effizientesten, um diese Zeilen mit `;` zwischen ihnen zu einer einzigen Zeichenkette zu verbinden?

2. Warum ist das Vorkompilieren eines regulären Ausdrucks mit `re.compile()` häufig schneller als die Verwendung von `re.match()` mit einem Inline-Muster?

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 4

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 4

Effiziente Zeichenkettenoperationen

Effiziente Zeichenkettenverkettung

Vorkompilieren von regulären Ausdrücken

1. Sie erstellen einen Bericht mit 10000 Zeilen, wobei jede Zeile eine Transaktionsübersicht darstellt. Welche Methode ist am effizientesten, um diese Zeilen mit ; zwischen ihnen zu einer einzigen Zeichenkette zu verbinden?

2. Warum ist das Vorkompilieren eines regulären Ausdrucks mit re.compile() häufig schneller als die Verwendung von re.match() mit einem Inline-Muster?

1. Sie erstellen einen Bericht mit `10000` Zeilen, wobei jede Zeile eine Transaktionsübersicht darstellt. Welche Methode ist am effizientesten, um diese Zeilen mit `;` zwischen ihnen zu einer einzigen Zeichenkette zu verbinden?

2. Warum ist das Vorkompilieren eines regulären Ausdrucks mit `re.compile()` häufig schneller als die Verwendung von `re.match()` mit einem Inline-Muster?