Kursinhalt
Einführung in die Datenverarbeitung mit Azure
Einführung in die Datenverarbeitung mit Azure
Herausforderung: Durchführung der Transaktionsanalyse
Finanzinstitute bewerten häufig die Kreditwürdigkeit ihrer Kunden, um das Risikomanagement zu verbessern und fundiertere Entscheidungen zu treffen. Durch die Analyse von Schuldenständen und finanziellem Verhalten anhand von Benutzertransaktionen können Institute Kunden in Risikogruppen einteilen.
Zum Beispiel könnten Personen mit einem hohen Schulden-Einkommens-Verhältnis, das darauf hinweist, dass sie deutlich mehr schulden als sie verdienen, als Risikobenutzer gekennzeichnet werden, aufgrund ihrer potenziellen finanziellen Instabilität. Im Gegensatz dazu werden diejenigen, die ein gesünderes Gleichgewicht zwischen Einkommen und Schulden haben, als Normale Benutzer klassifiziert, was ein geringeres finanzielles Risiko widerspiegelt.
In der vorherigen Herausforderung haben wir die Kartendaten geladen, und jetzt besteht das Ziel darin, Kreditkartenbenutzer basierend auf ihrem benutzerdefinierten Schulden-Einkommens-Verhältnis als entweder Risikobenutzer oder Normale Benutzer zu klassifizieren.
Um diese Aufgabe abzuschließen, benötigen Sie zusätzliche Daten:
- Transaktionsdaten, um wichtige Kennzahlen wie den durchschnittlichen Transaktionsbetrag, die Summe aller Transaktionen und die Chip-Nutzungsrate (das Verhältnis der mit Chips getätigten Transaktionen zur Gesamtzahl der Transaktionen) zu berechnen;
- Benutzerdaten, um das benutzerdefinierte Schulden-Einkommens-Verhältnis zu berechnen, das durch die Division der Gesamtschulden durch das Jahreseinkommen bestimmt wird.
Durch die Verwendung dieser Datensätze können Sie das finanzielle Verhalten der Benutzer bewerten und sie in die entsprechende Risikokategorie einordnen.
Benutzertabelle
Transaktionstabelle
Als Ergebnis dieser Aufgabe werden Sie zwei Tabellen haben - eine für Risikobenutzer und eine für normale Benutzer. Sie werden so aussehen.
Risikobenutzer
Normale Benutzer
Algorithmusbeschreibung
Um diese Aufgabe zu lösen, können Sie die Materialien aus dem dritten Abschnitt verwenden. Hier ist eine Schritt-für-Schritt-Anleitung, wie Sie die Aufgabe erledigen:
- Zuerst laden Sie die Rohdaten in die Datenbank. Dies beinhaltet das Lesen der CSV-Dateien für Benutzer, Transaktionen und Karten und das Befüllen der entsprechenden Tabellen. Dazu sollten Sie Script- und Copy-Aktivitäten verwenden, genau wie in der vorherigen Herausforderung;
- Nach dem Laden stellen Sie sicher, dass die korrekten Datentypen angewendet werden, indem Sie eine weitere Script-Aktivität verwenden;
- Filtern Sie die Benutzertabelle, um nur Benutzer mit Kreditkarten einzuschließen. Dies kann durch das Verbinden der Benutzer- und Karten-Tabellen über
client_id
erfolgen. Sie sollten die Karten-Tabelle verwenden, die nur Kreditkartendaten speichert (diese Tabelle haben Sie in der vorherigen Herausforderung erstellt); - Berechnen Sie das Kredit-Skor-Verhältnis für die gefilterten Benutzer, indem Sie
total_debt
durchyearly_income
teilen. Basierend auf diesem Verhältnis:- Klassifizieren Sie Benutzer mit einem Verhältnis > 50% als Risikobenutzer;
- Klassifizieren Sie Benutzer mit einem Verhältnis ≤ 50% als Normale Benutzer;
- Aggregieren Sie die Transaktionsdaten für jede Benutzergruppe (Risikobenutzer und Normale Benutzer), um die folgenden Metriken zu berechnen:
- Gesamttransaktionsbetrag: Summe aller Transaktionen;
- Durchschnittlicher Transaktionsbetrag;
- Chip-Nutzungsverhältnis: Anteil der Chip-Transaktionen an den Gesamttransaktionen;
- Erstellen Sie separate Tabellen für Risikobenutzer und Normale Benutzer in der Datenbank und füllen Sie diese mit den aggregierten Metriken, wobei alle erforderlichen Felder (z.B.
client_id
, Metriken) enthalten sind.
Indem Sie diese Schritte befolgen, können Sie die Daten effizient verarbeiten und die erforderlichen Ausgaben nur mit Datenflussaktivitäten erstellen. Viel Glück!
Danke für Ihr Feedback!