Deslize para mostrar o menu

Record linkage is a crucial process in data integration that involves identifying and connecting records from different datasets that refer to the same real-world entity. This technique is essential when you need to merge information from multiple sources, such as linking patient records from different hospitals, consolidating customer databases after a merger, or integrating product catalogs from various vendors. The primary goal is to accurately match equivalent records, even when there are discrepancies in data entry, formatting, or missing values.


              1234567891011121314151617181920212223242526272829303132
            
import pandas as pd

# DataFrames from two sources
df_a = pd.DataFrame({
    "first_name": ["Alice", "Bob", "Charlie"],
    "last_name": ["Smith", "Jones", "Brown"],
    "dob": ["1990-01-01", "1985-05-12", "1975-09-23"],
    "city": ["New York", "Los Angeles", "Chicago"]
})

df_b = pd.DataFrame({
    "first_name": ["Alice", "Robert", "Charles"],
    "last_name": ["Smith", "Jones", "Brown"],
    "dob": ["1990-01-01", "1985-05-12", "1975-09-23"],
    "city": ["New York", "Los Angeles", "Chicago"]
})

# Composite key: (first_name, last_name, dob)
df_a["composite_key"] = (
    df_a["first_name"].str.lower() + "_" +
    df_a["last_name"].str.lower() + "_" +
    df_a["dob"]
)
df_b["composite_key"] = (
    df_b["first_name"].str.lower() + "_" +
    df_b["last_name"].str.lower() + "_" +
    df_b["dob"]
)

# Find matching records based on composite key
matches = pd.merge(df_a, df_b, on="composite_key", suffixes=('_a', '_b'))
print(matches[["first_name_a", "last_name_a", "dob", "city_a", "city_b"]])

Definition

Blocking is a technique used in record linkage to reduce the number of comparisons between records by grouping them into smaller blocks based on common attributes. This approach improves efficiency by only comparing records within the same block, rather than across the entire dataset.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Principles of Record Linkage


              1234567891011121314151617181920212223242526272829303132
            
import pandas as pd

# DataFrames from two sources
df_a = pd.DataFrame({
    "first_name": ["Alice", "Bob", "Charlie"],
    "last_name": ["Smith", "Jones", "Brown"],
    "dob": ["1990-01-01", "1985-05-12", "1975-09-23"],
    "city": ["New York", "Los Angeles", "Chicago"]
})

df_b = pd.DataFrame({
    "first_name": ["Alice", "Robert", "Charles"],
    "last_name": ["Smith", "Jones", "Brown"],
    "dob": ["1990-01-01", "1985-05-12", "1975-09-23"],
    "city": ["New York", "Los Angeles", "Chicago"]
})

# Composite key: (first_name, last_name, dob)
df_a["composite_key"] = (
    df_a["first_name"].str.lower() + "_" +
    df_a["last_name"].str.lower() + "_" +
    df_a["dob"]
)
df_b["composite_key"] = (
    df_b["first_name"].str.lower() + "_" +
    df_b["last_name"].str.lower() + "_" +
    df_b["dob"]
)

# Find matching records based on composite key
matches = pd.merge(df_a, df_b, on="composite_key", suffixes=('_a', '_b'))
print(matches[["first_name_a", "last_name_a", "dob", "city_a", "city_b"]])

Definition

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 3. Capítulo 1