Summary  
This chapter covers how to identify duplicate rows, remove them, and count unique values in a DataFrame using methods like `.duplicated()`, `.drop_duplicates()`, and `.nunique()`.  

General domain of usage  
Data cleaning in data analysis

```python
import pandas as pd

df = pd.read_csv("passengers.csv")

print(df.duplicated().sum())
df = df.drop_duplicates()
```

You can check for duplicates in a DataFrame using the `.duplicated()` method. You can also use it to count how many rows are duplicates.

import pandas as pd

df = pd.read_csv("https://staging-content-media-cdn.codefinity.com/courses/64641555-cae4-4cd0-8d29-807aeb6bc0c4/datasets/passengers.csv")

# Check which rows are duplicates
print(df.duplicated())
# Count duplicate rows
print(df.duplicated().sum())

By default, pandas checks **all columns** when identifying duplicates. You can also check duplicates within a specific subset of columns:

import pandas as pd

df = pd.read_csv("https://staging-content-media-cdn.codefinity.com/courses/64641555-cae4-4cd0-8d29-807aeb6bc0c4/datasets/passengers.csv")

print(df.duplicated(subset=["Ticket"]).sum())

After you confirm that the duplicate rows shouldn't remain, remove them using the `.drop_duplicates()` method:

import pandas as pd

df = pd.read_csv("https://staging-content-media-cdn.codefinity.com/courses/64641555-cae4-4cd0-8d29-807aeb6bc0c4/datasets/passengers.csv")

# Remove duplicate rows
print(df.drop_duplicates())
# Remove duplicates based only on values in a subset
print(df.drop_duplicates(subset=["Ticket"]))

To check how many distinct values each column has, use the `.nunique()` method:

import pandas as pd

df = pd.read_csv("https://staging-content-media-cdn.codefinity.com/courses/64641555-cae4-4cd0-8d29-807aeb6bc0c4/datasets/passengers.csv")

# Count unique values for each column
print(df.nunique())
# Count unique values for a single column
print(df["Embarked"].nunique())

This helps you identify columns with limited categories or verify whether an ID column is truly unique.

How can you remove all duplicate rows from a DataFrame?

How would you count a number of unique elements in the `"Class"` column?

Working with Duplicates

AI in Action

Detecting Duplicates

Removing Duplicates

Counting Unique Values

1. What does `df.duplicated()` return?

2. How can you remove all duplicate rows from a DataFrame?

3. How would you count a number of unique elements in the `"Class"` column?