Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Challenge: Analyzing Sales Data with Spark SQL | Section
Data Processing with PySpark
Секція 1. Розділ 9
single

single

Challenge: Analyzing Sales Data with Spark SQL

Свайпніть щоб показати меню

Завдання

Проведіть, щоб почати кодувати

You are given a flights dataset as a list of rows. Load it into a DataFrame, register it as a temporary view, and answer the following using spark.sql(). Store results in the specified variables:

  1. Find the top 3 routes (unique AirportFrom + AirportTo pairs) by average Length – store as a list of tuples [(origin, destination, avg_length), ...] in top_routes_by_length;
  2. For each airline, find the flight with the longest Length using a window function with row_number() – store as a DataFrame in longest_flight_per_airline with columns Airline, Flight, Length;
  3. Count how many delayed flights (Delay == 1) per DayOfWeek – store as a list of tuples [(day_of_week, count), ...] sorted by DayOfWeek ascending in delays_by_dow.

Print all results.

Рішення

Switch to desktopПерейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 9
single

single

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

some-alt