Hướng dẫn how do you check a column distribution in python? - làm cách nào để kiểm tra phân phối cột trong python?

Question

Từ nhận xét của bạn, tôi đoán bảng dữ liệu của bạn thực sự dài hơn nhiều và bạn muốn thấy phân phối máy chủ tên


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

8 (bất kể số nào ở đây).

Nội dung chính Show

Mục tiêu của bài học này
Bạn có thể sử dụng .describe () để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn.
Làm cách nào để đếm số lần xuất hiện trong một cột trong Python?
data.head() # our flight data, including delay minute counts by type, and total delay upon arrival 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.
Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.
Lưu ý rằng vì data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 6 đã tính toán data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):
Đây là một tính năng thực sự khiến Python khác biệt với SQL hoặc Excel. Sẽ mất rất nhiều công việc để có được thông tin này trong một trong những công cụ đó, nhưng ở đây cũng dễ dàng như thêm phương thức data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 8.
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7: Độ trễ trung bình.
Trước khi sử dụng delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 1, chọn loạt delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 2 cho tất cả các chuyến bay Tây Nam:
Thực hành vấn đề
Thực hành vấn đề
Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.
Thực hành vấn đề
Xem giải pháp
Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.
- Thiết kế bảng điều khiển thông tin, Stephen vài
Làm thế nào để bạn tìm thấy sự phân phối của một cột trong Python?
Làm thế nào để bạn kiểm tra phân phối dữ liệu trong Python?
Làm thế nào để bạn kiểm tra trung bình của một cột trong Python?
Làm cách nào để đếm số lần xuất hiện trong một cột trong Python?

Tôi nghĩ bạn chỉ nên làm điều này:

df.hist(column="count")

Và bạn sẽ nhận được những gì bạn muốn. Nếu đó là điều bạn muốn.

Pandas có tài liệu tốt cho tất cả các chức năng của nó, và biểu đồ được mô tả ở đây.

Nếu bạn thực sự muốn thấy "có bao nhiêu số có cùng một số", thay vì một đại diện của sự phân giải, thì bạn sẽ cần phải đặt


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

9 kwarg là


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

0 - hoặc làm như bạn đã nói và đếm số lần bạn Nhận mỗi


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

1 và sau đó tạo biểu đồ thanh.

Có thể một cái gì đó như:

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

Một cách tiếp cận thay thế và sạch hơn, mà tôi hoàn toàn bỏ lỡ và WWII chỉ ra bên dưới, chỉ là sử dụng hàm tạo tiêu chuẩn của


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

2:

count_counter = Counter(df['count'])

Bắt đầu từ đây? Bài học này là một phần của hướng dẫn đầy đủ trong việc sử dụng Python để phân tích dữ liệu. Kiểm tra sự khởi đầu.

Mục tiêu của bài học này

Trong bài học này, bạn sẽ học cách:

Phân phối phân phối bộ dữ liệu
Mô tả hình dạng của dữ liệu với số liệu thống kê cơ bản
Tạo biểu đồ
So sánh phân phối với biểu đồ
Làm ô hộp

Làm thế nào để bạn tìm thấy sự phân phối của một cột trong Python?

Bạn có thể sử dụng .describe () để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn.

Làm thế nào để bạn kiểm tra phân phối dữ liệu trong Python? Throughout this tutorial, you can use Mode for free to practice writing and running Python code.

Học máy - Phân phối dữ liệu.

❮ Trước Sau ❯.
Tạo một mảng chứa 250 phao ngẫu nhiên trong khoảng từ 0 đến 5: Nhập Numpy. x = numpy.random.uniform (0,0, 5.0, 250) ....Clone. This will take you to the SQL Query Editor, with a query and results pre-populated.
Vẽ một biểu đồ: Nhập Numpy. ....Python Notebook under Notebook in the left navigation panel. This will open a new notebook, with the results of the query loaded in as a dataframe.
Tạo một mảng với 100000 số ngẫu nhiên và hiển thị chúng bằng biểu đồ với 100 thanh: nhập Numpy ..

Làm thế nào để bạn kiểm tra trung bình của một cột trong Python?

Để tính toán giá trị trung bình của toàn bộ các cột trong DataFrame, hãy sử dụng pandas.series.mean () với danh sách các cột DataFrame. Bạn cũng có thể nhận được giá trị trung bình cho tất cả các cột số bằng DataFrame.

Làm cách nào để đếm số lần xuất hiện trong một cột trong Python?

Sử dụng phương thức kích thước () hoặc Count () với pandas.dataFrame.groupBy () sẽ tạo số lượng của một số lần xuất hiện của dữ liệu có trong một cột cụ thể của DataFrame.

Bắt đầu từ đây? Bài học này là một phần của hướng dẫn đầy đủ trong việc sử dụng Python để phân tích dữ liệu. Kiểm tra sự khởi đầu.

Mục tiêu của bài học này


import pandas as pd
import numpy as np

Mục tiêu của bài học này


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

Mục tiêu của bài học này


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

Trong bài học này, bạn sẽ học cách:

	flight_date	unique_carrier	flight_num	Sử dụng dữ liệu chuyến bay, bạn sẽ học cách so sánh tốt hơn các xu hướng giữa các hãng hàng không, điều chỉnh phân tích của bạn dựa trên số lượng chuyến bay của hãng hàng không bay. Cuối cùng, bạn sẽ biết những hãng hàng không và sân bay nào ít nhiều đáng tin cậy và thậm chí có thể đến Lễ Tạ ơn đúng giờ trong năm nay!	Tải dữ liệu vào chế độ Notebook Python	arr_delay	Đối với bài học này, bạn sẽ sử dụng hồ sơ của các chuyến bay nội địa của Hoa Kỳ từ Bộ Giao thông Vận tải Hoa Kỳ. Để truy cập dữ liệu, bạn sẽ cần sử dụng một chút SQL. Đây là cách: làm thế nào:	carrier_delay	weather_delay	late_aircraft_delay	nas_delay	security_delay	actual_elapsed_time
0	Đăng nhập vào chế độ hoặc tạo một tài khoản.	Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.	1	Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.	Ô đầu vào đầu tiên được tự động điền với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.	-19.0	2475.0	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	381.0
1	Bây giờ bạn đã sẵn sàng để đi.	Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.	1	Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.	Ô đầu vào đầu tiên được tự động điền với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.	-39.0	2475.0	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	358.0
2	Bây giờ bạn đã sẵn sàng để đi.	Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.	1	Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.	Ô đầu vào đầu tiên được tự động điền với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.	-12.0	2475.0	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	385.0
3	Bây giờ bạn đã sẵn sàng để đi.	Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.	1	Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.	Ô đầu vào đầu tiên được tự động điền với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.	-8.0	2475.0	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	`data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.	389.0
4	Bây giờ bạn đã sẵn sàng để đi.	Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.	1	Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.	Ô đầu vào đầu tiên được tự động điền với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.	25.0	2475.0	0.0	0.0	0.0	25.0	0.0	424.0

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

Bây giờ bạn đã sẵn sàng để đi.

Một trong những cách tốt nhất để trả lời các câu hỏi như thế này là xem xét các phân phối của các biến có liên quan. Bạn có thể nghĩ về việc phân phối bộ dữ liệu hoặc biến dưới dạng danh sách các giá trị có thể và một số chỉ định về tần suất mỗi giá trị xảy ra. Để được bồi dưỡng nhanh về phân phối, hãy xem bài học này.

Trước khi bạn nhìn vào các phân phối sự chậm trễ trên các hãng hàng không, hãy bắt đầu bằng cách khám phá những hãng hàng không nào có sự chậm trễ nhất.

Đầu tiên, xây dựng chuỗi cho biết liệu các chuyến bay có bị trì hoãn hay không, giống như bạn đã làm trong bài học trước:

Đầu vào


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

6,


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

7 và


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

9:

Đầu vào


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

6,


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

7 và


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

9:

Đầu ra: A great analyst will always be skeptical and curious. When you reach a point in your analysis where you might have an answer, go a little further. Consider what might be affecting your results and what might support a counterargument. The best analysis will be presented as a very refined version of the broader investigation. Always be curious!

Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.

ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!

Tỷ lệ các chuyến bay bị trì hoãn

Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:

Đầu vào


data.groupby(['unique_carrier','delayed']).size().unstack()


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 6, `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 và `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 9:	Đầu ra	Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.
unique_carrier
ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!	8912	9841
Tỷ lệ các chuyến bay bị trì hoãn	3527	2104
B6	4832	4401
Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:	17719	9803
1. Nhóm theo nhà cung cấp và bị trì hoãn	10596	11371
F9	1103	1848
Các chuyến bay nhóm bởi `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 0 và `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 1, nhận số lượng với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 (như bạn đã làm trong bài học trước, sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 để trả về DataFrame:	1351	1354
chậm trễ	4692	8060
Sai	1550	2133
ĐÚNG VẬY	9977	10804
Aa	7885	8624
BẰNG	7850	6353
DL	1254	781
Ev	21789	21150

Ha

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

0


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 6, `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 và `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 9:	unique_carrier	Đầu ra	Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.
0	ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!	8912	9841
1	Tỷ lệ các chuyến bay bị trì hoãn	3527	2104
2	Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:	4832	4401
3	1. Nhóm theo nhà cung cấp và bị trì hoãn	17719	9803
4	Các chuyến bay nhóm bởi `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 0 và `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 1, nhận số lượng với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 (như bạn đã làm trong bài học trước, sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 để trả về DataFrame:	10596	11371

chậm trễ

Sai

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

1


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 6, `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 và `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 9:	unique_carrier	Đầu ra	Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.	flights_count
0	ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!	8912	9841	18753
1	Tỷ lệ các chuyến bay bị trì hoãn	3527	2104	5631
2	Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:	4832	4401	9233
3	1. Nhóm theo nhà cung cấp và bị trì hoãn	17719	9803	27522
4	Các chuyến bay nhóm bởi `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 0 và `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 1, nhận số lượng với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 (như bạn đã làm trong bài học trước, sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 để trả về DataFrame:	10596	11371	21967

chậm trễ

Sai

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

2


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 6, `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 và `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 9:	unique_carrier	Đầu ra	Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.	flights_count	proportion_delayed
0	ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!	8912	9841	18753	0.524769
1	Tỷ lệ các chuyến bay bị trì hoãn	3527	2104	5631	0.373646
2	Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:	4832	4401	9233	0.476660
3	1. Nhóm theo nhà cung cấp và bị trì hoãn	17719	9803	27522	0.356188

Các chuyến bay nhóm bởi


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

0 và


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

1, nhận số lượng với


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

7 (như bạn đã làm trong bài học trước, sử dụng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

8 để trả về DataFrame:

chậm trễ

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

3

Sai

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 6, `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 và `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 9:	unique_carrier	Đầu ra	Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.	flights_count	proportion_delayed
7	ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!	4692	8060	12752	0.632058
5	Tỷ lệ các chuyến bay bị trì hoãn	1103	1848	2951	0.626228
8	Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:	1550	2133	3683	0.579147
0	ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!	8912	9841	18753	0.524769
10	Tỷ lệ các chuyến bay bị trì hoãn	7885	8624	16509	0.522382
9	Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:	9977	10804	20781	0.519898
4	Các chuyến bay nhóm bởi `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 0 và `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 1, nhận số lượng với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 (như bạn đã làm trong bài học trước, sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 để trả về DataFrame:	10596	11371	21967	0.517640
6	chậm trễ	1351	1354	2705	0.500555
13	Sai	21789	21150	42939	0.492559
2	Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:	4832	4401	9233	0.476660
11	1. Nhóm theo nhà cung cấp và bị trì hoãn	7850	6353	14203	0.447300
12	Các chuyến bay nhóm bởi `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 0 và `data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson` 1, nhận số lượng với `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 7 (như bạn đã làm trong bài học trước, sử dụng `data.head() # our flight data, including delay minute counts by type, and total delay upon arrival` 8 để trả về DataFrame:	1254	781	2035	0.383784
1	Tỷ lệ các chuyến bay bị trì hoãn	3527	2104	5631	0.373646
3	1. Nhóm theo nhà cung cấp và bị trì hoãn	17719	9803	27522	0.356188

Các chuyến bay nhóm bởi


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

0 và


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

1, nhận số lượng với


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

7 (như bạn đã làm trong bài học trước, sử dụng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

8 để trả về DataFrame:

chậm trễHow many minutes are flights delayed on average, for each airline?

Sai

ĐÚNG VẬYmean, or the average, gives you a general idea of how many minutes flights were delayed for each airline. .pivot_table() calculates the mean of the aggregated values by default. You can pivot on the column


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

0 to see the mean delay time aggregated by airline:

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

4

Đầu ra

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

5

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

6 đã tính toán


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

6

Đầu ra

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

5

Lưu ý rằng vì data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 6 đã tính toán data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

6

Thống kê cơ bản với


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

8

Đầu ra

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

9

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

6 đã tính toán


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

6

Thống kê cơ bản với


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8

```
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
```
8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụng
```
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
```
8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.

Trước khi sử dụng


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

1, chọn loạt


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

2 cho tất cả các chuyến bay Tây Nam:

Đầu ra

count_counter = Counter(df['count'])

0

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

6 đã tính toán


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

6

Thống kê cơ bản với


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8

```
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
```
8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụng
```
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
```
8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.

Trước khi sử dụng


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

1, chọn loạt


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

2 cho tất cả các chuyến bay Tây Nam:

Trong trường hợp khó hiểu, đây là những gì vừa xảy ra, đã đánh giá từ trong ra ngoài, sau đó từ trái sang phải:


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

3 tạo ra một chỉ số boolean trả về


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

4 cho các hàng đại diện cho các chuyến bay Tây Nam

Gói đó trong


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

5 áp dụng chỉ số Boolean cho DataFrame


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

5.


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier

7 giảm các cột thành cột ['ARR_DELAY'] (và chỉ mục).

Bây giờ bạn có thể chạy
```
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
```
8 trên đối tượng mới này mà bạn đã tạo để có được số liệu thống kê cơ bản:

Đây là một tính năng thực sự khiến Python khác biệt với SQL hoặc Excel. Sẽ mất rất nhiều công việc để có được thông tin này trong một trong những công cụ đó, nhưng ở đây cũng dễ dàng như thêm phương thức data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 8.

Dưới đây là sự cố nhanh chóng của những điều trên vì nó liên quan đến bộ dữ liệu cụ thể này:


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival

1: Có 42.020 hàng trong bộ dữ liệu, được lọc chỉ hiển thị Tây Nam (WN).

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7: Độ trễ trung bình.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

2: Độ lệch chuẩn. Thêm về điều này dưới đây.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

3: Độ trễ ngắn nhất trong bộ dữ liệu. Trong trường hợp này, chuyến bay rất sớm.histogram. Histograms allow you to bucket the values into bins, or fixed value ranges, and count how many values fall in that bin.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

4: Tỷ lệ phần trăm thứ 25. 25% độ trễ thấp hơn


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

5.

count_counter = Counter(df['count'])

1


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

6: Tỷ lệ phần trăm thứ 50 hoặc


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

7. 50% độ trễ thấp hơn


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

8.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64

9: Tỷ lệ phần trăm thứ 75. 75% độ trễ thấp hơn


data.groupby(['unique_carrier','delayed']).size().unstack()

0.

count_counter = Counter(df['count'])

2


data.groupby(['unique_carrier','delayed']).size().unstack()

1: Độ trễ lâu nhất trong bộ dữ liệu:


data.groupby(['unique_carrier','delayed']).size().unstack()

2.

count_counter = Counter(df['count'])

3

Thực hành vấn đề

Đầu vào

count_counter = Counter(df['count'])

4

Đầu ra

count_counter = Counter(df['count'])

5

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

6 đã tính toán


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):histograms are not bar charts. In a bar chart, the height of the bar represents a numerical value (such as number of delayed flights), but each bar itself represents a category—something that cannot be counted, averaged, or summed (like airline).

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

6

Thống kê cơ bản với


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụng


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.

Trước khi sử dụng delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 1, chọn loạt delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 2 cho tất cả các chuyến bay Tây Nam:

Trong trường hợp khó hiểu, đây là những gì vừa xảy ra, đã đánh giá từ trong ra ngoài, sau đó từ trái sang phải:

Đầu vào

count_counter = Counter(df['count'])

6

Đầu ra

count_counter = Counter(df['count'])

7

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

6 đã tính toán


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

Đầu vào

count_counter = Counter(df['count'])

8

Đầu ra

count_counter = Counter(df['count'])

9

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.

Xem giải pháp

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.Which flights were delayed between 20-25 minutes? Was there a given reason? What hypotheses might you make about why there are more flights in that bin as opposed to the 15-20 minute bucket? Select the flights using boolean indexing, then count the origin airports for those flights.

Xem giải pháp

Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.

So sánh phân phối với biểu đồ

Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?

Đầu vào


import pandas as pd
import numpy as np

0

Đầu ra


import pandas as pd
import numpy as np

1

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Đầu vào


import pandas as pd
import numpy as np

2

Đầu ra


import pandas as pd
import numpy as np

3

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.standard deviation, which describes how flight delays are dispersed. In comparing the histograms, you can see that US Airways' delays are most concentrated between -20 to 20 minutes, while Envoy Air's flight delays are more distributed from 0 to 200 minutes. You can say that Envoy Air's delays are more dispersed than US Airways' delays, meaning that for a given flight on either airline, you would be less certain about the length of the delay for the Envoy flight.

Xem giải phápnormal distribution, or a common expected shape of distribution among various types of data. The value for standard deviation defines a range above and below the mean for which a certain percentage of the data lie. You can see in this visualization that, for a normal distribution:

Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.higher.
So sánh phân phối với biểu đồlower.

Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?

So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:

Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:

Đầu vào


import pandas as pd
import numpy as np

4

Đầu ra


import pandas as pd
import numpy as np

5

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.dispersion than Envoy Air.

Xem giải pháp

Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.

So sánh phân phối với biểu đồ

Đầu vào


import pandas as pd
import numpy as np

6

Đầu ra


import pandas as pd
import numpy as np

7

Đầu vào


import pandas as pd
import numpy as np

8

Đầu ra


import pandas as pd
import numpy as np

9

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.

Đầu vào


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

0

Đầu ra

	flight_date	unique_carrier	flight_num	Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.	Thực hành vấn đề	arr_delay	Xem giải pháp	carrier_delay	weather_delay	late_aircraft_delay	nas_delay	security_delay	actual_elapsed_time	Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.
0	So sánh phân phối với biểu đồ	Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?	1	So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:	Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:	-19.0	2475.0	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	381.0	Độ lệch chuẩn
1	Một trong những biện pháp bạn thấy ở trên là `WN 21150 EV 11371 OO 10804 AA 9841 DL 9803 UA 8624 MQ 8060 US 6353 B6 4401 NK 2133 AS 2104 F9 1848 HA 1354 VX 781 Name: unique_carrier, dtype: int64` 2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên.	Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?	1	So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:	Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:	-39.0	2475.0	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	358.0	Độ lệch chuẩn
2	Một trong những biện pháp bạn thấy ở trên là `WN 21150 EV 11371 OO 10804 AA 9841 DL 9803 UA 8624 MQ 8060 US 6353 B6 4401 NK 2133 AS 2104 F9 1848 HA 1354 VX 781 Name: unique_carrier, dtype: int64` 2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên.	Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?	1	So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:	Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:	-12.0	2475.0	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.	385.0	Độ lệch chuẩn
3	Một trong những biện pháp bạn thấy ở trên là `WN 21150 EV 11371 OO 10804 AA 9841 DL 9803 UA 8624 MQ 8060 US 6353 B6 4401 NK 2133 AS 2104 F9 1848 HA 1354 VX 781 Name: unique_carrier, dtype: int64` 2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên.	Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?	1	JFK	Lỏng lẻo	-8.0	2475.0	Nan	Nan	Nan	Nan	Nan	389.0	Sai
4	2015-01-06	Aa	1	JFK	Lỏng lẻo	25.0	2475.0	0.0	0.0	0.0	25.0	0.0	424.0	Nan

Sai


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

1

2015-01-06

Aa

ĐÚNG VẬY

Để so sánh, việc sử dụng


data.groupby(['unique_carrier','delayed']).size().unstack()

7 trong Python trên tương đương với truy vấn SQL sau:


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

2

Ô hộp

Bây giờ bạn có một khung dữ liệu của các chuyến bay có nguồn gốc từ các sân bay khối lượng lớn, bạn có thể hỏi: Sự chậm trễ chuyến bay dài nhất bắt nguồn từ đâu vào tháng 1 năm 2015?	Bạn có thể tạo một bảng xoay vòng xoay ngày bay trên sân bay, nơi các giá trị là giá trị trung bình của sự chậm trễ chuyến bay cho ngày đó.	Đầu vào	Đầu ra	nguồn gốc	ATL	Bos	CLT	CÁI HANG	DFW	DTW	EWR	Fll	IAH	JFK	Las	Lỏng lẻo	LGA	MCO	Msp	Ord
flight_date
2015-01-02	3.327536	3.590580	0.509317	20.526899	36.049598	-6.842809	8.316993	-0.543307	12.156187	3.688742	13.709512	16.500000	-2.947712	5.834734	1.193333	4.590062	16.547325	12.254717	8.371429	4.534161
2015-01-03	15.428112	30.471616	13.768340	51.186292	37.604138	22.738007	37.370229	15.666667	39.844037	31.882979	18.550685	26.117338	15.606426	17.511364	20.027586	37.995702	19.783843	13.771812	11.773364	13.465190
2015-01-04	21.423343	26.867857	23.325077	52.495238	38.360104	35.771626	53.617978	25.293651	20.464286	55.445578	19.564767	28.159016	32.450704	39.847025	19.461279	83.225619	20.180085	10.291262	19.251092	15.503125
2015-01-05	3.095000	11.208609	6.051672	29.899200	28.705263	24.696594	22.674051	13.711864	8.450505	19.554422	17.229381	15.788618	34.984177	14.929204	23.874564	63.916667	13.665217	5.418060	13.225806	2.003356
2015-01-06	6.361725	43.310580	13.294964	15.344029	11.534626	35.078616	43.104530	23.425926	3.622642	43.359073	13.330579	7.234004	61.165049	29.996785	9.435088	42.356183	12.156658	4.372180	8.582716	0.581481
2015-01-07	0.944276	10.651316	4.869565	33.301095	10.428762	13.403727	22.030508	11.254464	10.490476	15.536680	7.498652	5.442446	46.063973	8.977918	-1.666667	38.479361	7.348028	9.467925	5.289216	2.977941
2015-01-08	3.033099	6.807692	10.484568	14.569873	11.217450	20.593060	15.419463	2.558442	1.571121	2.749091	8.597911	6.171329	3.575221	9.152648	47.264605	96.695578	8.000000	8.738351	5.141487	12.619718
2015-01-09	1.833499	21.045603	5.742331	21.551237	8.591810	34.665653	22.632107	1.808696	7.611354	43.294964	4.487245	8.144112	42.325581	8.758410	6.834459	46.355837	2.160550	7.464029	9.425178	3.878893
2015-01-10	-5.473046	3.763547	-1.658915	2.822014	5.501582	2.584906	0.422680	-5.172269	0.937888	1.259259	2.564706	2.709746	-11.311475	0.273273	8.542857	16.635209	2.213483	-2.761506	0.621622	2.718894
2015-01-11	-2.118085	-2.569767	5.789286	16.045977	19.767313	5.808725	-1.670543	-3.008734	17.064904	-2.964158	40.793103	24.195531	-7.576923	-2.242991	2.264493	22.578704	11.557143	6.381132	27.650633	5.946043
2015-01-12	42.375375	8.254777	14.975524	22.791444	19.114820	24.692771	8.219780	8.960699	22.710526	4.297101	12.710526	10.982175	16.641509	21.563863	1.274510	31.676056	5.371230	7.318519	27.918719	7.051546
2015-01-13	2.812957	-9.384106	0.086505	9.789279	7.248656	-2.710692	-2.901024	-7.118721	1.415274	-13.214559	-2.937853	-1.553506	-0.883234	-1.462295	-5.660959	23.323259	2.083990	3.267176	11.153652	0.528090
2015-01-14	-1.400000	-3.091216	-1.681250	-0.638838	2.690160	-1.903727	-5.456446	3.360360	-0.530120	-14.911877	-3.695418	-2.958559	0.002994	1.885350	-7.691030	2.735369	-1.161593	-1.134831	1.324455	-5.717949

PHX

Để so sánh, việc sử dụng


data.groupby(['unique_carrier','delayed']).size().unstack()

7 trong Python trên tương đương với truy vấn SQL sau:


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

3

Ô hộp

Bây giờ bạn có một khung dữ liệu của các chuyến bay có nguồn gốc từ các sân bay khối lượng lớn, bạn có thể hỏi: Sự chậm trễ chuyến bay dài nhất bắt nguồn từ đâu vào tháng 1 năm 2015?	Bạn có thể tạo một bảng xoay vòng xoay ngày bay trên sân bay, nơi các giá trị là giá trị trung bình của sự chậm trễ chuyến bay cho ngày đó.	Đầu vào	Đầu ra	nguồn gốc	ATL	Bos	CLT	CÁI HANG	DFW	DTW	EWR	Fll	IAH	JFK	Las	Lỏng lẻo	LGA	MCO	Msp	Ord
PHX	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000	13.000000
BIỂN	7.049522	11.609776	7.350537	22.283364	18.216483	16.044343	17.213870	6.938287	11.216083	14.613638	11.723369	11.302481	17.699715	11.925022	9.627240	39.274123	9.223535	6.526833	11.517644	5.083884
SFO	12.798122	15.004838	7.499172	16.171575	12.854437	15.286101	18.718574	10.452380	11.488504	22.619487	11.574100	10.193057	23.428830	12.647029	14.971524	28.195169	7.051518	4.795902	8.742399	5.910367
SLC	-5.473046	-9.384106	-1.681250	-0.638838	2.690160	-6.842809	-5.456446	-7.118721	-0.530120	-14.911877	-3.695418	-2.958559	-11.311475	-2.242991	-7.691030	2.735369	-1.161593	-2.761506	0.621622	-5.717949
25%	0.944276	3.590580	0.509317	14.569873	8.591810	2.584906	0.422680	-0.543307	1.571121	1.259259	4.487245	5.442446	-0.883234	1.885350	1.193333	22.578704	2.213483	4.372180	5.289216	2.003356
50%	3.033099	8.254777	5.789286	20.526899	11.534626	20.593060	15.419463	3.360360	8.450505	4.297101	12.710526	8.144112	15.606426	8.977918	6.834459	37.995702	8.000000	7.318519	9.425178	3.878893
75%	6.361725	21.045603	13.294964	29.899200	28.705263	24.696594	22.674051	13.711864	17.064904	31.882979	17.229381	16.500000	34.984177	17.511364	19.461279	46.355837	13.665217	9.467925	13.225806	7.051546
Tối đa	42.375375	43.310580	23.325077	52.495238	38.360104	35.771626	53.617978	25.293651	39.844037	55.445578	40.793103	28.159016	61.165049	39.847025	47.264605	96.695578	20.180085	13.771812	27.918719	15.503125

Thật khó để so sánh các sân bay chỉ bằng cách nhìn vào một bảng số lớn. Điều này sẽ dễ dàng hơn nếu bạn nhóm các hồ sơ cho mỗi sân bay và phủ chúng, như bạn đã làm với Envoy Air và US Airways:

Đầu vào


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

4

Đầu ra


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

5

Chà, điều đó cũng khó đọc. Phương pháp phân phối lớp phủ có giới hạn, ít nhất là khi bạn muốn so sánh nhiều bản phân phối cùng một lúc. May mắn thay, có một cách hình dung một chiều để hình dung hình dạng của các bản phân phối được gọi là một ô hộp.box plot.

Các ô hộp bao gồm các biện pháp phân tán quan trọng tương tự mà bạn nhận được khi chạy


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8, cho phép nó được hiển thị theo một chiều và dễ dàng so sánh với các bản phân phối khác. Các thành phần của các ô hộp là:

- Thiết kế bảng điều khiển thông tin, Stephen vài

Hãy thử sử dụng các ô hộp để so sánh phân phối độ trễ hàng ngày tại mỗi sân bay:

Đầu vào


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

6

Đầu ra


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)

7

Chà, điều đó cũng khó đọc. Phương pháp phân phối lớp phủ có giới hạn, ít nhất là khi bạn muốn so sánh nhiều bản phân phối cùng một lúc. May mắn thay, có một cách hình dung một chiều để hình dung hình dạng của các bản phân phối được gọi là một ô hộp.

Các ô hộp bao gồm các biện pháp phân tán quan trọng tương tự mà bạn nhận được khi chạy


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson

8, cho phép nó được hiển thị theo một chiều và dễ dàng so sánh với các bản phân phối khác. Các thành phần của các ô hộp là:Which airports are the worst to fly out of?, you can now say that you will (almost certainly) be delayed if you are flying out of Chicago in January, based on 2015 data. If you can help it, avoid connecting flights in Chicago.

- Thiết kế bảng điều khiển thông tin, Stephen vài

Hãy thử sử dụng các ô hộp để so sánh phân phối độ trễ hàng ngày tại mỗi sân bay:

Như bạn có thể thấy, việc so sánh nhiều bản phân phối với các ô hộp đơn giản hơn về mặt trực quan. Các sân bay như JFK có sự phân tán đáng kể sự chậm trễ, trong khi LGA được phân phối đều xung quanh sự chậm trễ trung bình thường xuyên nhất. Tuy nhiên, Ord gần gấp đôi thời gian, so với mọi sân bay khối lượng lớn khác. Mong đợi sự chậm trễ của tuyết ở Chicago vào tháng 1!

Dẫn đầu phân tích này, chúng tôi đặt ra một vài câu hỏi chính. Để trả lời cuối cùng, sân bay nào là tồi tệ nhất để bay ra ?, Bây giờ bạn có thể nói rằng bạn sẽ (gần như chắc chắn) bị trì hoãn nếu bạn bay ra khỏi Chicago vào tháng 1, dựa trên dữ liệu năm 2015. Nếu bạn có thể giúp nó, tránh kết nối các chuyến bay ở Chicago.

Thực hành vấn đề

Hình dung độ trễ đến trung bình theo ngày và nhà cung cấp bằng cách sử dụng các ô hộp.

Xem giải pháp
Tom tăt bai học
Như bạn đã thấy trong bài học này, việc đặt dữ liệu ngược lại cho phép bạn hiểu rõ hơn về nó. Mặc dù nó rõ ràng rằng tất cả các hãng hàng không và sân bay đều bị chậm trễ, bạn có thể sử dụng số liệu thống kê để nhanh chóng rút ra những xu hướng và sự xuất hiện bất thường trên dữ liệu. Độ lệch của dữ liệu so với một xu hướng thường được tiết lộ rõ ràng trong trực quan hóa, cho phép bạn xác định trực quan các sự kiện bất thường và đào sâu hơn.
Trong bài học này, bạn đã học được cách:
Phân phối phân phối bộ dữ liệu

Làm thế nào để bạn tìm thấy sự phân phối của một cột trong Python?

Bạn có thể sử dụng .describe () để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn.use . describe() to see a number of basic statistics about the column, such as the mean, min, max, and standard deviation.

Làm thế nào để bạn kiểm tra phân phối dữ liệu trong Python?

Học máy - Phân phối dữ liệu..

❮ Trước Sau ❯.

Tạo một mảng chứa 250 phao ngẫu nhiên trong khoảng từ 0 đến 5: Nhập Numpy.x = numpy.random.uniform (0,0, 5.0, 250) ....

Vẽ một biểu đồ: Nhập Numpy.....

Tạo một mảng với 100000 số ngẫu nhiên và hiển thị chúng bằng biểu đồ với 100 thanh: nhập Numpy ..

Làm thế nào để bạn kiểm tra trung bình của một cột trong Python?

Để tính toán giá trị trung bình của toàn bộ các cột trong DataFrame, hãy sử dụng pandas.series.mean () với danh sách các cột DataFrame.Bạn cũng có thể nhận được giá trị trung bình cho tất cả các cột số bằng DataFrame.use pandas. Series. mean() with a list of DataFrame columns. You can also get the mean for all numeric columns using DataFrame.

Làm cách nào để đếm số lần xuất hiện trong một cột trong Python?

Sử dụng phương thức kích thước () hoặc Count () với pandas.dataFrame.groupBy () sẽ tạo số lượng của một số lần xuất hiện của dữ liệu có trong một cột cụ thể của DataFrame. DataFrame. groupby() will generate the count of a number of occurrences of data present in a particular column of the dataframe.

programming python Plot distribution Python Describe DataFrame Python Data distribution Histogram pandas Percentage pandas