Hướng dẫn how do you check a column distribution in python? - làm cách nào để kiểm tra phân phối cột trong python?

Từ nhận xét của bạn, tôi đoán bảng dữ liệu của bạn thực sự dài hơn nhiều và bạn muốn thấy phân phối máy chủ tên


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
8 (bất kể số nào ở đây).

Show

Tôi nghĩ bạn chỉ nên làm điều này:

df.hist(column="count")

Và bạn sẽ nhận được những gì bạn muốn. Nếu đó là điều bạn muốn.

Pandas có tài liệu tốt cho tất cả các chức năng của nó, và biểu đồ được mô tả ở đây.

Nếu bạn thực sự muốn thấy "có bao nhiêu số có cùng một số", thay vì một đại diện của sự phân giải, thì bạn sẽ cần phải đặt


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
9 kwarg là

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
0 - hoặc làm như bạn đã nói và đếm số lần bạn Nhận mỗi

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
1 và sau đó tạo biểu đồ thanh.

Có thể một cái gì đó như:

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

Một cách tiếp cận thay thế và sạch hơn, mà tôi hoàn toàn bỏ lỡ và WWII chỉ ra bên dưới, chỉ là sử dụng hàm tạo tiêu chuẩn của


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
2:

count_counter = Counter(df['count'])

Bắt đầu từ đây? Bài học này là một phần của hướng dẫn đầy đủ trong việc sử dụng Python để phân tích dữ liệu. Kiểm tra sự khởi đầu.

Mục tiêu của bài học này

Trong bài học này, bạn sẽ học cách:

  • Phân phối phân phối bộ dữ liệu
  • Mô tả hình dạng của dữ liệu với số liệu thống kê cơ bản
  • Tạo biểu đồ
  • So sánh phân phối với biểu đồ
  • Làm ô hộp

Làm thế nào để bạn tìm thấy sự phân phối của một cột trong Python?

Bạn có thể sử dụng .describe () để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn.

Làm thế nào để bạn kiểm tra phân phối dữ liệu trong Python? Throughout this tutorial, you can use Mode for free to practice writing and running Python code.

Học máy - Phân phối dữ liệu.

  1. ❮ Trước Sau ❯.
  2. Tạo một mảng chứa 250 phao ngẫu nhiên trong khoảng từ 0 đến 5: Nhập Numpy. x = numpy.random.uniform (0,0, 5.0, 250) ....Clone. This will take you to the SQL Query Editor, with a query and results pre-populated.
  3. Vẽ một biểu đồ: Nhập Numpy. ....Python Notebook under Notebook in the left navigation panel. This will open a new notebook, with the results of the query loaded in as a dataframe.
  4. Tạo một mảng với 100000 số ngẫu nhiên và hiển thị chúng bằng biểu đồ với 100 thanh: nhập Numpy ..

Làm thế nào để bạn kiểm tra trung bình của một cột trong Python?

Để tính toán giá trị trung bình của toàn bộ các cột trong DataFrame, hãy sử dụng pandas.series.mean () với danh sách các cột DataFrame. Bạn cũng có thể nhận được giá trị trung bình cho tất cả các cột số bằng DataFrame.

Làm cách nào để đếm số lần xuất hiện trong một cột trong Python?

Sử dụng phương thức kích thước () hoặc Count () với pandas.dataFrame.groupBy () sẽ tạo số lượng của một số lần xuất hiện của dữ liệu có trong một cột cụ thể của DataFrame.

Bắt đầu từ đây? Bài học này là một phần của hướng dẫn đầy đủ trong việc sử dụng Python để phân tích dữ liệu. Kiểm tra sự khởi đầu.

Mục tiêu của bài học này


import pandas as pd
import numpy as np
    

Mục tiêu của bài học này


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    

Mục tiêu của bài học này


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    

Trong bài học này, bạn sẽ học cách:

flight_dateunique_carrierflight_numSử dụng dữ liệu chuyến bay, bạn sẽ học cách so sánh tốt hơn các xu hướng giữa các hãng hàng không, điều chỉnh phân tích của bạn dựa trên số lượng chuyến bay của hãng hàng không bay. Cuối cùng, bạn sẽ biết những hãng hàng không và sân bay nào ít nhiều đáng tin cậy và thậm chí có thể đến Lễ Tạ ơn đúng giờ trong năm nay!Tải dữ liệu vào chế độ Notebook Pythonarr_delayChế độ là một nền tảng phân tích tập hợp một trình soạn thảo SQL, máy tính xách tay Python và Trình tạo trực quan dữ liệu. Trong suốt hướng dẫn này, bạn có thể sử dụng chế độ miễn phí để thực hành viết và chạy mã Python.Đối với bài học này, bạn sẽ sử dụng hồ sơ của các chuyến bay nội địa của Hoa Kỳ từ Bộ Giao thông Vận tải Hoa Kỳ. Để truy cập dữ liệu, bạn sẽ cần sử dụng một chút SQL. Đây là cách: làm thế nào:carrier_delayweather_delaylate_aircraft_delaynas_delaysecurity_delayactual_elapsed_time
0Đăng nhập vào chế độ hoặc tạo một tài khoản.Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.1 Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.Ô đầu vào đầu tiên được tự động điền với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.
-19.0 0.0 2475.0

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.
381.0
1Bây giờ bạn đã sẵn sàng để đi.Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.1 Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.Ô đầu vào đầu tiên được tự động điền với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.
-39.0 0.0 2475.0

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.
358.0
2Bây giờ bạn đã sẵn sàng để đi.Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.1 Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.Ô đầu vào đầu tiên được tự động điền với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.
-12.0 0.0 2475.0

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.
385.0
3Bây giờ bạn đã sẵn sàng để đi.Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.1 Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.Ô đầu vào đầu tiên được tự động điền với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.
-8.0 0.0 2475.0

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.
389.0
4Bây giờ bạn đã sẵn sàng để đi.Điều hướng đến báo cáo này và nhấp vào bản sao. Điều này sẽ đưa bạn đến Trình chỉnh sửa truy vấn SQL, với một truy vấn và kết quả được phổ biến trước.1 Nhấp vào Notebook Python dưới máy tính xách tay trong bảng điều hướng bên trái. Điều này sẽ mở một sổ ghi chép mới, với kết quả của truy vấn được tải dưới dạng DataFrame.Ô đầu vào đầu tiên được tự động điền với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
3. Chạy mã này để bạn có thể thấy năm hàng đầu tiên của bộ dữ liệu.
25.0 0.0 2475.0 0.0 0.0 0.0 25.0 0.0 424.0

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.

Bây giờ bạn đã sẵn sàng để đi.

Một trong những cách tốt nhất để trả lời các câu hỏi như thế này là xem xét các phân phối của các biến có liên quan. Bạn có thể nghĩ về việc phân phối bộ dữ liệu hoặc biến dưới dạng danh sách các giá trị có thể và một số chỉ định về tần suất mỗi giá trị xảy ra. Để được bồi dưỡng nhanh về phân phối, hãy xem bài học này.

Trước khi bạn nhìn vào các phân phối sự chậm trễ trên các hãng hàng không, hãy bắt đầu bằng cách khám phá những hãng hàng không nào có sự chậm trễ nhất.

Đầu tiên, xây dựng chuỗi cho biết liệu các chuyến bay có bị trì hoãn hay không, giống như bạn đã làm trong bài học trước:

Đầu vào


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
6,

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 và

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
9:

Đầu vào


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
    


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
6,

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 và

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
9:

Đầu ra: A great analyst will always be skeptical and curious. When you reach a point in your analysis where you might have an answer, go a little further. Consider what might be affecting your results and what might support a counterargument. The best analysis will be presented as a very refined version of the broader investigation. Always be curious!

Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.

ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!

Tỷ lệ các chuyến bay bị trì hoãn

Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:

Đầu vào


data.groupby(['unique_carrier','delayed']).size().unstack()
    


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
6,

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 và

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
9:
Đầu raCó thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.
unique_carrier
ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!8912 9841
Tỷ lệ các chuyến bay bị trì hoãn3527 2104
B64832 4401
Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:17719 9803
1. Nhóm theo nhà cung cấp và bị trì hoãn10596 11371
F91103 1848
Các chuyến bay nhóm bởi

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 và

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
1, nhận số lượng với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 (như bạn đã làm trong bài học trước, sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 để trả về DataFrame:
1351 1354
chậm trễ4692 8060
Sai1550 2133
ĐÚNG VẬY9977 10804
Aa7885 8624
BẰNG 7850 6353
DL1254 781
Ev21789 21150

Ha

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
0


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
6,

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 và

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
9:
unique_carrierĐầu raCó thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.
0ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!8912 9841
1Tỷ lệ các chuyến bay bị trì hoãn3527 2104
2Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:4832 4401
31. Nhóm theo nhà cung cấp và bị trì hoãn17719 9803
4Các chuyến bay nhóm bởi

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 và

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
1, nhận số lượng với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 (như bạn đã làm trong bài học trước, sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 để trả về DataFrame:
10596 11371

chậm trễ

Sai

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
1


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
6,

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 và

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
9:
unique_carrierĐầu raCó thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.flights_count
0ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!8912 9841 18753
1Tỷ lệ các chuyến bay bị trì hoãn3527 2104 5631
2Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:4832 4401 9233
31. Nhóm theo nhà cung cấp và bị trì hoãn17719 9803 27522
4Các chuyến bay nhóm bởi

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 và

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
1, nhận số lượng với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 (như bạn đã làm trong bài học trước, sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 để trả về DataFrame:
10596 11371 21967

chậm trễ

Sai

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
2


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
6,

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 và

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
9:
unique_carrierĐầu raCó thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.flights_countproportion_delayed
0ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!8912 9841 18753 0.524769
1Tỷ lệ các chuyến bay bị trì hoãn3527 2104 5631 0.373646
2Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:4832 4401 9233 0.476660
31. Nhóm theo nhà cung cấp và bị trì hoãn17719 9803 27522 0.356188

Các chuyến bay nhóm bởi

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 và

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
1, nhận số lượng với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 (như bạn đã làm trong bài học trước, sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 để trả về DataFrame:

chậm trễ

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
3

Sai

Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
6,

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 và

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
9:
unique_carrierĐầu raCó thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.flights_countproportion_delayed
7ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!4692 8060 12752 0.632058
5Tỷ lệ các chuyến bay bị trì hoãn1103 1848 2951 0.626228
8Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:1550 2133 3683 0.579147
0ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò!8912 9841 18753 0.524769
10Tỷ lệ các chuyến bay bị trì hoãn7885 8624 16509 0.522382
9Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:9977 10804 20781 0.519898
4Các chuyến bay nhóm bởi

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 và

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
1, nhận số lượng với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 (như bạn đã làm trong bài học trước, sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 để trả về DataFrame:
10596 11371 21967 0.517640
6chậm trễ1351 1354 2705 0.500555
13Sai21789 21150 42939 0.492559
2Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau:4832 4401 9233 0.476660
111. Nhóm theo nhà cung cấp và bị trì hoãn7850 6353 14203 0.447300
12Các chuyến bay nhóm bởi

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 và

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
1, nhận số lượng với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 (như bạn đã làm trong bài học trước, sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 để trả về DataFrame:
1254 781 2035 0.383784
1Tỷ lệ các chuyến bay bị trì hoãn3527 2104 5631 0.373646
31. Nhóm theo nhà cung cấp và bị trì hoãn17719 9803 27522 0.356188

Các chuyến bay nhóm bởi


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 và

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
1, nhận số lượng với

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
7 (như bạn đã làm trong bài học trước, sử dụng

data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
8 để trả về DataFrame:

chậm trễHow many minutes are flights delayed on average, for each airline?

Sai

ĐÚNG VẬYmean, or the average, gives you a general idea of how many minutes flights were delayed for each airline. .pivot_table() calculates the mean of the aggregated values by default. You can pivot on the column


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
0 to see the mean delay time aggregated by airline:

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
4

Đầu ra

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
5

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
6 đã tính toán

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
6

Đầu ra

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
5

Lưu ý rằng vì data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 6 đã tính toán data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
6

Thống kê cơ bản với


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
8

Đầu vào

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
8

Đầu ra

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
9

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
6 đã tính toán

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

  1. from collections import Counter
    counts = Counter()
    for count in df["count"]:
      counts[count] += 1
    
    print counts
    
    6
  2. Thống kê cơ bản với
    
    data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
        
    8
  3. 
    data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
        
    8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụng
    
    data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
        
    8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.

Trước khi sử dụng


delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
    
1, chọn loạt

delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
    
2 cho tất cả các chuyến bay Tây Nam:

Đầu ra

count_counter = Counter(df['count'])
0

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
6 đã tính toán

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
6

  • Thống kê cơ bản với
    
    data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
        
    8
  • 
    data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
        
    8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụng
    
    data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
        
    8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.
  • Trước khi sử dụng
    
    delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
    delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
        
    1, chọn loạt
    
    delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
    delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
        
    2 cho tất cả các chuyến bay Tây Nam:
  • Trong trường hợp khó hiểu, đây là những gì vừa xảy ra, đã đánh giá từ trong ra ngoài, sau đó từ trái sang phải:
  • 
    delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
    delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
        
    3 tạo ra một chỉ số boolean trả về
    
    delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
    delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
        
    4 cho các hàng đại diện cho các chuyến bay Tây Nam
  • Gói đó trong
    
    delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
    delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
        
    5 áp dụng chỉ số Boolean cho DataFrame
    
    data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
        
    5.
  • 
    delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
    delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
        
    7 giảm các cột thành cột ['ARR_DELAY'] (và chỉ mục).
  • Bây giờ bạn có thể chạy
    
    data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
        
    8 trên đối tượng mới này mà bạn đã tạo để có được số liệu thống kê cơ bản:

Đây là một tính năng thực sự khiến Python khác biệt với SQL hoặc Excel. Sẽ mất rất nhiều công việc để có được thông tin này trong một trong những công cụ đó, nhưng ở đây cũng dễ dàng như thêm phương thức data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 8.

Dưới đây là sự cố nhanh chóng của những điều trên vì nó liên quan đến bộ dữ liệu cụ thể này:


data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
    
1: Có 42.020 hàng trong bộ dữ liệu, được lọc chỉ hiển thị Tây Nam (WN).

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7: Độ trễ trung bình.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
2: Độ lệch chuẩn. Thêm về điều này dưới đây.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
3: Độ trễ ngắn nhất trong bộ dữ liệu. Trong trường hợp này, chuyến bay rất sớm.histogram. Histograms allow you to bucket the values into bins, or fixed value ranges, and count how many values fall in that bin.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
4: Tỷ lệ phần trăm thứ 25. 25% độ trễ thấp hơn

WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
5.

count_counter = Counter(df['count'])
1


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
6: Tỷ lệ phần trăm thứ 50 hoặc

WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
7. 50% độ trễ thấp hơn

WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
8.


WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
9: Tỷ lệ phần trăm thứ 75. 75% độ trễ thấp hơn

data.groupby(['unique_carrier','delayed']).size().unstack()
    
0.

count_counter = Counter(df['count'])
2


data.groupby(['unique_carrier','delayed']).size().unstack()
    
1: Độ trễ lâu nhất trong bộ dữ liệu:

data.groupby(['unique_carrier','delayed']).size().unstack()
    
2.

count_counter = Counter(df['count'])
3

Thực hành vấn đề

Đầu vào

count_counter = Counter(df['count'])
4

Đầu ra

count_counter = Counter(df['count'])
5

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
6 đã tính toán

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):histograms are not bar charts. In a bar chart, the height of the bar represents a numerical value (such as number of delayed flights), but each bar itself represents a category—something that cannot be counted, averaged, or summed (like airline).

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts
6

Thống kê cơ bản với


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
8


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụng

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.

Trước khi sử dụng delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 1, chọn loạt delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 2 cho tất cả các chuyến bay Tây Nam:

Trong trường hợp khó hiểu, đây là những gì vừa xảy ra, đã đánh giá từ trong ra ngoài, sau đó từ trái sang phải:

Đầu vào

count_counter = Counter(df['count'])
6

Đầu ra

count_counter = Counter(df['count'])
7

Lưu ý rằng vì


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
6 đã tính toán

data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):

Đầu vào

count_counter = Counter(df['count'])
8

Đầu ra

count_counter = Counter(df['count'])
9

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.

Xem giải pháp

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.Which flights were delayed between 20-25 minutes? Was there a given reason? What hypotheses might you make about why there are more flights in that bin as opposed to the 15-20 minute bucket? Select the flights using boolean indexing, then count the origin airports for those flights.

Xem giải pháp

Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.

So sánh phân phối với biểu đồ

Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?

Đầu vào


import pandas as pd
import numpy as np
    
0

Đầu ra


import pandas as pd
import numpy as np
    
1

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Đầu vào


import pandas as pd
import numpy as np
    
2

Đầu ra


import pandas as pd
import numpy as np
    
3

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.standard deviation, which describes how flight delays are dispersed. In comparing the histograms, you can see that US Airways' delays are most concentrated between -20 to 20 minutes, while Envoy Air's flight delays are more distributed from 0 to 200 minutes. You can say that Envoy Air's delays are more dispersed than US Airways' delays, meaning that for a given flight on either airline, you would be less certain about the length of the delay for the Envoy flight.

Xem giải phápnormal distribution, or a common expected shape of distribution among various types of data. The value for standard deviation defines a range above and below the mean for which a certain percentage of the data lie. You can see in this visualization that, for a normal distribution:

  • Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.higher.
  • So sánh phân phối với biểu đồlower.

Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?

Hướng dẫn how do you check a column distribution in python? - làm cách nào để kiểm tra phân phối cột trong python?
So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:

Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:

Đầu vào


import pandas as pd
import numpy as np
    
4

Đầu ra


import pandas as pd
import numpy as np
    
5

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.dispersion than Envoy Air.

Xem giải pháp

Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.

So sánh phân phối với biểu đồ

Đầu vào


import pandas as pd
import numpy as np
    
6

Đầu ra


import pandas as pd
import numpy as np
    
7

Đầu vào


import pandas as pd
import numpy as np
    
8

Đầu ra


import pandas as pd
import numpy as np
    
9

Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.

Thực hành vấn đề

Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.

Đầu vào


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
0

Đầu ra

flight_dateunique_carrierflight_numTuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.Thực hành vấn đềarr_delay Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.Xem giải phápcarrier_delayweather_delaylate_aircraft_delaynas_delaysecurity_delayactual_elapsed_time Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.
0So sánh phân phối với biểu đồNhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?1 So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:-19.0 0.0 2475.0 Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.381.0 Độ lệch chuẩn
1Một trong những biện pháp bạn thấy ở trên là

WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên.
Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?1 So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:-39.0 0.0 2475.0 Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.358.0 Độ lệch chuẩn
2Một trong những biện pháp bạn thấy ở trên là

WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên.
Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?1 So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:-12.0 0.0 2475.0 Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn.385.0 Độ lệch chuẩn
3Một trong những biện pháp bạn thấy ở trên là

WN    21150
EV    11371
OO    10804
AA     9841
DL     9803
UA     8624
MQ     8060
US     6353
B6     4401
NK     2133
AS     2104
F9     1848
HA     1354
VX      781
Name: unique_carrier, dtype: int64
    
2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên.
Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?1 JFKLỏng lẻo-8.0 0.0 2475.0 NanNanNanNanNan389.0 Sai
42015-01-06Aa1 JFKLỏng lẻo25.0 0.0 2475.0 0.0 0.0 0.0 25.0 0.0 424.0 Nan

Sai


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
1

2015-01-06

Aa

ĐÚNG VẬY

Để so sánh, việc sử dụng


data.groupby(['unique_carrier','delayed']).size().unstack()
    
7 trong Python trên tương đương với truy vấn SQL sau:


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
2

Ô hộp

Bây giờ bạn có một khung dữ liệu của các chuyến bay có nguồn gốc từ các sân bay khối lượng lớn, bạn có thể hỏi: Sự chậm trễ chuyến bay dài nhất bắt nguồn từ đâu vào tháng 1 năm 2015?Bạn có thể tạo một bảng xoay vòng xoay ngày bay trên sân bay, nơi các giá trị là giá trị trung bình của sự chậm trễ chuyến bay cho ngày đó.Đầu vàoĐầu ranguồn gốcATLBosCLTCÁI HANGDFWDTWEWRFllIAHJFKLasLỏng lẻoLGAMCOMspOrd
flight_date
2015-01-023.327536 3.590580 0.509317 20.526899 36.049598 -6.842809 8.316993 -0.543307 12.156187 3.688742 13.709512 16.500000 -2.947712 5.834734 1.193333 4.590062 16.547325 12.254717 8.371429 4.534161
2015-01-0315.428112 30.471616 13.768340 51.186292 37.604138 22.738007 37.370229 15.666667 39.844037 31.882979 18.550685 26.117338 15.606426 17.511364 20.027586 37.995702 19.783843 13.771812 11.773364 13.465190
2015-01-0421.423343 26.867857 23.325077 52.495238 38.360104 35.771626 53.617978 25.293651 20.464286 55.445578 19.564767 28.159016 32.450704 39.847025 19.461279 83.225619 20.180085 10.291262 19.251092 15.503125
2015-01-053.095000 11.208609 6.051672 29.899200 28.705263 24.696594 22.674051 13.711864 8.450505 19.554422 17.229381 15.788618 34.984177 14.929204 23.874564 63.916667 13.665217 5.418060 13.225806 2.003356
2015-01-066.361725 43.310580 13.294964 15.344029 11.534626 35.078616 43.104530 23.425926 3.622642 43.359073 13.330579 7.234004 61.165049 29.996785 9.435088 42.356183 12.156658 4.372180 8.582716 0.581481
2015-01-070.944276 10.651316 4.869565 33.301095 10.428762 13.403727 22.030508 11.254464 10.490476 15.536680 7.498652 5.442446 46.063973 8.977918 -1.666667 38.479361 7.348028 9.467925 5.289216 2.977941
2015-01-083.033099 6.807692 10.484568 14.569873 11.217450 20.593060 15.419463 2.558442 1.571121 2.749091 8.597911 6.171329 3.575221 9.152648 47.264605 96.695578 8.000000 8.738351 5.141487 12.619718
2015-01-091.833499 21.045603 5.742331 21.551237 8.591810 34.665653 22.632107 1.808696 7.611354 43.294964 4.487245 8.144112 42.325581 8.758410 6.834459 46.355837 2.160550 7.464029 9.425178 3.878893
2015-01-10-5.473046 3.763547 -1.658915 2.822014 5.501582 2.584906 0.422680 -5.172269 0.937888 1.259259 2.564706 2.709746 -11.311475 0.273273 8.542857 16.635209 2.213483 -2.761506 0.621622 2.718894
2015-01-11-2.118085 -2.569767 5.789286 16.045977 19.767313 5.808725 -1.670543 -3.008734 17.064904 -2.964158 40.793103 24.195531 -7.576923 -2.242991 2.264493 22.578704 11.557143 6.381132 27.650633 5.946043
2015-01-1242.375375 8.254777 14.975524 22.791444 19.114820 24.692771 8.219780 8.960699 22.710526 4.297101 12.710526 10.982175 16.641509 21.563863 1.274510 31.676056 5.371230 7.318519 27.918719 7.051546
2015-01-132.812957 -9.384106 0.086505 9.789279 7.248656 -2.710692 -2.901024 -7.118721 1.415274 -13.214559 -2.937853 -1.553506 -0.883234 -1.462295 -5.660959 23.323259 2.083990 3.267176 11.153652 0.528090
2015-01-14-1.400000 -3.091216 -1.681250 -0.638838 2.690160 -1.903727 -5.456446 3.360360 -0.530120 -14.911877 -3.695418 -2.958559 0.002994 1.885350 -7.691030 2.735369 -1.161593 -1.134831 1.324455 -5.717949

PHX

Để so sánh, việc sử dụng


data.groupby(['unique_carrier','delayed']).size().unstack()
    
7 trong Python trên tương đương với truy vấn SQL sau:


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
3

Ô hộp

Bây giờ bạn có một khung dữ liệu của các chuyến bay có nguồn gốc từ các sân bay khối lượng lớn, bạn có thể hỏi: Sự chậm trễ chuyến bay dài nhất bắt nguồn từ đâu vào tháng 1 năm 2015?Bạn có thể tạo một bảng xoay vòng xoay ngày bay trên sân bay, nơi các giá trị là giá trị trung bình của sự chậm trễ chuyến bay cho ngày đó.Đầu vàoĐầu ranguồn gốcATLBosCLTCÁI HANGDFWDTWEWRFllIAHJFKLasLỏng lẻoLGAMCOMspOrd
PHX13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000 13.000000
BIỂN7.049522 11.609776 7.350537 22.283364 18.216483 16.044343 17.213870 6.938287 11.216083 14.613638 11.723369 11.302481 17.699715 11.925022 9.627240 39.274123 9.223535 6.526833 11.517644 5.083884
SFO12.798122 15.004838 7.499172 16.171575 12.854437 15.286101 18.718574 10.452380 11.488504 22.619487 11.574100 10.193057 23.428830 12.647029 14.971524 28.195169 7.051518 4.795902 8.742399 5.910367
SLC-5.473046 -9.384106 -1.681250 -0.638838 2.690160 -6.842809 -5.456446 -7.118721 -0.530120 -14.911877 -3.695418 -2.958559 -11.311475 -2.242991 -7.691030 2.735369 -1.161593 -2.761506 0.621622 -5.717949
25%0.944276 3.590580 0.509317 14.569873 8.591810 2.584906 0.422680 -0.543307 1.571121 1.259259 4.487245 5.442446 -0.883234 1.885350 1.193333 22.578704 2.213483 4.372180 5.289216 2.003356
50%3.033099 8.254777 5.789286 20.526899 11.534626 20.593060 15.419463 3.360360 8.450505 4.297101 12.710526 8.144112 15.606426 8.977918 6.834459 37.995702 8.000000 7.318519 9.425178 3.878893
75%6.361725 21.045603 13.294964 29.899200 28.705263 24.696594 22.674051 13.711864 17.064904 31.882979 17.229381 16.500000 34.984177 17.511364 19.461279 46.355837 13.665217 9.467925 13.225806 7.051546
Tối đa42.375375 43.310580 23.325077 52.495238 38.360104 35.771626 53.617978 25.293651 39.844037 55.445578 40.793103 28.159016 61.165049 39.847025 47.264605 96.695578 20.180085 13.771812 27.918719 15.503125

Thật khó để so sánh các sân bay chỉ bằng cách nhìn vào một bảng số lớn. Điều này sẽ dễ dàng hơn nếu bạn nhóm các hồ sơ cho mỗi sân bay và phủ chúng, như bạn đã làm với Envoy Air và US Airways:

Đầu vào


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
4

Đầu ra


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
5

Chà, điều đó cũng khó đọc. Phương pháp phân phối lớp phủ có giới hạn, ít nhất là khi bạn muốn so sánh nhiều bản phân phối cùng một lúc. May mắn thay, có một cách hình dung một chiều để hình dung hình dạng của các bản phân phối được gọi là một ô hộp.box plot.

Các ô hộp bao gồm các biện pháp phân tán quan trọng tương tự mà bạn nhận được khi chạy


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
8, cho phép nó được hiển thị theo một chiều và dễ dàng so sánh với các bản phân phối khác. Các thành phần của các ô hộp là:

Hướng dẫn how do you check a column distribution in python? - làm cách nào để kiểm tra phân phối cột trong python?
- Thiết kế bảng điều khiển thông tin, Stephen vài

Hãy thử sử dụng các ô hộp để so sánh phân phối độ trễ hàng ngày tại mỗi sân bay:

Đầu vào


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
6

Đầu ra


data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
    
7

Chà, điều đó cũng khó đọc. Phương pháp phân phối lớp phủ có giới hạn, ít nhất là khi bạn muốn so sánh nhiều bản phân phối cùng một lúc. May mắn thay, có một cách hình dung một chiều để hình dung hình dạng của các bản phân phối được gọi là một ô hộp.

Các ô hộp bao gồm các biện pháp phân tán quan trọng tương tự mà bạn nhận được khi chạy


data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
    
8, cho phép nó được hiển thị theo một chiều và dễ dàng so sánh với các bản phân phối khác. Các thành phần của các ô hộp là:Which airports are the worst to fly out of?, you can now say that you will (almost certainly) be delayed if you are flying out of Chicago in January, based on 2015 data. If you can help it, avoid connecting flights in Chicago.

- Thiết kế bảng điều khiển thông tin, Stephen vài

Hãy thử sử dụng các ô hộp để so sánh phân phối độ trễ hàng ngày tại mỗi sân bay:

Như bạn có thể thấy, việc so sánh nhiều bản phân phối với các ô hộp đơn giản hơn về mặt trực quan. Các sân bay như JFK có sự phân tán đáng kể sự chậm trễ, trong khi LGA được phân phối đều xung quanh sự chậm trễ trung bình thường xuyên nhất. Tuy nhiên, Ord gần gấp đôi thời gian, so với mọi sân bay khối lượng lớn khác. Mong đợi sự chậm trễ của tuyết ở Chicago vào tháng 1!

Dẫn đầu phân tích này, chúng tôi đặt ra một vài câu hỏi chính. Để trả lời cuối cùng, sân bay nào là tồi tệ nhất để bay ra ?, Bây giờ bạn có thể nói rằng bạn sẽ (gần như chắc chắn) bị trì hoãn nếu bạn bay ra khỏi Chicago vào tháng 1, dựa trên dữ liệu năm 2015. Nếu bạn có thể giúp nó, tránh kết nối các chuyến bay ở Chicago.

Thực hành vấn đề

Hình dung độ trễ đến trung bình theo ngày và nhà cung cấp bằng cách sử dụng các ô hộp.

  • Xem giải pháp
  • Tom tăt bai học
  • Như bạn đã thấy trong bài học này, việc đặt dữ liệu ngược lại cho phép bạn hiểu rõ hơn về nó. Mặc dù nó rõ ràng rằng tất cả các hãng hàng không và sân bay đều bị chậm trễ, bạn có thể sử dụng số liệu thống kê để nhanh chóng rút ra những xu hướng và sự xuất hiện bất thường trên dữ liệu. Độ lệch của dữ liệu so với một xu hướng thường được tiết lộ rõ ​​ràng trong trực quan hóa, cho phép bạn xác định trực quan các sự kiện bất thường và đào sâu hơn.
  • Trong bài học này, bạn đã học được cách:
  • Phân phối phân phối bộ dữ liệu

Làm thế nào để bạn tìm thấy sự phân phối của một cột trong Python?

Bạn có thể sử dụng .describe () để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn.use . describe() to see a number of basic statistics about the column, such as the mean, min, max, and standard deviation.

Làm thế nào để bạn kiểm tra phân phối dữ liệu trong Python?

Học máy - Phân phối dữ liệu..
❮ Trước Sau ❯.
Tạo một mảng chứa 250 phao ngẫu nhiên trong khoảng từ 0 đến 5: Nhập Numpy.x = numpy.random.uniform (0,0, 5.0, 250) ....
Vẽ một biểu đồ: Nhập Numpy.....
Tạo một mảng với 100000 số ngẫu nhiên và hiển thị chúng bằng biểu đồ với 100 thanh: nhập Numpy ..

Làm thế nào để bạn kiểm tra trung bình của một cột trong Python?

Để tính toán giá trị trung bình của toàn bộ các cột trong DataFrame, hãy sử dụng pandas.series.mean () với danh sách các cột DataFrame.Bạn cũng có thể nhận được giá trị trung bình cho tất cả các cột số bằng DataFrame.use pandas. Series. mean() with a list of DataFrame columns. You can also get the mean for all numeric columns using DataFrame.

Làm cách nào để đếm số lần xuất hiện trong một cột trong Python?

Sử dụng phương thức kích thước () hoặc Count () với pandas.dataFrame.groupBy () sẽ tạo số lượng của một số lần xuất hiện của dữ liệu có trong một cột cụ thể của DataFrame. DataFrame. groupby() will generate the count of a number of occurrences of data present in a particular column of the dataframe.