Từ nhận xét của bạn, tôi đoán bảng dữ liệu của bạn thực sự dài hơn nhiều và bạn muốn thấy phân phối máy chủ tên 8 (bất kể số nào ở đây). Show
Tôi nghĩ bạn chỉ nên làm điều này:
Và bạn sẽ nhận được những gì bạn muốn. Nếu đó là điều bạn muốn. Pandas có tài liệu tốt cho tất cả các chức năng của nó, và biểu đồ được mô tả ở đây. Nếu bạn thực sự muốn thấy "có bao nhiêu số có cùng một số", thay vì một đại diện của sự phân giải, thì bạn sẽ cần phải đặt 9 kwarg là 0 - hoặc làm như bạn đã nói và đếm số lần bạn Nhận mỗi 1 và sau đó tạo biểu đồ thanh.Có thể một cái gì đó như:
Một cách tiếp cận thay thế và sạch hơn, mà tôi hoàn toàn bỏ lỡ và WWII chỉ ra bên dưới, chỉ là sử dụng hàm tạo tiêu chuẩn của 2: Bắt đầu từ đây? Bài học này là một phần của hướng dẫn đầy đủ trong việc sử dụng Python để phân tích dữ liệu. Kiểm tra sự khởi đầu. Mục tiêu của bài học nàyTrong bài học này, bạn sẽ học cách:
Làm thế nào để bạn tìm thấy sự phân phối của một cột trong Python? Bạn có thể sử dụng .describe () để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn.Làm thế nào để bạn kiểm tra phân phối dữ liệu trong Python? Throughout this tutorial, you can use Mode for free to practice writing and running Python code. Học máy - Phân phối dữ liệu.
Làm thế nào để bạn kiểm tra trung bình của một cột trong Python? Để tính toán giá trị trung bình của toàn bộ các cột trong DataFrame, hãy sử dụng pandas.series.mean () với danh sách các cột DataFrame. Bạn cũng có thể nhận được giá trị trung bình cho tất cả các cột số bằng DataFrame. Làm cách nào để đếm số lần xuất hiện trong một cột trong Python?Sử dụng phương thức kích thước () hoặc Count () với pandas.dataFrame.groupBy () sẽ tạo số lượng của một số lần xuất hiện của dữ liệu có trong một cột cụ thể của DataFrame. Bắt đầu từ đây? Bài học này là một phần của hướng dẫn đầy đủ trong việc sử dụng Python để phân tích dữ liệu. Kiểm tra sự khởi đầu. Mục tiêu của bài học này
Mục tiêu của bài học này
Mục tiêu của bài học này
Trong bài học này, bạn sẽ học cách:
data.head() # our flight data, including delay minute counts by type, and total delay upon arrival 4 là một đối tượng danh sách. Được lồng bên trong danh sách này là một khung dữ liệu chứa các kết quả được tạo bởi truy vấn SQL mà bạn đã viết. Để tìm hiểu thêm về cách truy cập các truy vấn SQL trong chế độ Notebook Python, hãy đọc tài liệu này.Bây giờ bạn đã sẵn sàng để đi. Một trong những cách tốt nhất để trả lời các câu hỏi như thế này là xem xét các phân phối của các biến có liên quan. Bạn có thể nghĩ về việc phân phối bộ dữ liệu hoặc biến dưới dạng danh sách các giá trị có thể và một số chỉ định về tần suất mỗi giá trị xảy ra. Để được bồi dưỡng nhanh về phân phối, hãy xem bài học này. Trước khi bạn nhìn vào các phân phối sự chậm trễ trên các hãng hàng không, hãy bắt đầu bằng cách khám phá những hãng hàng không nào có sự chậm trễ nhất. Đầu tiên, xây dựng chuỗi cho biết liệu các chuyến bay có bị trì hoãn hay không, giống như bạn đã làm trong bài học trước: Đầu vào
Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng 6, 7 và 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng 9:Đầu vào
Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng 6, 7 và 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng 9:Đầu ra: A great analyst will always be skeptical and curious. When you reach a point in your analysis where you might have an answer, go a little further. Consider what might be affecting your results and what might support a counterargument. The best analysis will be presented as a very refined version of the broader investigation. Always be curious! Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn.ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò! Tỷ lệ các chuyến bay bị trì hoãnĐể tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau: Đầu vào
Ha Đầu vào 0
chậm trễSai Đầu vào 1
chậm trễSai Đầu vào 2
Các chuyến bay nhóm bởi
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
|
Bây giờ đếm số lượng chuyến bay bị trì hoãn cho mỗi hãng hàng không. Vì bạn chỉ sau một giá trị cho mỗi hãng hàng không, bạn không phải sử dụng 6, 7 và 8 như trong bài học trước. Thay vào đó, chỉ cần lọc bộ dữ liệu, việc đếm các hàng cho mỗi hàng mang bằng 9: | unique_carrier | Đầu ra | Có thể là một ý tưởng tốt để xem xét tỷ lệ các chuyến bay của mỗi hãng hàng không bị trì hoãn, thay vì chỉ tổng số của mỗi hãng hàng không bị trì hoãn. | flights_count | proportion_delayed |
---|---|---|---|---|---|
7 | ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò! | 4692 | 8060 | 12752 | 0.632058 |
5 | Tỷ lệ các chuyến bay bị trì hoãn | 1103 | 1848 | 2951 | 0.626228 |
8 | Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau: | 1550 | 2133 | 3683 | 0.579147 |
0 | ABC phân tích: Luôn tò mò: Một nhà phân tích tuyệt vời sẽ luôn hoài nghi và tò mò. Khi bạn đạt đến một điểm trong phân tích của bạn, nơi bạn có thể có câu trả lời, hãy đi xa hơn một chút. Hãy xem xét những gì có thể ảnh hưởng đến kết quả của bạn và những gì có thể hỗ trợ một phản biện. Phân tích tốt nhất sẽ được trình bày dưới dạng phiên bản rất tinh tế của cuộc điều tra rộng hơn. Luôn luôn tò mò! | 8912 | 9841 | 18753 | 0.524769 |
10 | Tỷ lệ các chuyến bay bị trì hoãn | 7885 | 8624 | 16509 | 0.522382 |
9 | Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau: | 9977 | 10804 | 20781 | 0.519898 |
4 | Các chuyến bay nhóm bởi 0 và 1, nhận số lượng với 7 (như bạn đã làm trong bài học trước, sử dụng 8 để trả về DataFrame: | 10596 | 11371 | 21967 | 0.517640 |
6 | chậm trễ | 1351 | 1354 | 2705 | 0.500555 |
13 | Sai | 21789 | 21150 | 42939 | 0.492559 |
2 | Để tính tỷ lệ các chuyến bay bị trì hoãn, hãy hoàn thành 4 bước sau: | 4832 | 4401 | 9233 | 0.476660 |
11 | 1. Nhóm theo nhà cung cấp và bị trì hoãn | 7850 | 6353 | 14203 | 0.447300 |
12 | Các chuyến bay nhóm bởi 0 và 1, nhận số lượng với 7 (như bạn đã làm trong bài học trước, sử dụng 8 để trả về DataFrame: | 1254 | 781 | 2035 | 0.383784 |
1 | Tỷ lệ các chuyến bay bị trì hoãn | 3527 | 2104 | 5631 | 0.373646 |
3 | 1. Nhóm theo nhà cung cấp và bị trì hoãn | 17719 | 9803 | 27522 | 0.356188 |
Các chuyến bay nhóm bởi
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
0 và
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
1, nhận số lượng với
data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
7 (như bạn đã làm trong bài học trước, sử dụng
data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
8 để trả về DataFrame:chậm trễHow many minutes are flights delayed on average, for each airline?
Sai
ĐÚNG VẬYmean, or the average, gives you a general idea of how many minutes flights were delayed for each airline. .pivot_table() calculates the mean of the aggregated values by default. You can pivot on the column
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
0 to see the mean delay time aggregated by airline:Đầu vào
from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
4Đầu ra
from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
5Lưu ý rằng vì
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
6 đã tính toán
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):Đầu vào
from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
6Đầu ra
from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
5Lưu ý rằng vì data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 6 đã tính toán data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):
from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
6Thống kê cơ bản với
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8Đầu vào
from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
8Đầu ra
from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
9Lưu ý rằng vì
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
6 đã tính toán
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):
6from collections import Counter counts = Counter() for count in df["count"]: counts[count] += 1 print counts
- Thống kê cơ bản với
8data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụngdata['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
Trước khi sử dụng
delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
1, chọn loạt
delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True
delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
2 cho tất cả các chuyến bay Tây Nam:Đầu ra
count_counter = Counter(df['count'])
0Lưu ý rằng vì
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
6 đã tính toán
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
6- Thống kê cơ bản với
8data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụngdata['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
- Trước khi sử dụng
1, chọn loạtdelayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
2 cho tất cả các chuyến bay Tây Nam:delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
- Trong trường hợp khó hiểu, đây là những gì vừa xảy ra, đã đánh giá từ trong ra ngoài, sau đó từ trái sang phải:
3 tạo ra một chỉ số boolean trả vềdelayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
4 cho các hàng đại diện cho các chuyến bay Tây Namdelayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
- Gói đó trong
5 áp dụng chỉ số Boolean cho DataFramedelayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
5.data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
7 giảm các cột thành cột ['ARR_DELAY'] (và chỉ mục).delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier
- Bây giờ bạn có thể chạy
8 trên đối tượng mới này mà bạn đã tạo để có được số liệu thống kê cơ bản:data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
Đây là một tính năng thực sự khiến Python khác biệt với SQL hoặc Excel. Sẽ mất rất nhiều công việc để có được thông tin này trong một trong những công cụ đó, nhưng ở đây cũng dễ dàng như thêm phương thức data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 8.
Dưới đây là sự cố nhanh chóng của những điều trên vì nó liên quan đến bộ dữ liệu cụ thể này:
data.head() # our flight data, including delay minute counts by type, and total delay upon arrival
1: Có 42.020 hàng trong bộ dữ liệu, được lọc chỉ hiển thị Tây Nam (WN).data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson 7: Độ trễ trung bình.
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
2: Độ lệch chuẩn. Thêm về điều này dưới đây.
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
3: Độ trễ ngắn nhất trong bộ dữ liệu. Trong trường hợp này, chuyến bay rất sớm.histogram. Histograms allow you to bucket the values into bins, or fixed value ranges, and count how many values fall in that bin.
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
4: Tỷ lệ phần trăm thứ 25. 25% độ trễ thấp hơn
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
5.count_counter = Counter(df['count'])
1
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
6: Tỷ lệ phần trăm thứ 50 hoặc
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
7. 50% độ trễ thấp hơn
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
8.
WN 21150
EV 11371
OO 10804
AA 9841
DL 9803
UA 8624
MQ 8060
US 6353
B6 4401
NK 2133
AS 2104
F9 1848
HA 1354
VX 781
Name: unique_carrier, dtype: int64
9: Tỷ lệ phần trăm thứ 75. 75% độ trễ thấp hơn
data.groupby(['unique_carrier','delayed']).size().unstack()
0.count_counter = Counter(df['count'])
2
data.groupby(['unique_carrier','delayed']).size().unstack()
1: Độ trễ lâu nhất trong bộ dữ liệu:
data.groupby(['unique_carrier','delayed']).size().unstack()
2.count_counter = Counter(df['count'])
3Thực hành vấn đề
Đầu vào
count_counter = Counter(df['count'])
4Đầu ra
count_counter = Counter(df['count'])
5Lưu ý rằng vì
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
6 đã tính toán
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):histograms are not bar charts. In a bar chart, the height of the bar represents a numerical value (such as
number of delayed flights), but each bar itself represents a category—something that cannot be counted, averaged, or summed (like airline).from collections import Counter
counts = Counter()
for count in df["count"]:
counts[count] += 1
print counts
6Thống kê cơ bản với
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8 là một chức năng tiện dụng khi bạn làm việc với các cột số. Bạn có thể sử dụng
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8 để xem một số số liệu thống kê cơ bản về cột, chẳng hạn như giá trị trung bình, tối thiểu, tối đa và độ lệch chuẩn. Điều này có thể cung cấp cho bạn một cái nhìn tổng quan nhanh chóng về hình dạng của dữ liệu.Trước khi sử dụng delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 1, chọn loạt delayed_flights = data[data['delayed'] == True] #filter to only rows where delayer == True delayed_flights['unique_carrier'].value_counts() #count the number of rows for each carrier 2 cho tất cả các chuyến bay Tây Nam:
Trong trường hợp khó hiểu, đây là những gì vừa xảy ra, đã đánh giá từ trong ra ngoài, sau đó từ trái sang phải:
Đầu vào
count_counter = Counter(df['count'])
6Đầu ra
count_counter = Counter(df['count'])
7Lưu ý rằng vì
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
6 đã tính toán
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
7 theo mặc định, nên những điều trên có hiệu quả giống như khi bạn vượt qua rõ ràng đối số như thế này (và nó tạo ra kết quả chính xác tương tự):Đầu vào
count_counter = Counter(df['count'])
8Đầu ra
count_counter = Counter(df['count'])
9Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.
Thực hành vấn đề
Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.
Xem giải pháp
Thực hành vấn đề
Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.Which flights were delayed between 20-25 minutes? Was there a given reason? What hypotheses might you make about why there are more flights in that bin as opposed to the 15-20 minute bucket? Select the flights using boolean indexing, then count the origin airports for those flights.
Xem giải pháp
Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.
So sánh phân phối với biểu đồ
Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?
Đầu vào
import pandas as pd
import numpy as np
0
Đầu ra
import pandas as pd
import numpy as np
1Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.
Đầu vào
import pandas as pd
import numpy as np
2Đầu ra
import pandas as pd
import numpy as np
3Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.
Thực hành vấn đề
Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.standard deviation, which describes how flight delays are dispersed. In comparing the histograms, you can see that US Airways' delays are most concentrated between -20 to 20 minutes, while Envoy Air's flight delays are more distributed from 0 to 200 minutes. You can say that Envoy Air's delays are more dispersed than US Airways' delays, meaning that for a given flight on either airline, you would be less certain about the length of the delay for the Envoy flight.
Xem giải phápnormal distribution, or a common expected shape of distribution among various types of data. The value for standard deviation defines a range above and below the mean for which a certain percentage of the data lie. You can see in this visualization that, for a normal distribution:
- Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.higher.
- So sánh phân phối với biểu đồlower.
Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai?
So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air:Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng:
Đầu vào
import pandas as pd
import numpy as np
4
Đầu ra
import pandas as pd
import numpy as np
5Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.
Thực hành vấn đề
Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.dispersion than Envoy Air.
Xem giải pháp
Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó.
So sánh phân phối với biểu đồ
Đầu vào
import pandas as pd
import numpy as np
6Đầu ra
import pandas as pd
import numpy as np
7Đầu vào
import pandas as pd
import numpy as np
8Đầu ra
import pandas as pd
import numpy as np
9Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ.
Thực hành vấn đề
Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút.
Đầu vào
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
0Đầu ra
flight_date | unique_carrier | flight_num | Tuyệt quá! Bạn có thể thấy rằng phần lớn các chuyến bay Tây Nam không trễ quá 30 phút. Mặc dù hãng hàng không có nhiều chuyến bay, nhưng phần lớn trong số họ không đủ muộn để khiến bạn hối hận khi đi nghỉ. | Thực hành vấn đề | arr_delay | Lô đất của Virgin America trì hoãn trong khoảng thời gian dài năm phút từ -50 phút đến 200 phút. | Xem giải pháp | carrier_delay | weather_delay | late_aircraft_delay | nas_delay | security_delay | actual_elapsed_time | Hãy đào sâu vào các chuyến bay Virgin America bị trì hoãn bất ngờ. Những chuyến bay nào bị trì hoãn trong khoảng 20-25 phút? Có một lý do nhất định? Bạn có thể đưa ra những giả thuyết nào về lý do tại sao có nhiều chuyến bay trong thùng đó trái ngược với xô 15-20 phút? Chọn các chuyến bay bằng cách sử dụng lập chỉ mục Boolean, sau đó đếm các sân bay gốc cho các chuyến bay đó. | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | So sánh phân phối với biểu đồ | Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai? | 1 | So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air: | Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng: | -19.0 | 0.0 | 2475.0 | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | 381.0 | Độ lệch chuẩn |
1 | Một trong những biện pháp bạn thấy ở trên là 2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên. | Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai? | 1 | So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air: | Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng: | -39.0 | 0.0 | 2475.0 | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | 358.0 | Độ lệch chuẩn |
2 | Một trong những biện pháp bạn thấy ở trên là 2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên. | Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai? | 1 | So sánh phân phối của hai hãng hàng không với số lượng tổng số chuyến bay, US Airways và Envoy Air: | Hai bản phân phối trông giống nhau, nhưng không giống nhau (màu thứ ba là nơi chúng trùng lặp). Bạn có thể sử dụng .describe () để xem số liệu thống kê chính về các nhà mạng: | -12.0 | 0.0 | 2475.0 | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | Có vẻ như sự chậm trễ trên các hãng hàng không đặc phái viên được phân phối nhiều hơn so với sự chậm trễ trên đường hàng không US, có nghĩa là các giá trị được trải ra nhiều hơn. | 385.0 | Độ lệch chuẩn |
3 | Một trong những biện pháp bạn thấy ở trên là 2, độ lệch chuẩn, mô tả mức độ chậm trễ của chuyến bay được phân tán. Khi so sánh các biểu đồ, bạn có thể thấy rằng sự chậm trễ của chúng tôi tập trung nhất trong khoảng từ -20 đến 20 phút, trong khi độ trễ chuyến bay của Envoy Air được phân phối nhiều hơn từ 0 đến 200 phút. Bạn có thể nói rằng sự chậm trễ của Envoy Air được phân tán nhiều hơn sự chậm trễ của US Airways, có nghĩa là đối với một chuyến bay nhất định trên hãng hàng không, bạn sẽ ít chắc chắn về độ dài của sự chậm trễ cho chuyến bay của phái viên. | Nhìn thấy một phân phối là hữu ích để cung cấp cho chúng ta một hình dạng của dữ liệu, nhưng làm thế nào về hai? | 1 | JFK | Lỏng lẻo | -8.0 | 0.0 | 2475.0 | Nan | Nan | Nan | Nan | Nan | 389.0 | Sai |
4 | 2015-01-06 | Aa | 1 | JFK | Lỏng lẻo | 25.0 | 0.0 | 2475.0 | 0.0 | 0.0 | 0.0 | 25.0 | 0.0 | 424.0 | Nan |
Sai
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
12015-01-06
Aa
ĐÚNG VẬY
Để so sánh, việc sử dụng
data.groupby(['unique_carrier','delayed']).size().unstack()
7 trong Python trên tương đương với truy vấn SQL sau:
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
2Ô hộp
Bây giờ bạn có một khung dữ liệu của các chuyến bay có nguồn gốc từ các sân bay khối lượng lớn, bạn có thể hỏi: Sự chậm trễ chuyến bay dài nhất bắt nguồn từ đâu vào tháng 1 năm 2015? | Bạn có thể tạo một bảng xoay vòng xoay ngày bay trên sân bay, nơi các giá trị là giá trị trung bình của sự chậm trễ chuyến bay cho ngày đó. | Đầu vào | Đầu ra | nguồn gốc | ATL | Bos | CLT | CÁI HANG | DFW | DTW | EWR | Fll | IAH | JFK | Las | Lỏng lẻo | LGA | MCO | Msp | Ord |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
flight_date | ||||||||||||||||||||
2015-01-02 | 3.327536 | 3.590580 | 0.509317 | 20.526899 | 36.049598 | -6.842809 | 8.316993 | -0.543307 | 12.156187 | 3.688742 | 13.709512 | 16.500000 | -2.947712 | 5.834734 | 1.193333 | 4.590062 | 16.547325 | 12.254717 | 8.371429 | 4.534161 |
2015-01-03 | 15.428112 | 30.471616 | 13.768340 | 51.186292 | 37.604138 | 22.738007 | 37.370229 | 15.666667 | 39.844037 | 31.882979 | 18.550685 | 26.117338 | 15.606426 | 17.511364 | 20.027586 | 37.995702 | 19.783843 | 13.771812 | 11.773364 | 13.465190 |
2015-01-04 | 21.423343 | 26.867857 | 23.325077 | 52.495238 | 38.360104 | 35.771626 | 53.617978 | 25.293651 | 20.464286 | 55.445578 | 19.564767 | 28.159016 | 32.450704 | 39.847025 | 19.461279 | 83.225619 | 20.180085 | 10.291262 | 19.251092 | 15.503125 |
2015-01-05 | 3.095000 | 11.208609 | 6.051672 | 29.899200 | 28.705263 | 24.696594 | 22.674051 | 13.711864 | 8.450505 | 19.554422 | 17.229381 | 15.788618 | 34.984177 | 14.929204 | 23.874564 | 63.916667 | 13.665217 | 5.418060 | 13.225806 | 2.003356 |
2015-01-06 | 6.361725 | 43.310580 | 13.294964 | 15.344029 | 11.534626 | 35.078616 | 43.104530 | 23.425926 | 3.622642 | 43.359073 | 13.330579 | 7.234004 | 61.165049 | 29.996785 | 9.435088 | 42.356183 | 12.156658 | 4.372180 | 8.582716 | 0.581481 |
2015-01-07 | 0.944276 | 10.651316 | 4.869565 | 33.301095 | 10.428762 | 13.403727 | 22.030508 | 11.254464 | 10.490476 | 15.536680 | 7.498652 | 5.442446 | 46.063973 | 8.977918 | -1.666667 | 38.479361 | 7.348028 | 9.467925 | 5.289216 | 2.977941 |
2015-01-08 | 3.033099 | 6.807692 | 10.484568 | 14.569873 | 11.217450 | 20.593060 | 15.419463 | 2.558442 | 1.571121 | 2.749091 | 8.597911 | 6.171329 | 3.575221 | 9.152648 | 47.264605 | 96.695578 | 8.000000 | 8.738351 | 5.141487 | 12.619718 |
2015-01-09 | 1.833499 | 21.045603 | 5.742331 | 21.551237 | 8.591810 | 34.665653 | 22.632107 | 1.808696 | 7.611354 | 43.294964 | 4.487245 | 8.144112 | 42.325581 | 8.758410 | 6.834459 | 46.355837 | 2.160550 | 7.464029 | 9.425178 | 3.878893 |
2015-01-10 | -5.473046 | 3.763547 | -1.658915 | 2.822014 | 5.501582 | 2.584906 | 0.422680 | -5.172269 | 0.937888 | 1.259259 | 2.564706 | 2.709746 | -11.311475 | 0.273273 | 8.542857 | 16.635209 | 2.213483 | -2.761506 | 0.621622 | 2.718894 |
2015-01-11 | -2.118085 | -2.569767 | 5.789286 | 16.045977 | 19.767313 | 5.808725 | -1.670543 | -3.008734 | 17.064904 | -2.964158 | 40.793103 | 24.195531 | -7.576923 | -2.242991 | 2.264493 | 22.578704 | 11.557143 | 6.381132 | 27.650633 | 5.946043 |
2015-01-12 | 42.375375 | 8.254777 | 14.975524 | 22.791444 | 19.114820 | 24.692771 | 8.219780 | 8.960699 | 22.710526 | 4.297101 | 12.710526 | 10.982175 | 16.641509 | 21.563863 | 1.274510 | 31.676056 | 5.371230 | 7.318519 | 27.918719 | 7.051546 |
2015-01-13 | 2.812957 | -9.384106 | 0.086505 | 9.789279 | 7.248656 | -2.710692 | -2.901024 | -7.118721 | 1.415274 | -13.214559 | -2.937853 | -1.553506 | -0.883234 | -1.462295 | -5.660959 | 23.323259 | 2.083990 | 3.267176 | 11.153652 | 0.528090 |
2015-01-14 | -1.400000 | -3.091216 | -1.681250 | -0.638838 | 2.690160 | -1.903727 | -5.456446 | 3.360360 | -0.530120 | -14.911877 | -3.695418 | -2.958559 | 0.002994 | 1.885350 | -7.691030 | 2.735369 | -1.161593 | -1.134831 | 1.324455 | -5.717949 |
PHX
Để so sánh, việc sử dụng
data.groupby(['unique_carrier','delayed']).size().unstack()
7 trong Python trên tương đương với truy vấn SQL sau:
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
3Ô hộp
Bây giờ bạn có một khung dữ liệu của các chuyến bay có nguồn gốc từ các sân bay khối lượng lớn, bạn có thể hỏi: Sự chậm trễ chuyến bay dài nhất bắt nguồn từ đâu vào tháng 1 năm 2015? | Bạn có thể tạo một bảng xoay vòng xoay ngày bay trên sân bay, nơi các giá trị là giá trị trung bình của sự chậm trễ chuyến bay cho ngày đó. | Đầu vào | Đầu ra | nguồn gốc | ATL | Bos | CLT | CÁI HANG | DFW | DTW | EWR | Fll | IAH | JFK | Las | Lỏng lẻo | LGA | MCO | Msp | Ord |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PHX | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 | 13.000000 |
BIỂN | 7.049522 | 11.609776 | 7.350537 | 22.283364 | 18.216483 | 16.044343 | 17.213870 | 6.938287 | 11.216083 | 14.613638 | 11.723369 | 11.302481 | 17.699715 | 11.925022 | 9.627240 | 39.274123 | 9.223535 | 6.526833 | 11.517644 | 5.083884 |
SFO | 12.798122 | 15.004838 | 7.499172 | 16.171575 | 12.854437 | 15.286101 | 18.718574 | 10.452380 | 11.488504 | 22.619487 | 11.574100 | 10.193057 | 23.428830 | 12.647029 | 14.971524 | 28.195169 | 7.051518 | 4.795902 | 8.742399 | 5.910367 |
SLC | -5.473046 | -9.384106 | -1.681250 | -0.638838 | 2.690160 | -6.842809 | -5.456446 | -7.118721 | -0.530120 | -14.911877 | -3.695418 | -2.958559 | -11.311475 | -2.242991 | -7.691030 | 2.735369 | -1.161593 | -2.761506 | 0.621622 | -5.717949 |
25% | 0.944276 | 3.590580 | 0.509317 | 14.569873 | 8.591810 | 2.584906 | 0.422680 | -0.543307 | 1.571121 | 1.259259 | 4.487245 | 5.442446 | -0.883234 | 1.885350 | 1.193333 | 22.578704 | 2.213483 | 4.372180 | 5.289216 | 2.003356 |
50% | 3.033099 | 8.254777 | 5.789286 | 20.526899 | 11.534626 | 20.593060 | 15.419463 | 3.360360 | 8.450505 | 4.297101 | 12.710526 | 8.144112 | 15.606426 | 8.977918 | 6.834459 | 37.995702 | 8.000000 | 7.318519 | 9.425178 | 3.878893 |
75% | 6.361725 | 21.045603 | 13.294964 | 29.899200 | 28.705263 | 24.696594 | 22.674051 | 13.711864 | 17.064904 | 31.882979 | 17.229381 | 16.500000 | 34.984177 | 17.511364 | 19.461279 | 46.355837 | 13.665217 | 9.467925 | 13.225806 | 7.051546 |
Tối đa | 42.375375 | 43.310580 | 23.325077 | 52.495238 | 38.360104 | 35.771626 | 53.617978 | 25.293651 | 39.844037 | 55.445578 | 40.793103 | 28.159016 | 61.165049 | 39.847025 | 47.264605 | 96.695578 | 20.180085 | 13.771812 | 27.918719 | 15.503125 |
Thật khó để so sánh các sân bay chỉ bằng cách nhìn vào một bảng số lớn. Điều này sẽ dễ dàng hơn nếu bạn nhóm các hồ sơ cho mỗi sân bay và phủ chúng, như bạn đã làm với Envoy Air và US Airways:
Đầu vào
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
4Đầu ra
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
5Chà, điều đó cũng khó đọc. Phương pháp phân phối lớp phủ có giới hạn, ít nhất là khi bạn muốn so sánh nhiều bản phân phối cùng một lúc. May mắn thay, có một cách hình dung một chiều để hình dung hình dạng của các bản phân phối được gọi là một ô hộp.box plot.
Các ô hộp bao gồm các biện pháp phân tán quan trọng tương tự mà bạn nhận được khi chạy
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8, cho phép nó được hiển thị theo một chiều và dễ dàng so sánh với các bản phân phối khác. Các thành phần của các ô hộp là: - Thiết kế bảng điều khiển thông tin, Stephen vàiHãy thử sử dụng các ô hộp để so sánh phân phối độ trễ hàng ngày tại mỗi sân bay:
Đầu vào
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
6Đầu ra
data = datasets[0] # assign SQL query results to the data variable
data = data.fillna(np.nan)
7Chà, điều đó cũng khó đọc. Phương pháp phân phối lớp phủ có giới hạn, ít nhất là khi bạn muốn so sánh nhiều bản phân phối cùng một lúc. May mắn thay, có một cách hình dung một chiều để hình dung hình dạng của các bản phân phối được gọi là một ô hộp.
Các ô hộp bao gồm các biện pháp phân tán quan trọng tương tự mà bạn nhận được khi chạy
data['delayed'] = data['arr_delay'].apply(lambda x: x > 0) #from previous lesson
8, cho phép nó được hiển thị theo một chiều và dễ dàng so sánh với các bản phân phối khác. Các thành phần của các ô hộp là:Which airports are the worst to fly out of?, you can now say that you will (almost certainly) be delayed if you are flying out of Chicago in January, based on 2015 data. If you can help it, avoid connecting flights in Chicago.- Thiết kế bảng điều khiển thông tin, Stephen vài
Hãy thử sử dụng các ô hộp để so sánh phân phối độ trễ hàng ngày tại mỗi sân bay:
Như bạn có thể thấy, việc so sánh nhiều bản phân phối với các ô hộp đơn giản hơn về mặt trực quan. Các sân bay như JFK có sự phân tán đáng kể sự chậm trễ, trong khi LGA được phân phối đều xung quanh sự chậm trễ trung bình thường xuyên nhất. Tuy nhiên, Ord gần gấp đôi thời gian, so với mọi sân bay khối lượng lớn khác. Mong đợi sự chậm trễ của tuyết ở Chicago vào tháng 1!
Dẫn đầu phân tích này, chúng tôi đặt ra một vài câu hỏi chính. Để trả lời cuối cùng, sân bay nào là tồi tệ nhất để bay ra ?, Bây giờ bạn có thể nói rằng bạn sẽ (gần như chắc chắn) bị trì hoãn nếu bạn bay ra khỏi Chicago vào tháng 1, dựa trên dữ liệu năm 2015. Nếu bạn có thể giúp nó, tránh kết nối các chuyến bay ở Chicago.
Thực hành vấn đề
Hình dung độ trễ đến trung bình theo ngày và nhà cung cấp bằng cách sử dụng các ô hộp.
- Xem giải pháp
- Tom tăt bai học
- Như bạn đã thấy trong bài học này, việc đặt dữ liệu ngược lại cho phép bạn hiểu rõ hơn về nó. Mặc dù nó rõ ràng rằng tất cả các hãng hàng không và sân bay đều bị chậm trễ, bạn có thể sử dụng số liệu thống kê để nhanh chóng rút ra những xu hướng và sự xuất hiện bất thường trên dữ liệu. Độ lệch của dữ liệu so với một xu hướng thường được tiết lộ rõ ràng trong trực quan hóa, cho phép bạn xác định trực quan các sự kiện bất thường và đào sâu hơn.
- Trong bài học này, bạn đã học được cách:
- Phân phối phân phối bộ dữ liệu