Hướng dẫn này sử dụng tập dữ liệu titanic, được lưu trữ dưới dạng CSV. Dữ liệu bao gồm các cột dữ liệu sau Show
Hướng dẫn này sử dụng tập dữ liệu Titanic, được lưu trữ dưới dạng CSV. Dữ liệu bao gồm các cột dữ liệu sau
In [2]: titanic = pd.read_csv("data/titanic.csv") In [3]: titanic.head() Out[3]: PassengerId Survived Pclass .. Fare Cabin Embarked 0 1 0 3 .. 7.2500 NaN S 1 2 1 1 .. 71.2833 C85 C 2 3 1 3 .. 7.9250 NaN S 3 4 1 1 .. 53.1000 C123 S 4 5 0 3 .. 8.0500 NaN S [5 rows x 12 columns] Tổng hợp thống kê
Các số liệu thống kê khác nhau có sẵn và có thể được áp dụng cho các cột có dữ liệu số. Các hoạt động nói chung loại trừ dữ liệu bị thiếu và hoạt động trên các hàng theo mặc định
Thống kê tổng hợp có thể được tính cho nhiều cột cùng một lúc. Ghi nhớ chức năng In [2]: titanic = pd.read_csv("data/titanic.csv") In [3]: titanic.head() Out[3]: PassengerId Survived Pclass .. Fare Cabin Embarked 0 1 0 3 .. 7.2500 NaN S 1 2 1 1 .. 71.2833 C85 C 2 3 1 3 .. 7.9250 NaN S 3 4 1 1 .. 53.1000 C123 S 4 5 0 3 .. 8.0500 NaN S [5 rows x 12 columns]9 từ ? In [6]: titanic[["Age", "Fare"]].describe() Out[6]: Age Fare count 714.000000 891.000000 mean 29.699118 32.204208 std 14.526497 49.693429 min 0.420000 0.000000 25% 20.125000 7.910400 50% 28.000000 14.454200 75% 38.000000 31.000000 max 80.000000 512.329200 Thay vì thống kê được xác định trước, có thể xác định các kết hợp cụ thể của thống kê tổng hợp cho các cột nhất định bằng phương pháp In [7]: titanic.agg( ...: { ...: "Age": ["min", "max", "median", "skew"], ...: "Fare": ["min", "max", "median", "mean"], ...: } ...: ) ...: Out[7]: Age Fare min 0.420000 0.000000 max 80.000000 512.329200 median 28.000000 14.454200 skew 0.389108 NaN mean NaN 32.204208 Để hướng dẫn sử dụng Chi tiết về thống kê mô tả được cung cấp trong phần hướng dẫn sử dụng trên Tổng hợp số liệu thống kê được nhóm theo danh mục
Tính toán một thống kê nhất định (e. g. In [4]: titanic["Age"].mean() Out[4]: 29.699117647058824 tuổi) cho mỗi danh mục trong một cột (e. g. nam/nữ trong cột In [4]: titanic["Age"].mean() Out[4]: 29.699117647058823) là một khuôn mẫu phổ biến. Phương pháp In [4]: titanic["Age"].mean() Out[4]: 29.699117647058826 được sử dụng để hỗ trợ loại hoạt động này. Điều này phù hợp với mẫu In [4]: titanic["Age"].mean() Out[4]: 29.699117647058827 tổng quát hơn
Các bước áp dụng và kết hợp thường được thực hiện cùng nhau trong gấu trúc Trong ví dụ trước, chúng tôi đã chọn rõ ràng 2 cột đầu tiên. Nếu không, phương pháp In [4]: titanic["Age"].mean() Out[4]: 29.699117647058824 được áp dụng cho từng cột chứa các cột số bằng cách chuyển qua In [4]: titanic["Age"].mean() Out[4]: 29.699117647058829 In [9]: titanic.groupby("Sex").mean(numeric_only=True) Out[9]: PassengerId Survived Pclass .. SibSp Parch Fare Sex .. female 431.028662 0.742038 2.159236 .. 0.694268 0.649682 44.479818 male 454.147314 0.188908 2.389948 .. 0.429809 0.235702 25.523893 [2 rows x 7 columns] Không có ý nghĩa gì nhiều khi lấy giá trị trung bình của In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float640. Nếu chúng ta chỉ quan tâm đến độ tuổi trung bình của mỗi giới tính, việc lựa chọn các cột (dấu ngoặc chữ nhật In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float641 như thường lệ) cũng được hỗ trợ trên dữ liệu được nhóm In [10]: titanic.groupby("Sex")["Age"].mean() Out[10]: Sex female 27.915709 male 30.726645 Name: Age, dtype: float64 Ghi chú Cột In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float640 chứa dữ liệu số nhưng thực tế đại diện cho 3 loại (hoặc yếu tố) với các nhãn tương ứng là '1', '2' và '3'. Tính toán số liệu thống kê về những điều này không có nhiều ý nghĩa. Do đó, pandas cung cấp loại dữ liệu In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float643 để xử lý loại dữ liệu này. Thông tin thêm được cung cấp trong phần hướng dẫn sử dụng
Để hướng dẫn sử dụng Mô tả đầy đủ về cách tiếp cận tách-áp dụng-kết hợp được cung cấp trong phần hướng dẫn sử dụng trên Đếm số bản ghi theo danh mục
Hàm này là một phím tắt, vì nó thực sự là một hoạt động theo nhóm kết hợp với việc đếm số lượng bản ghi trong mỗi nhóm In [2]: titanic = pd.read_csv("data/titanic.csv") In [3]: titanic.head() Out[3]: PassengerId Survived Pclass .. Fare Cabin Embarked 0 1 0 3 .. 7.2500 NaN S 1 2 1 1 .. 71.2833 C85 C 2 3 1 3 .. 7.9250 NaN S 3 4 1 1 .. 53.1000 C123 S 4 5 0 3 .. 8.0500 NaN S [5 rows x 12 columns]1 Ghi chú Cả In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float646 và In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float647 đều có thể được sử dụng kết hợp với In [4]: titanic["Age"].mean() Out[4]: 29.699117647058826. Trong khi In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float646 bao gồm các giá trị In [6]: titanic[["Age", "Fare"]].describe() Out[6]: Age Fare count 714.000000 891.000000 mean 29.699118 32.204208 std 14.526497 49.693429 min 0.420000 0.000000 25% 20.125000 7.910400 50% 28.000000 14.454200 75% 38.000000 31.000000 max 80.000000 512.3292000 và chỉ cung cấp số lượng hàng (kích thước của bảng), thì In [5]: titanic[["Age", "Fare"]].median() Out[5]: Age 28.0000 Fare 14.4542 dtype: float647 không bao gồm các giá trị bị thiếu. Trong phương pháp In [6]: titanic[["Age", "Fare"]].describe() Out[6]: Age Fare count 714.000000 891.000000 mean 29.699118 32.204208 std 14.526497 49.693429 min 0.420000 0.000000 25% 20.125000 7.910400 50% 28.000000 14.454200 75% 38.000000 31.000000 max 80.000000 512.3292002, sử dụng đối số In [6]: titanic[["Age", "Fare"]].describe() Out[6]: Age Fare count 714.000000 891.000000 mean 29.699118 32.204208 std 14.526497 49.693429 min 0.420000 0.000000 25% 20.125000 7.910400 50% 28.000000 14.454200 75% 38.000000 31.000000 max 80.000000 512.3292003 để bao gồm hoặc loại trừ các giá trị In [6]: titanic[["Age", "Fare"]].describe() Out[6]: Age Fare count 714.000000 891.000000 mean 29.699118 32.204208 std 14.526497 49.693429 min 0.420000 0.000000 25% 20.125000 7.910400 50% 28.000000 14.454200 75% 38.000000 31.000000 max 80.000000 512.3292000 GroupBy hoạt động như thế nào trong Python?Thao tác theo nhóm liên quan đến một số kết hợp tách đối tượng, áp dụng hàm và kết hợp các kết quả . Điều này có thể được sử dụng để nhóm một lượng lớn dữ liệu và tính toán các hoạt động trên các nhóm này.
Làm cách nào để nhóm dữ liệu theo giới tính trong Python?Để thực hiện việc này trong gấu trúc, đã cung cấp Khung dữ liệu df_tips của chúng tôi, áp dụng phương thức groupby() và chuyển vào cột giới tính (đó sẽ là chỉ mục của chúng tôi), sau đó tham khảo . .
Độ tuổi ở gấu trúc là gì?PANDAS được coi là một rối loạn ở trẻ em và thường xuất hiện lần đầu ở trẻ em từ 3 tuổi đến tuổi dậy thì .
Có bao nhiêu nhóm Nhập khẩu được chia thành Python?Thông thường có ba nhóm . nhập thư viện chuẩn (các mô-đun tích hợp sẵn của Python) nhập bên thứ ba có liên quan (các mô-đun được cài đặt và không thuộc ứng dụng hiện tại) nhập ứng dụng cục bộ (các mô-đun thuộc ứng dụng hiện tại) |