Df trong Python

Question

Khi làm việc với một tập dữ liệu lớn trong bất kỳ dự án khoa học dữ liệu hoặc máy học nào, cần phải tìm kiếm một số giá trị trong một tính năng và đối với các giá trị đó, chúng ta cần lấy các giá trị từ các tính năng khác. Tìm kiếm các giá trị trong tập dữ liệu nghe có vẻ phức tạp nhưng Python Pandas giúp việc này trở nên dễ dàng

Nội dung chính Show

Mã mẫu Python Pandas để tìm giá trị trong DataFrame
Bước 1 - Nhập thư viện
Bước 2 - Thiết lập dữ liệu
Bước 3 - Tìm kiếm các giá trị trong DataFrame
Giới thiệu Khung dữ liệu Pandas
Tạo một khung dữ liệu Pandas
Tạo một khung dữ liệu Pandas với từ điển
Tạo một khung dữ liệu Pandas với danh sách
Tạo một khung dữ liệu Pandas với các mảng NumPy
Tạo một khung dữ liệu Pandas từ các tệp
Truy xuất nhãn và dữ liệu
Nhãn khung dữ liệu Pandas dưới dạng chuỗi
Dữ liệu dưới dạng mảng NumPy
Loại dữ liệu
Kích thước khung dữ liệu gấu trúc
Truy cập và sửa đổi dữ liệu
Lấy dữ liệu với Accessors
Cài đặt dữ liệu với Accessors
Chèn và xóa dữ liệu
Chèn và xóa hàng
Chèn và xóa cột
Áp dụng các phép toán số học
Áp dụng các hàm NumPy và SciPy
Sắp xếp khung dữ liệu Pandas
Lọc dữ liệu
Xác định thống kê dữ liệu
Xử lý dữ liệu bị thiếu
Tính toán với dữ liệu bị thiếu
Điền dữ liệu còn thiếu
Xóa hàng và cột có dữ liệu bị thiếu
Lặp lại qua Khung dữ liệu Pandas
Làm việc với chuỗi thời gian
Tạo khung dữ liệu với nhãn chuỗi thời gian
Lập chỉ mục và cắt lát
Lấy mẫu lại và lăn
Vẽ sơ đồ với Pandas DataFrames
Đọc thêm
Sự kết luận

Mã Python Pandas bên dưới thực hiện như sau.
1. Tạo từ điển dữ liệu và chuyển đổi nó thành DataFrame
2. Sử dụng chức năng "where" để lọc ra các cột dữ liệu mong muốn. gấu trúc. Khung dữ liệu. Hàm where() giống như thành ngữ if-then kiểm tra một điều kiện để trả về kết quả tương ứng.

Mã mẫu Python Pandas để tìm giá trị trong DataFrame

Dưới đây là mã pandas trong python để tìm kiếm một giá trị trong cột Pandas DataFrame -

Bước 1 - Nhập thư viện

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

22

Chúng tôi chỉ nhập thư viện gấu trúc python cần thiết cho ví dụ mã này

Bước 2 - Thiết lập dữ liệu

Chúng tôi đã tạo một từ điển dữ liệu và chuyển nó tới pd. DataFrame để tạo khung dữ liệu với các cột 'first_name', 'last_name', 'age', 'Comedy_Score' và 'Rating_Score'

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

23

Hãy thử thêm một vài ví dụ về mã Pandas với các dự án Python Pandas này bằng mã nguồn

Bước 3 - Tìm kiếm các giá trị trong DataFrame

Chúng tôi đang tìm kiếm dữ liệu trong Rating_Score của tính năng có giá trị nhỏ hơn 50 và đối với những giá trị đó, chúng tôi đang chọn các giá trị tương ứng trong Comedy_Score

Pandas DataFrame là một cấu trúc chứa dữ liệu hai chiều và các nhãn tương ứng của nó. DataFrames được sử dụng rộng rãi trong khoa học dữ liệu, học máy, tính toán khoa học và nhiều lĩnh vực sử dụng nhiều dữ liệu khác

DataFrames tương tự như bảng SQL hoặc bảng tính mà bạn làm việc trong Excel hoặc Calc. Trong nhiều trường hợp, DataFrames nhanh hơn, dễ sử dụng hơn và mạnh hơn bảng hoặc bảng tính vì chúng là một phần không thể thiếu của hệ sinh thái Python và NumPy

Trong hướng dẫn này, bạn sẽ học

Pandas DataFrame là gì và cách tạo một DataFrame
Cách truy cập, sửa đổi, thêm, sắp xếp, lọc và xóa dữ liệu
Cách xử lý các giá trị bị thiếu
Cách làm việc với dữ liệu chuỗi thời gian
Cách hiển thị nhanh dữ liệu

Đã đến lúc bắt đầu với Pandas DataFrames

Tiền thưởng miễn phí. 5 Suy nghĩ về Làm chủ Python, một khóa học miễn phí dành cho các nhà phát triển Python cho bạn thấy lộ trình và tư duy mà bạn sẽ cần để đưa các kỹ năng Python của mình lên một tầm cao mới

Giới thiệu Khung dữ liệu Pandas

Pandas DataFrames là cấu trúc dữ liệu có chứa

Dữ liệu được tổ chức theo hai chiều, hàng và cột
Nhãn tương ứng với hàng và cột

Bạn có thể bắt đầu làm việc với DataFrames bằng cách nhập Pandas

>>>

>>> import pandas as pd

Bây giờ bạn đã nhập Pandas, bạn có thể làm việc với DataFrames

Hãy tưởng tượng bạn đang sử dụng Pandas để phân tích dữ liệu về các ứng viên cho vị trí phát triển ứng dụng web bằng Python. Giả sử bạn quan tâm đến tên, thành phố, độ tuổi và điểm số của ứng viên trong bài kiểm tra lập trình Python hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

4

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

5

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

6

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

8

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

9

>>> import numpy as np
>>> import pandas as pd

0

>>> import numpy as np
>>> import pandas as pd

1

>>> import numpy as np
>>> import pandas as pd

2

>>> import numpy as np
>>> import pandas as pd

3

>>> import numpy as np
>>> import pandas as pd

4

>>> import numpy as np
>>> import pandas as pd

5

>>> import numpy as np
>>> import pandas as pd

6

>>> import numpy as np
>>> import pandas as pd

7

>>> import numpy as np
>>> import pandas as pd

8

>>> import numpy as np
>>> import pandas as pd

9

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

80

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

81

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

82

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

83

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

84

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

85

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

86

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

87

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

88

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

89

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

800

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

801

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

802

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

803

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

804

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

805

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

806

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

807

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

808

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

809

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

810

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

811

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

812

Trong bảng này, hàng đầu tiên chứa các nhãn cột (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

4,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

5,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

6 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3). Cột đầu tiên chứa các nhãn hàng (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

8,

>>> import numpy as np
>>> import pandas as pd

3, v.v.). Tất cả các ô khác được lấp đầy với các giá trị dữ liệu

Bây giờ bạn có mọi thứ bạn cần để tạo Pandas DataFrame

Có một số cách để tạo Pandas DataFrame. Trong hầu hết các trường hợp, bạn sẽ sử dụng hàm tạo

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819 và cung cấp dữ liệu, nhãn và thông tin khác. Bạn có thể truyền dữ liệu dưới dạng danh sách hai chiều, bộ dữ liệu hoặc mảng NumPy. Bạn cũng có thể chuyển nó dưới dạng từ điển hoặc phiên bản Pandas

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 hoặc dưới dạng một trong số các loại dữ liệu khác không được đề cập trong hướng dẫn này

Đối với ví dụ này, giả sử bạn đang sử dụng từ điển để truyền dữ liệu

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

8

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

821 là một biến Python đề cập đến từ điển chứa dữ liệu ứng viên của bạn. Nó cũng chứa các nhãn của các cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

822

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

823

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

824

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

825

Cuối cùng,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

826 đề cập đến danh sách chứa nhãn của các hàng, là các số nằm trong khoảng từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

8 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

808

Bây giờ bạn đã sẵn sàng để tạo một Khung dữ liệu Pandas

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

8

Đó là nó.

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829 là một biến chứa tham chiếu đến Khung dữ liệu Pandas của bạn. Khung dữ liệu Pandas này trông giống như bảng ứng cử viên ở trên và có các tính năng sau

Nhãn hàng từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

8 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

808

Các nhãn cột như

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

822,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

823,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

824 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

825

Dữ liệu như tên ứng viên, thành phố, độ tuổi và điểm kiểm tra Python

Hình này hiển thị các nhãn và dữ liệu từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829

Nhãn hàng được viền màu xanh lam, trong khi nhãn cột được viền màu đỏ và giá trị dữ liệu được viền màu tím

Pandas DataFrames đôi khi có thể rất lớn, khiến việc xem xét tất cả các hàng cùng một lúc là không thực tế. Bạn có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

837 để hiển thị một số mục đầu tiên và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

838 để hiển thị một số mục cuối cùng

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

9

Đó là cách bạn có thể chỉ hiển thị phần đầu hoặc phần cuối của Khung dữ liệu Pandas. Tham số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

839 chỉ định số lượng hàng sẽ hiển thị

Ghi chú. Có thể hữu ích khi coi Pandas DataFrame như một từ điển các cột hoặc Pandas Series, với nhiều tính năng bổ sung

Bạn có thể truy cập một cột trong Khung dữ liệu Pandas giống như cách bạn nhận giá trị từ từ điển

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

1

Đây là cách thuận tiện nhất để lấy một cột từ Khung dữ liệu Pandas

Nếu tên của cột là một chuỗi là mã định danh Python hợp lệ thì bạn có thể sử dụng ký hiệu dấu chấm để truy cập nó. Nghĩa là, bạn có thể truy cập cột giống như cách bạn lấy thuộc tính của một thể hiện lớp

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

2

Đó là cách bạn có được một cột cụ thể. Bạn đã trích xuất cột tương ứng với nhãn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

823, chứa vị trí của tất cả các ứng viên cho công việc của bạn

Điều quan trọng cần lưu ý là bạn đã trích xuất cả dữ liệu và nhãn hàng tương ứng

Mỗi cột của Khung dữ liệu Pandas là một phiên bản của

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

841, một cấu trúc chứa dữ liệu một chiều và nhãn của chúng. Bạn có thể lấy một mục của đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 giống như cách bạn làm với từ điển, bằng cách sử dụng nhãn của nó làm khóa

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

6

Trong trường hợp này,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

843 là giá trị dữ liệu và

>>> import numpy as np
>>> import pandas as pd

3 là nhãn tương ứng. Như bạn sẽ thấy trong phần sau, có nhiều cách khác để lấy một mục cụ thể trong Khung dữ liệu Pandas

Bạn cũng có thể truy cập toàn bộ hàng bằng trình truy cập

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

Lần này, bạn đã trích xuất hàng tương ứng với nhãn

>>> import numpy as np
>>> import pandas as pd

8, chứa dữ liệu cho ứng viên có tên

>>> import numpy as np
>>> import pandas as pd

9. Ngoài các giá trị dữ liệu từ hàng này, bạn đã trích xuất nhãn của các cột tương ứng

Hàng được trả về cũng là một phiên bản của

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

841

Loại bỏ các quảng cáo

Tạo một khung dữ liệu Pandas

Như đã đề cập, có một số cách để tạo Pandas DataFrame. Trong phần này, bạn sẽ học cách sử dụng hàm tạo

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819 cùng với

từ điển Python
danh sách Python
Mảng NumPy hai chiều
Các tập tin

Ngoài ra còn có các phương pháp khác mà bạn có thể tìm hiểu trong tài liệu chính thức

Bạn có thể bắt đầu bằng cách nhập Pandas cùng với NumPy mà bạn sẽ sử dụng trong các ví dụ sau

>>>

>>> import numpy as np
>>> import pandas as pd

Đó là nó. Bây giờ bạn đã sẵn sàng để tạo một số DataFrames

Tạo một khung dữ liệu Pandas với từ điển

Như bạn đã thấy, bạn có thể tạo Pandas DataFrame bằng từ điển Python

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

8

Các khóa của từ điển là các nhãn cột của DataFrame và các giá trị từ điển là các giá trị dữ liệu trong các cột DataFrame tương ứng. Các giá trị có thể được chứa trong một bộ, danh sách, mảng NumPy một chiều, đối tượng Pandas

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 hoặc một trong số các loại dữ liệu khác. Bạn cũng có thể cung cấp một giá trị duy nhất sẽ được sao chép dọc theo toàn bộ cột

Có thể kiểm soát thứ tự của các cột bằng tham số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

851 và nhãn hàng bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

852

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

80

Như bạn có thể thấy, bạn đã chỉ định nhãn hàng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

853,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

854 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

855. Bạn cũng đã sắp xếp thứ tự các cột. ________ 2856, ________ 2857, ________ 2858

Tạo một khung dữ liệu Pandas với danh sách

Một cách khác để tạo Pandas DataFrame là sử dụng danh sách từ điển

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

81

Một lần nữa, các khóa từ điển là các nhãn cột và các giá trị từ điển là các giá trị dữ liệu trong DataFrame

Bạn cũng có thể sử dụng danh sách lồng nhau hoặc danh sách danh sách làm giá trị dữ liệu. Nếu bạn làm như vậy, bạn nên chỉ định rõ ràng nhãn của cột, hàng hoặc cả hai khi bạn tạo DataFrame

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

82

Đó là cách bạn có thể sử dụng danh sách lồng nhau để tạo Khung dữ liệu Pandas. Bạn cũng có thể sử dụng danh sách các bộ dữ liệu theo cách tương tự. Để làm như vậy, chỉ cần thay thế các danh sách lồng nhau trong ví dụ trên bằng các bộ dữ liệu

Loại bỏ các quảng cáo

Tạo một khung dữ liệu Pandas với các mảng NumPy

Bạn có thể chuyển một mảng NumPy hai chiều tới hàm tạo

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819 giống như cách bạn thực hiện với một danh sách

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

83

Mặc dù ví dụ này trông gần giống như cách triển khai danh sách lồng nhau ở trên, nhưng nó có một lợi thế. Bạn có thể chỉ định tham số tùy chọn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

860

Khi

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

860 được đặt thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862 (cài đặt mặc định của nó), dữ liệu từ mảng NumPy không được sao chép. Điều này có nghĩa là dữ liệu gốc từ mảng được gán cho Pandas DataFrame. Nếu bạn sửa đổi mảng thì DataFrame của bạn cũng sẽ thay đổi

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

84

Như bạn có thể thấy, khi bạn thay đổi mục đầu tiên của ________ 2863, bạn cũng sửa đổi ________ 2864

Ghi chú. Việc không sao chép các giá trị dữ liệu có thể giúp bạn tiết kiệm đáng kể thời gian và sức mạnh xử lý khi làm việc với các tập dữ liệu lớn

Nếu hành vi này không phải là điều bạn muốn, thì bạn nên chỉ định

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

865 trong hàm tạo

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819. Bằng cách đó,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

864 sẽ được tạo với một bản sao của các giá trị từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

863 thay vì các giá trị thực tế

Tạo một khung dữ liệu Pandas từ các tệp

Bạn có thể lưu và tải dữ liệu cũng như nhãn từ Khung dữ liệu Pandas đến và từ một số loại tệp, bao gồm CSV, Excel, SQL, JSON, v.v. Đây là một tính năng rất mạnh mẽ

Bạn có thể lưu DataFrame ứng viên công việc của mình vào tệp CSV với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

869

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

85

Câu lệnh trên sẽ tạo ra một tệp CSV có tên là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

870 trong thư mục làm việc của bạn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

86

Giờ bạn đã có tệp CSV chứa dữ liệu, bạn có thể tải tệp đó bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

871

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

87

Đó là cách bạn lấy Pandas DataFrame từ một tệp. Trong trường hợp này,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

872 chỉ định rằng các nhãn hàng nằm trong cột đầu tiên của tệp CSV

Truy xuất nhãn và dữ liệu

Bây giờ bạn đã tạo DataFrame của mình, bạn có thể bắt đầu truy xuất thông tin từ nó. Với Pandas, bạn có thể thực hiện các thao tác sau

Truy xuất và sửa đổi nhãn hàng và cột theo trình tự
Biểu thị dữ liệu dưới dạng mảng NumPy
Kiểm tra và điều chỉnh các kiểu dữ liệu

Phân tích kích thước của đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819

Loại bỏ các quảng cáo

Nhãn khung dữ liệu Pandas dưới dạng chuỗi

Bạn có thể nhận các nhãn hàng của DataFrame bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

874 và các nhãn cột của nó bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

875

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

88

Bây giờ bạn có các nhãn hàng và cột dưới dạng các loại trình tự đặc biệt. Như bạn có thể làm với bất kỳ chuỗi Python nào khác, bạn có thể nhận được một mục duy nhất

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

89

Ngoài việc trích xuất một mục cụ thể, bạn có thể áp dụng các thao tác tuần tự khác, bao gồm lặp qua nhãn của hàng hoặc cột. Tuy nhiên, điều này hiếm khi cần thiết vì Pandas cung cấp các cách khác để lặp qua DataFrames mà bạn sẽ thấy trong phần sau

Bạn cũng có thể sử dụng phương pháp này để sửa đổi nhãn

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

80

Trong ví dụ này, bạn sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

876 để tạo một chuỗi nhãn hàng mới chứa các số nguyên từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

877 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

878. Để tìm hiểu thêm về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

879, hãy xem NumPy arange(). Làm thế nào để sử dụng np. sắp xếp()

Hãy nhớ rằng nếu bạn cố gắng sửa đổi một mục cụ thể của

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

874 hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

875, thì bạn sẽ nhận được một

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

882

Dữ liệu dưới dạng mảng NumPy

Đôi khi, bạn có thể muốn trích xuất dữ liệu từ Khung dữ liệu Pandas mà không có nhãn của nó. Để có được một mảng NumPy với dữ liệu chưa được gắn nhãn, bạn có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

883 hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

884

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

81

Cả

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

883 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

884 đều hoạt động tương tự nhau và cả hai đều trả về một mảng NumPy với dữ liệu từ Pandas DataFrame

Tài liệu Pandas đề xuất sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

883 vì tính linh hoạt được cung cấp bởi hai tham số tùy chọn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

888. Sử dụng tham số này để chỉ định kiểu dữ liệu của mảng kết quả. Nó được đặt thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

889 theo mặc định

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

860. Đặt tham số này thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862 nếu bạn muốn sử dụng dữ liệu gốc từ DataFrame. Đặt nó thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892 nếu bạn muốn tạo một bản sao của dữ liệu

Tuy nhiên,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

884 đã tồn tại lâu hơn nhiều so với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

883, được giới thiệu trong Pandas phiên bản 0. 24. 0. Điều đó có nghĩa là bạn có thể sẽ thấy

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

884 thường xuyên hơn, đặc biệt là trong các mã cũ hơn

Loại dữ liệu

Các loại giá trị dữ liệu, còn được gọi là kiểu dữ liệu hoặc dtypes, rất quan trọng vì chúng xác định dung lượng bộ nhớ mà DataFrame của bạn sử dụng, cũng như tốc độ tính toán và mức độ chính xác của nó

Pandas phụ thuộc rất nhiều vào các kiểu dữ liệu NumPy. Tuy nhiên, gấu trúc 1. 0 giới thiệu một số loại bổ sung

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

896 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

897 hỗ trợ các giá trị Boolean bị thiếu và logic ba giá trị Kleene

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

898 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

899 đại diện cho một loại chuỗi chuyên dụng

Bạn có thể lấy các loại dữ liệu cho từng cột của Khung dữ liệu Pandas với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

800

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

82

Như bạn có thể thấy,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

800 trả về đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 với tên cột là nhãn và kiểu dữ liệu tương ứng là giá trị

Nếu bạn muốn sửa đổi kiểu dữ liệu của một hoặc nhiều cột, thì bạn có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

803

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

83

Tham số bắt buộc quan trọng nhất và duy nhất của

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

803 là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

888. Nó mong đợi một kiểu dữ liệu hoặc từ điển. Nếu bạn vượt qua một từ điển, thì các khóa là tên cột và các giá trị là kiểu dữ liệu tương ứng bạn muốn

Như bạn có thể thấy, các kiểu dữ liệu cho các cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

6 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3 trong DataFrame

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829 đều là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

809, đại diện cho số nguyên 64 bit (hoặc 8 byte). Tuy nhiên,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

864 cũng cung cấp một kiểu dữ liệu số nguyên nhỏ hơn, 32 bit (4 byte) có tên là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

811

Loại bỏ các quảng cáo

Kích thước khung dữ liệu gấu trúc

Các thuộc tính

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

812,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

813 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

814 lần lượt trả về số thứ nguyên, số giá trị dữ liệu trên mỗi thứ nguyên và tổng số giá trị dữ liệu

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

84

Phiên bản

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819 có hai chiều (hàng và cột), do đó,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

812 trả về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

817. Mặt khác, một đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 chỉ có một chiều duy nhất, vì vậy trong trường hợp đó,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

812 sẽ trả về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820

Thuộc tính

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

814 trả về một bộ có số hàng (trong trường hợp này là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

822) và số cột (_______5823). Cuối cùng,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

813 trả về một số nguyên bằng số lượng giá trị trong DataFrame (

>>> import numpy as np
>>> import pandas as pd

6)

Bạn thậm chí có thể kiểm tra dung lượng bộ nhớ được sử dụng bởi mỗi cột với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

826

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

85

Như bạn có thể thấy,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

826 trả về một Sê-ri với các tên cột dưới dạng nhãn và mức sử dụng bộ nhớ theo byte dưới dạng giá trị dữ liệu. Nếu bạn muốn loại trừ việc sử dụng bộ nhớ của cột chứa nhãn hàng, hãy chuyển đối số tùy chọn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

828

Trong ví dụ trên, hai cột cuối cùng,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

6 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3, mỗi cột sử dụng 28 byte bộ nhớ. Đó là bởi vì các cột này có bảy giá trị, mỗi giá trị là một số nguyên chiếm 32 bit hoặc 4 byte. Bảy số nguyên nhân với 4 byte, mỗi số bằng tổng 28 byte sử dụng bộ nhớ

Truy cập và sửa đổi dữ liệu

Bạn đã học cách lấy một hàng hoặc cột cụ thể của Pandas DataFrame làm đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

86

Trong ví dụ đầu tiên, bạn truy cập cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

4 giống như truy cập một phần tử từ từ điển, bằng cách sử dụng nhãn của nó làm khóa. Nếu nhãn cột là mã định danh Python hợp lệ thì bạn cũng có thể sử dụng ký hiệu dấu chấm để truy cập cột. Trong ví dụ thứ hai, bạn sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845 để lấy hàng theo nhãn của nó,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

877

Lấy dữ liệu với Accessors

Ngoài bộ truy cập

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845 mà bạn có thể sử dụng để lấy các hàng hoặc cột theo nhãn của chúng, Pandas còn cung cấp bộ truy cập

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836, truy xuất một hàng hoặc cột theo chỉ số nguyên của nó. Trong hầu hết các trường hợp, bạn có thể sử dụng một trong hai

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

87

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

837 trả về hàng có nhãn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

877. Tương tự,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

839 trả về hàng có chỉ số dựa trên số 0

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

840, là hàng đầu tiên. Như bạn có thể thấy, cả hai câu lệnh đều trả về cùng một hàng dưới dạng đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820

Pandas có tổng cộng bốn người truy cập

```
>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object
```
845 chấp nhận nhãn của hàng và cột và trả về Sê-ri hoặc Khung dữ liệu. Bạn có thể sử dụng nó để lấy toàn bộ hàng hoặc cột cũng như các phần của chúng
```
>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object
```
836 chấp nhận các chỉ số dựa trên số 0 của hàng và cột và trả về Sê-ri hoặc Khung dữ liệu. Bạn có thể sử dụng nó để lấy toàn bộ hàng hoặc cột hoặc các phần của chúng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

844 chấp nhận nhãn của hàng và cột và trả về một giá trị dữ liệu

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845 chấp nhận các chỉ số dựa trên số 0 của các hàng và cột và trả về một giá trị dữ liệu

Trong số này,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836 đặc biệt mạnh mẽ. Họ hỗ trợ cắt và lập chỉ mục kiểu NumPy. Bạn có thể sử dụng chúng để truy cập vào một cột

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

88

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

848 trả về cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

5. Cấu trúc lát cắt (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

850) ở vị trí nhãn hàng có nghĩa là tất cả các hàng phải được bao gồm.

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

851 trả về cùng một cột vì chỉ số dựa trên số 0

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 đề cập đến cột thứ hai,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

5

Giống như bạn có thể làm với NumPy, bạn có thể cung cấp các lát cắt cùng với danh sách hoặc mảng thay vì chỉ mục để nhận nhiều hàng hoặc cột

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

89

Ghi chú. Không sử dụng bộ dữ liệu thay vì danh sách hoặc mảng số nguyên để nhận các hàng hoặc cột thông thường. Các bộ dữ liệu được dành riêng để biểu diễn nhiều thứ nguyên trong NumPy và Pandas, cũng như lập chỉ mục phân cấp hoặc đa cấp trong Pandas

Trong ví dụ này, bạn sử dụng

Cắt để lấy các hàng có nhãn ________ 5854 đến ________ 5855, tương đương với các chỉ số ________ 5820 đến ________ 5857

Liệt kê để lấy các cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

4 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

5, tương đương với các chỉ số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

840 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820

Cả hai câu lệnh đều trả về Khung dữ liệu Pandas với giao điểm của năm hàng và hai cột mong muốn

Điều này mang đến một sự khác biệt rất quan trọng giữa

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836. Như bạn có thể thấy từ ví dụ trước, khi bạn chuyển nhãn hàng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

864 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845, bạn sẽ nhận được các hàng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

854 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

855. Tuy nhiên, khi bạn chuyển các chỉ số hàng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

868 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836, bạn chỉ nhận được các hàng có chỉ số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

857

Lý do bạn chỉ nhận được các chỉ số từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

857 là vì với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836, chỉ số dừng của một lát cắt là độc quyền, nghĩa là nó bị loại trừ khỏi các giá trị được trả về. Điều này phù hợp với chuỗi Python và mảng NumPy. Tuy nhiên, với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845, cả hai chỉ số bắt đầu và kết thúc đều được bao gồm, nghĩa là chúng được bao gồm trong các giá trị được trả về

Bạn có thể bỏ qua các hàng và cột với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836 giống như cách bạn có thể thực hiện với việc cắt các bộ dữ liệu, danh sách và mảng NumPy

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

90

Trong ví dụ này, bạn chỉ định các chỉ số hàng mong muốn với lát cắt

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

877. Điều này có nghĩa là bạn bắt đầu với hàng có chỉ số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 (hàng thứ hai), dừng lại trước hàng có chỉ số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

879 (hàng thứ bảy) và bỏ qua mọi hàng thứ hai

Thay vì sử dụng cấu trúc cắt lát, bạn cũng có thể sử dụng lớp Python tích hợp sẵn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

880, cũng như

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

881 hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

882

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

91

Bạn có thể thấy một trong những cách tiếp cận này thuận tiện hơn những cách khác tùy thuộc vào tình huống của bạn

Có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836 để nhận các giá trị dữ liệu cụ thể. Tuy nhiên, khi bạn chỉ cần một giá trị duy nhất, Pandas khuyên bạn nên sử dụng các bộ truy cập chuyên dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

844 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

92

Ở đây, bạn đã sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

844 để lấy tên của một ứng cử viên bằng cách sử dụng các nhãn hàng và cột tương ứng của nó. Bạn cũng đã sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

845 để truy xuất cùng tên bằng cách sử dụng các chỉ số hàng và cột của nó

Loại bỏ các quảng cáo

Cài đặt dữ liệu với Accessors

Bạn có thể sử dụng các trình truy cập để sửa đổi các phần của Khung dữ liệu Pandas bằng cách chuyển một chuỗi Python, mảng NumPy hoặc một giá trị

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

93

Câu lệnh

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

889 sửa đổi bốn mục đầu tiên (hàng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

877 đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

891) trong cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3 bằng cách sử dụng các giá trị từ danh sách được cung cấp của bạn. Sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

893 đặt các giá trị còn lại trong cột này thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

840

Ví dụ sau đây cho thấy bạn có thể sử dụng các chỉ số phủ định với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

836 để truy cập hoặc sửa đổi dữ liệu

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

94

Trong ví dụ này, bạn đã truy cập và sửa đổi cột cuối cùng (______2825), tương ứng với chỉ số cột số nguyên

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

897. Hành vi này phù hợp với chuỗi Python và mảng NumPy

Chèn và xóa dữ liệu

Pandas cung cấp một số kỹ thuật thuận tiện để chèn và xóa hàng hoặc cột. Bạn có thể chọn trong số họ dựa trên tình hình và nhu cầu của bạn

Chèn và xóa hàng

Hãy tưởng tượng bạn muốn thêm một người mới vào danh sách ứng viên của mình. Bạn có thể bắt đầu bằng cách tạo một đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 mới đại diện cho ứng cử viên mới này

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

95

Đối tượng mới có nhãn tương ứng với nhãn cột từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829. Đó là lý do tại sao bạn cần

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

900

Bạn có thể thêm

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

901 dưới dạng một hàng mới vào cuối

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829 với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

903

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

96

Ở đây,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

903 trả về Khung dữ liệu Pandas với hàng mới được thêm vào. Lưu ý cách Pandas sử dụng thuộc tính

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

905, là giá trị

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

906, để chỉ định nhãn cho hàng mới

Bạn đã thêm một hàng mới bằng một lệnh gọi duy nhất đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

903 và bạn có thể xóa hàng đó bằng một lệnh gọi duy nhất đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

908

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

97

Ở đây,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

908 xóa các hàng được chỉ định bằng tham số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

910. Theo mặc định, nó trả về Khung dữ liệu Pandas với các hàng được chỉ định đã bị xóa. Nếu bạn vượt qua

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

911, thì Khung dữ liệu ban đầu sẽ được sửa đổi và bạn sẽ nhận được giá trị trả về là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

889

Chèn và xóa cột

Cách đơn giản nhất để chèn một cột trong Pandas DataFrame là làm theo quy trình tương tự mà bạn sử dụng khi thêm một mục vào từ điển. Đây là cách bạn có thể nối thêm cột chứa điểm của ứng viên trong bài kiểm tra JavaScript

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

98

Bây giờ Khung dữ liệu ban đầu có thêm một cột,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

913, ở cuối

Bạn không cần phải cung cấp đầy đủ chuỗi giá trị. Bạn có thể thêm một cột mới với một giá trị duy nhất

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

99

Khung dữ liệu

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829 hiện có một cột bổ sung chứa đầy số không

Nếu trước đây bạn đã sử dụng từ điển, thì cách chèn cột này có thể quen thuộc với bạn. Tuy nhiên, nó không cho phép bạn chỉ định vị trí của cột mới. Nếu vị trí của cột mới là quan trọng, thì bạn có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

915 để thay thế

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

10

Bạn vừa chèn một cột khác có điểm của bài kiểm tra Django. Tham số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

916 xác định vị trí hoặc chỉ mục dựa trên 0 của cột mới trong Khung dữ liệu Pandas.

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

917 đặt nhãn cho cột mới và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

918 chỉ định giá trị dữ liệu cần chèn

Bạn có thể xóa một hoặc nhiều cột khỏi Khung dữ liệu Pandas giống như cách bạn làm với từ điển Python thông thường, bằng cách sử dụng câu lệnh

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

919

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

11

Bây giờ bạn có

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829 không có cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

921. Một điểm tương đồng khác với từ điển là khả năng sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

922, loại bỏ cột đã chỉ định và trả về cột đó. Điều đó có nghĩa là bạn có thể làm điều gì đó như

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

923 thay vì sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

919

Bạn cũng có thể xóa một hoặc nhiều cột bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

908 như bạn đã làm trước đây với các hàng. Một lần nữa, bạn cần chỉ định nhãn của các cột mong muốn với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

910. Ngoài ra khi muốn bỏ cột cần cung cấp thêm đối số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

927

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

12

Bạn đã xóa cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

6 khỏi DataFrame của mình

Theo mặc định,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

908 trả về DataFrame mà không có các cột được chỉ định trừ khi bạn vượt qua

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

911

Loại bỏ các quảng cáo

Áp dụng các phép toán số học

Bạn có thể áp dụng các phép toán số học cơ bản như cộng, trừ, nhân và chia cho các đối tượng Pandas

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819 giống như cách bạn làm với mảng NumPy

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

13

Bạn có thể sử dụng kỹ thuật này để chèn một cột mới vào Khung dữ liệu Pandas. Ví dụ: hãy thử tính điểm

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

933 dưới dạng kết hợp tuyến tính của điểm số Python, Django và JavaScript của ứng viên của bạn

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

14

Giờ đây, Khung dữ liệu của bạn có một cột có điểm số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

933 được tính từ điểm kiểm tra cá nhân của ứng viên của bạn. Thậm chí tốt hơn, bạn đã đạt được điều đó chỉ với một tuyên bố

Áp dụng các hàm NumPy và SciPy

Hầu hết các thói quen NumPy và SciPy có thể được áp dụng cho các đối tượng Pandas

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

819 dưới dạng đối số thay vì dưới dạng mảng NumPy. Để minh họa điều này, bạn có thể tính tổng điểm kiểm tra của ứng viên bằng quy trình NumPy

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

937

Thay vì chuyển một mảng NumPy tới

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

937, bạn sẽ chuyển một phần của Khung dữ liệu Pandas của mình

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

15

Biến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

939 hiện đề cập đến DataFrame với điểm số Python, Django và JavaScript. Bạn có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

939 làm đối số của

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

937 và nhận tổ hợp tuyến tính của các cột có trọng số đã chỉ định

Nhưng đó không phải là tất cả. Bạn có thể sử dụng mảng NumPy được trả về bởi

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

942 như một cột mới của

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829. Đầu tiên, xóa cột hiện có

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

933 khỏi

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829, sau đó nối thêm cột mới bằng cách sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

942

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

16

Kết quả giống như trong ví dụ trước, nhưng ở đây bạn đã sử dụng hàm NumPy hiện có thay vì viết mã của riêng bạn

Sắp xếp khung dữ liệu Pandas

Bạn có thể sắp xếp Pandas DataFrame với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

947

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

17

Ví dụ này sắp xếp DataFrame của bạn theo các giá trị trong cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

913. Tham số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

949 đặt nhãn của hàng hoặc cột để sắp xếp theo.

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

950 chỉ định xem bạn muốn sắp xếp theo thứ tự tăng dần (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892) hay giảm dần (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862), thứ tự sau là cài đặt mặc định. Bạn có thể bỏ qua

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

953 để chọn sắp xếp theo hàng (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

954) hay cột (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

927)

Nếu bạn muốn sắp xếp theo nhiều cột, thì chỉ cần chuyển danh sách làm đối số cho

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

949 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

950

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

18

Trong trường hợp này, DataFrame được sắp xếp theo cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

933, nhưng nếu hai giá trị giống nhau thì thứ tự của chúng được xác định bởi các giá trị từ cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3

Tham số tùy chọn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

960 cũng có thể được sử dụng với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

947. Nó được đặt thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862 theo mặc định, đảm bảo

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

947 trả về một Khung dữ liệu Pandas mới. Khi bạn đặt

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

911, DataFrame hiện có sẽ được sửa đổi và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

947 sẽ trả về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

889

Nếu bạn đã từng thử sắp xếp các giá trị trong Excel, thì bạn có thể thấy cách tiếp cận Pandas hiệu quả và thuận tiện hơn nhiều. Khi bạn có lượng dữ liệu lớn, Pandas có thể vượt trội đáng kể so với Excel

Để biết thêm thông tin về sắp xếp trong Pandas, hãy xem Pandas Sort. Hướng dẫn sắp xếp dữ liệu trong Python của bạn

Loại bỏ các quảng cáo

Lọc dữ liệu

Lọc dữ liệu là một tính năng mạnh mẽ khác của Pandas. Nó hoạt động tương tự như lập chỉ mục với mảng Boolean trong NumPy

Nếu bạn áp dụng một số thao tác logic trên đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820, thì bạn sẽ nhận được một Sê-ri khác có giá trị Boolean là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

19

Trong trường hợp này,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

970 trả về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892 cho những hàng có điểm Django lớn hơn hoặc bằng 80. Nó trả về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862 cho các hàng có điểm Django nhỏ hơn 80

Bây giờ bạn có Sê-ri

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

973 chứa đầy dữ liệu Boolean. Biểu thức

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

974 trả về một Khung dữ liệu Pandas với các hàng từ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

829 tương ứng với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892 trong

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

973

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

20

Như bạn có thể thấy,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

978,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

979,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

980 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

981 là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892, vì vậy

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

974 chứa các hàng có các nhãn này. Mặt khác,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

984,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

985 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

986 là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862, vì vậy các hàng tương ứng không xuất hiện trong

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

974

Bạn có thể tạo các biểu thức phức tạp và mạnh mẽ bằng cách kết hợp các phép toán logic với các toán tử sau

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

989 (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

990)

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

991 (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

992)

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

993 (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

994)

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

995 (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

996)

Ví dụ: bạn có thể nhận DataFrame với các ứng viên có

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

913 lớn hơn hoặc bằng 80

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

21

Biểu thức

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

999 trả về một Sê-ri có

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892 ở các hàng mà cả

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

3 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

913 đều lớn hơn hoặc bằng 80 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862 ở các hàng khác. Trong trường hợp này, chỉ những hàng có nhãn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

104 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

878 mới thỏa mãn cả hai điều kiện

Bạn cũng có thể áp dụng các quy trình logic NumPy thay vì các toán tử

Đối với một số hoạt động yêu cầu lọc dữ liệu, sẽ thuận tiện hơn khi sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

106. Nó thay thế các giá trị ở những vị trí không thỏa mãn điều kiện được cung cấp

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

22

Trong ví dụ này, điều kiện là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

970. Các giá trị của Khung dữ liệu hoặc Sê-ri gọi

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

106 sẽ giữ nguyên khi điều kiện là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892 và sẽ được thay thế bằng giá trị của

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

110 (trong trường hợp này là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

111) khi điều kiện là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862

Xác định thống kê dữ liệu

Pandas cung cấp nhiều phương pháp thống kê cho DataFrames. Bạn có thể lấy số liệu thống kê cơ bản cho các cột số của Khung dữ liệu Pandas với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

113

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

23

Ở đây, ________ 7113 trả về một Khung dữ liệu mới với số lượng hàng được chỉ định bởi ________ 7115, cũng như giá trị trung bình, độ lệch chuẩn, tối thiểu, tối đa và phần tư của các cột

Nếu bạn muốn nhận số liệu thống kê cụ thể cho một số hoặc tất cả các cột của mình, thì bạn có thể gọi các phương thức như

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

116 hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

117

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

24

Khi được áp dụng cho Khung dữ liệu Pandas, các phương thức này trả về Sê-ri với kết quả cho từng cột. Khi được áp dụng cho một đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820 hoặc một cột của DataFrame, các phương thức này sẽ trả về các giá trị vô hướng

Để tìm hiểu thêm về tính toán thống kê với Pandas, hãy xem Thống kê mô tả với Python và NumPy, SciPy và Pandas. Mối tương quan với Python

Loại bỏ các quảng cáo

Xử lý dữ liệu bị thiếu

Thiếu dữ liệu rất phổ biến trong khoa học dữ liệu và học máy. Nhưng không bao giờ sợ hãi. Pandas có các tính năng rất mạnh để làm việc với dữ liệu bị thiếu. Trên thực tế, tài liệu của nó có toàn bộ phần dành riêng để làm việc với dữ liệu bị thiếu

Pandas thường đại diện cho dữ liệu bị thiếu với các giá trị NaN (không phải số). Trong Python, bạn có thể nhận NaN bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

119,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

120 hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

121. Bắt đầu với Pandas 1. 0, các loại mới hơn như

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

896,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

123,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

124,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

125 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

126 sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

127 làm giá trị bị thiếu

Đây là một ví dụ về Khung dữ liệu Pandas có giá trị bị thiếu

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

25

Biến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

864 đề cập đến DataFrame với một cột,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

858 và bốn giá trị. Giá trị thứ ba là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

130 và được coi là bị thiếu theo mặc định

Tính toán với dữ liệu bị thiếu

Nhiều phương thức của Pandas bỏ qua các giá trị

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

130 khi thực hiện các phép tính trừ khi chúng được hướng dẫn rõ ràng là không được

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

26

Trong ví dụ đầu tiên,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

132 tính giá trị trung bình mà không tính đến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

133 (giá trị thứ ba). Nó chỉ lấy

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

134,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

135 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

136 và trả về giá trị trung bình của chúng là 2. 33

Tuy nhiên, nếu bạn hướng dẫn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

116 không bỏ qua các giá trị

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

130 với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

139, thì nó sẽ xem xét chúng và trả về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

130 nếu có bất kỳ giá trị nào bị thiếu trong dữ liệu

Điền dữ liệu còn thiếu

Pandas có một số tùy chọn để điền hoặc thay thế các giá trị bị thiếu bằng các giá trị khác. Một trong những phương pháp thuận tiện nhất là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

141. Bạn có thể sử dụng nó để thay thế các giá trị còn thiếu bằng

Giá trị được chỉ định
Các giá trị trên giá trị còn thiếu
Các giá trị bên dưới giá trị bị thiếu

Đây là cách bạn có thể áp dụng các tùy chọn được đề cập ở trên

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

27

Trong ví dụ đầu tiên,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

142 thay thế giá trị còn thiếu bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

111 mà bạn đã chỉ định bằng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

918. Trong ví dụ thứ hai,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

145 thay thế giá trị bị thiếu bằng giá trị ở trên nó, đó là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

135. Trong ví dụ thứ ba,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

147 sử dụng giá trị bên dưới giá trị bị thiếu, đó là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

136

Một tùy chọn phổ biến khác là áp dụng phép nội suy và thay thế các giá trị bị thiếu bằng các giá trị được nội suy. Bạn có thể làm điều này với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

149

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

28

Như bạn có thể thấy,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

149 thay thế giá trị còn thiếu bằng một giá trị được nội suy

Bạn cũng có thể sử dụng tham số tùy chọn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

960 với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

141. Làm như vậy sẽ

Tạo và trả lại một DataFrame mới khi

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

153

Sửa đổi DataFrame hiện có và trả về

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

889 khi

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

911

Cài đặt mặc định cho

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

960 là

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

862. Tuy nhiên,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

911 có thể rất hữu ích khi bạn đang làm việc với lượng lớn dữ liệu và muốn ngăn việc sao chép không cần thiết và không hiệu quả

Loại bỏ các quảng cáo

Xóa hàng và cột có dữ liệu bị thiếu

Trong một số trường hợp nhất định, bạn có thể muốn xóa các hàng hoặc thậm chí các cột có giá trị bị thiếu. Bạn có thể làm điều này với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

159

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

29

Trong trường hợp này,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

159 chỉ cần xóa hàng có

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

130, bao gồm cả nhãn của nó. Nó cũng có tham số tùy chọn

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

960, hoạt động tương tự như với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

141 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

149

Lặp lại qua Khung dữ liệu Pandas

Như bạn đã học trước đó, nhãn hàng và cột của DataFrame có thể được truy xuất theo trình tự với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

874 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

875. Bạn có thể sử dụng tính năng này để lặp lại các nhãn và nhận hoặc đặt giá trị dữ liệu. Tuy nhiên, Pandas cung cấp một số phương thức thuận tiện hơn để lặp lại

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

167 để lặp qua các cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

168 để lặp qua các cột

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

169 để lặp qua các hàng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

170 để lặp lại các hàng và nhận các bộ dữ liệu được đặt tên

Với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

167 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

168, bạn lặp qua các cột của Khung dữ liệu Pandas. Mỗi lần lặp tạo ra một bộ có tên cột và dữ liệu cột dưới dạng đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

60

Đó là cách bạn sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

167 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

168

Với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

169, bạn lặp qua các hàng của Khung dữ liệu Pandas. Mỗi lần lặp tạo ra một bộ có tên hàng và dữ liệu hàng dưới dạng đối tượng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

820

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

61

Đó là cách bạn sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

169

Tương tự,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

170 lặp qua các hàng và trong mỗi lần lặp tạo ra một bộ dữ liệu được đặt tên với (tùy chọn) chỉ mục và dữ liệu

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

62

Bạn có thể chỉ định tên của bộ được đặt tên với tham số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

4, được đặt thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

181 theo mặc định. Bạn cũng có thể chỉ định có bao gồm nhãn hàng với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

852 hay không, nhãn này được đặt thành

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

892 theo mặc định

Làm việc với chuỗi thời gian

Pandas vượt trội trong việc xử lý chuỗi thời gian. Mặc dù chức năng này một phần dựa trên datetimes và timedeltas NumPy, Pandas cung cấp tính linh hoạt hơn nhiều

Tạo khung dữ liệu với nhãn chuỗi thời gian

Trong phần này, bạn sẽ tạo Khung dữ liệu Pandas bằng cách sử dụng dữ liệu nhiệt độ hàng giờ từ một ngày

Bạn có thể bắt đầu bằng cách tạo một danh sách (hoặc bộ dữ liệu, mảng NumPy hoặc loại dữ liệu khác) với các giá trị dữ liệu, sẽ là nhiệt độ hàng giờ được tính bằng độ C

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

63

Bây giờ bạn có biến

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

184, tham chiếu đến danh sách các giá trị nhiệt độ

Bước tiếp theo là tạo một chuỗi ngày và giờ. Pandas cung cấp một chức năng rất tiện lợi,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

185, cho mục đích này

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

64

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

185 chấp nhận các đối số mà bạn sử dụng để chỉ định điểm bắt đầu hoặc điểm kết thúc của phạm vi, số khoảng thời gian, tần suất, múi giờ, v.v.

Ghi chú. Mặc dù có sẵn các tùy chọn khác, Pandas chủ yếu sử dụng định dạng ngày và giờ theo tiêu chuẩn ISO 8601 theo mặc định

Bây giờ bạn đã có các giá trị nhiệt độ và ngày giờ tương ứng, bạn có thể tạo DataFrame. Trong nhiều trường hợp, thật thuận tiện khi sử dụng các giá trị ngày giờ làm nhãn hàng

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

65

Đó là nó. Bạn đã tạo một DataFrame với dữ liệu chuỗi thời gian và chỉ số hàng ngày-thời gian

Loại bỏ các quảng cáo

Lập chỉ mục và cắt lát

Khi bạn có Khung dữ liệu Pandas với dữ liệu chuỗi thời gian, bạn có thể thuận tiện áp dụng cắt để lấy một phần thông tin

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

66

Ví dụ này cho thấy làm thế nào để trích xuất nhiệt độ giữa 05. 00 và 14. 00 (5 một. m. và 2p. m. ). Mặc dù bạn đã cung cấp các chuỗi nhưng Pandas biết rằng các nhãn hàng của bạn là các giá trị ngày-thời gian và hiểu các chuỗi này là ngày và giờ

Lấy mẫu lại và lăn

Bạn vừa xem cách kết hợp các nhãn hàng ngày-thời gian và sử dụng tính năng cắt để lấy thông tin bạn cần từ dữ liệu chuỗi thời gian. Điều này chỉ là khởi đầu. Nó trở nên tốt hơn

Nếu bạn muốn chia một ngày thành bốn khoảng thời gian sáu giờ và lấy nhiệt độ trung bình cho mỗi khoảng thời gian, thì bạn chỉ cần một câu lệnh để thực hiện điều đó. Pandas cung cấp phương thức

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

187, bạn có thể kết hợp phương thức này với các phương thức khác, chẳng hạn như

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

116

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

67

Bây giờ bạn có một Khung dữ liệu Pandas mới với bốn hàng. Mỗi hàng tương ứng với một khoảng thời gian sáu giờ. Ví dụ: giá trị

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

189 là giá trị trung bình của sáu nhiệt độ đầu tiên từ DataFrame

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

190, trong khi đó

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

191 là giá trị trung bình của sáu nhiệt độ cuối cùng

Thay vì

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

116, bạn có thể áp dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

193 hoặc

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

194 để có nhiệt độ tối thiểu và tối đa cho mỗi khoảng thời gian. Bạn cũng có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

195 để lấy tổng các giá trị dữ liệu, mặc dù thông tin này có thể không hữu ích khi bạn làm việc với nhiệt độ

Bạn cũng có thể cần thực hiện một số phân tích cửa sổ cuộn. Điều này liên quan đến việc tính toán thống kê cho một số hàng liền kề được chỉ định, tạo nên cửa sổ dữ liệu của bạn. Bạn có thể “cuộn” cửa sổ bằng cách chọn một tập hợp các hàng liền kề khác để thực hiện các phép tính của mình trên

Cửa sổ đầu tiên của bạn bắt đầu với hàng đầu tiên trong DataFrame của bạn và bao gồm bao nhiêu hàng liền kề mà bạn chỉ định. Sau đó, bạn di chuyển cửa sổ của mình xuống một hàng, bỏ hàng đầu tiên và thêm hàng ngay sau hàng cuối cùng và tính lại thống kê tương tự. Bạn lặp lại quy trình này cho đến khi đến hàng cuối cùng của DataFrame

Pandas cung cấp phương thức

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

196 cho mục đích này

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

68

Bây giờ bạn có một DataFrame với nhiệt độ trung bình được tính cho một số khoảng thời gian ba giờ. Tham số

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

197 chỉ định kích thước của cửa sổ thời gian di chuyển

Trong ví dụ trên, giá trị thứ ba (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

198) là nhiệt độ trung bình trong ba giờ đầu tiên (

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

199,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

200 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

201). Giá trị thứ tư là nhiệt độ trung bình trong các giờ

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

201,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

203 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

204. Giá trị cuối cùng là nhiệt độ trung bình trong ba giờ qua,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

205,

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

206 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

207. Hai giá trị đầu tiên bị thiếu vì không có đủ dữ liệu để tính toán chúng

Vẽ sơ đồ với Pandas DataFrames

Pandas cho phép bạn trực quan hóa dữ liệu hoặc tạo các ô dựa trên DataFrames. Nó sử dụng Matplotlib trong nền, vì vậy việc khai thác khả năng vẽ đồ thị của Pandas rất giống với cách làm việc với Matplotlib

Nếu bạn muốn hiển thị các ô, thì trước tiên bạn cần nhập

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

208

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

69

Bây giờ bạn có thể sử dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

209 để tạo cốt truyện và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

210 để hiển thị nó

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

0

Bây giờ ________ 7211 trả về một đối tượng ________ 7212 trông như thế này

Bạn cũng có thể áp dụng

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

213 và nhận được kết quả tương tự. Cả

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

211 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

213 đều có nhiều tham số tùy chọn mà bạn có thể sử dụng để chỉ định giao diện cho cốt truyện của mình. Một số trong số chúng được chuyển trực tiếp đến các phương thức Matplotlib cơ bản

Bạn có thể lưu số liệu của mình bằng cách xâu chuỗi các phương thức

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

216 và

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

217

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

1

Câu lệnh này tạo cốt truyện và lưu nó dưới dạng tệp có tên

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

218 trong thư mục làm việc của bạn

Bạn có thể nhận các loại ô khác với Khung dữ liệu Pandas. Ví dụ: bạn có thể trực quan hóa dữ liệu ứng viên công việc của mình từ trước đó dưới dạng biểu đồ với

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

219

>>>

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

2

Trong ví dụ này, bạn trích xuất điểm kiểm tra Python và dữ liệu tổng điểm và trực quan hóa nó bằng biểu đồ. Cốt truyện kết quả trông như thế này

Đây chỉ là cái nhìn cơ bản. Bạn có thể điều chỉnh chi tiết với các thông số tùy chọn bao gồm

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

219, Matplotlib’s

>>> df.loc[103]
name          Jana
city        Prague
age             33
py-score        81
Name: 103, dtype: object

221 và nhiều thông số khác. Bạn có thể tìm thấy các giải thích chi tiết trong Anatomy of Matplotlib

Đọc thêm

Pandas DataFrames là các đối tượng rất toàn diện hỗ trợ nhiều thao tác không được đề cập trong hướng dẫn này. Một số trong số này bao gồm

Lập chỉ mục phân cấp (đa cấp)
nhóm
Hợp nhất, tham gia và nối
Làm việc với dữ liệu phân loại

Hướng dẫn chính thức của Pandas tóm tắt một số tùy chọn có sẵn một cách độc đáo. Nếu bạn muốn tìm hiểu thêm về Pandas và DataFrames, thì bạn có thể xem các hướng dẫn này

Làm sạch dữ liệu Pythonic với Pandas và NumPy
Khung dữ liệu gấu trúc 101
Giới thiệu về Pandas và Vincent
gấu trúc trăn. Thủ thuật & Tính năng có thể bạn chưa biết
gấu trúc thành ngữ. Thủ thuật & Tính năng có thể bạn chưa biết
Đọc CSV với Pandas
Viết CSV Với Pandas
Đọc và ghi tệp CSV bằng Python
Đọc và ghi tệp CSV
Sử dụng Pandas để đọc các tệp Excel lớn bằng Python
Nhanh chóng, linh hoạt, dễ dàng và trực quan. Cách tăng tốc các dự án Pandas của bạn

Bạn đã biết rằng Pandas DataFrames xử lý dữ liệu hai chiều. Nếu bạn cần làm việc với dữ liệu được gắn nhãn ở nhiều hơn hai chiều, bạn có thể xem xarray, một thư viện Python mạnh mẽ khác dành cho khoa học dữ liệu với các tính năng rất giống với Pandas

Nếu bạn làm việc với dữ liệu lớn và muốn có trải nghiệm giống như DataFrame, thì bạn có thể cho Dask một cơ hội và sử dụng API DataFrame của nó. Khung dữ liệu Dask chứa nhiều Khung dữ liệu Pandas và thực hiện tính toán một cách lười biếng

Sự kết luận

Bây giờ bạn đã biết Pandas DataFrame là gì, một số tính năng của nó và cách bạn có thể sử dụng nó để làm việc với dữ liệu một cách hiệu quả. Pandas DataFrames là cấu trúc dữ liệu mạnh mẽ, thân thiện với người dùng mà bạn có thể sử dụng để hiểu sâu hơn về bộ dữ liệu của mình

Trong hướng dẫn này, bạn đã học

Pandas DataFrame là gì và cách tạo một DataFrame
Cách truy cập, sửa đổi, thêm, sắp xếp, lọc và xóa dữ liệu
Cách sử dụng các thói quen NumPy với DataFrames
Cách xử lý các giá trị bị thiếu
Cách làm việc với dữ liệu chuỗi thời gian
Cách trực quan hóa dữ liệu có trong DataFrames

Bạn đã học đủ kiến thức cơ bản về DataFrames. Nếu bạn muốn tìm hiểu sâu hơn về cách làm việc với dữ liệu trong Python, thì hãy xem toàn bộ phạm vi hướng dẫn của Pandas

Nếu bạn có câu hỏi hoặc ý kiến, xin vui lòng đặt chúng trong phần bình luận bên dưới

Đánh dấu là đã hoàn thành

Xem ngay Hướng dẫn này có một khóa học video liên quan do nhóm Real Python tạo. Xem nó cùng với hướng dẫn bằng văn bản để hiểu sâu hơn. Khung dữ liệu Pandas. Làm việc với dữ liệu một cách hiệu quả

🐍 Thủ thuật Python 💌

Nhận một Thủ thuật Python ngắn và hấp dẫn được gửi đến hộp thư đến của bạn vài ngày một lần. Không có thư rác bao giờ. Hủy đăng ký bất cứ lúc nào. Được quản lý bởi nhóm Real Python

Gửi cho tôi thủ thuật Python »

Giới thiệu về Mirko Stojiljković

Mirko có bằng tiến sĩ. D. trong Kỹ thuật cơ khí và làm việc như một giáo sư đại học. Anh là một Pythonista, người áp dụng các phương pháp tối ưu hóa kết hợp và máy học để hỗ trợ ra quyết định trong lĩnh vực năng lượng

» Thông tin thêm về Mirko

Mỗi hướng dẫn tại Real Python được tạo bởi một nhóm các nhà phát triển để nó đáp ứng các tiêu chuẩn chất lượng cao của chúng tôi. Các thành viên trong nhóm đã làm việc trong hướng dẫn này là

Aldren

Geir Arne

Joanna

Gia-cốp

Kyle

Bậc thầy Kỹ năng Python trong thế giới thực Với quyền truy cập không giới hạn vào Python thực

Tham gia với chúng tôi và có quyền truy cập vào hàng nghìn hướng dẫn, khóa học video thực hành và cộng đồng các Pythonistas chuyên gia

Nâng cao kỹ năng Python của bạn »

Bậc thầy Kỹ năng Python trong thế giới thực
Với quyền truy cập không giới hạn vào Python thực

Tham gia với chúng tôi và có quyền truy cập vào hàng ngàn hướng dẫn, khóa học video thực hành và cộng đồng Pythonistas chuyên gia

Nâng cao kỹ năng Python của bạn »

Bạn nghĩ sao?

Đánh giá bài viết này

Tweet Chia sẻ Chia sẻ Email

Bài học số 1 hoặc điều yêu thích mà bạn đã học được là gì?

Mẹo bình luận. Những nhận xét hữu ích nhất là những nhận xét được viết với mục đích học hỏi hoặc giúp đỡ các sinh viên khác. Nhận các mẹo để đặt câu hỏi hay và nhận câu trả lời cho các câu hỏi phổ biến trong cổng thông tin hỗ trợ của chúng tôi

programming python