Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?

Trong hướng dẫn này, chúng tôi sẽ xem xét một số cách mà bạn có thể sử dụng để tập hợp con dữ liệu. Nếu bạn đang nhập dữ liệu vào Python thì bạn phải biết về các khung dữ liệu. DataFrame là cấu trúc dữ liệu hai chiều, tức là dữ liệu được căn chỉnh theo kiểu bảng theo hàng và cột.two-dimensional data structure, i.e., data is aligned in a tabular fashion in rows and columns.

Tập hợp một khung dữ liệu là quá trình chọn một tập hợp các hàng và cột mong muốn từ khung dữ liệu.selecting a set of desired rows and columns from the data frame.

Bạn có thể chọn:

  • Tất cả các hàng và cột giới hạn
  • Tất cả các cột và hàng hạn chế
  • Hàng hạn và cột giới hạn.

Việc tập hợp một khung dữ liệu rất quan trọng vì nó cho phép bạn chỉ truy cập một phần nhất định của khung dữ liệu. Điều này có ích khi bạn muốn giảm số lượng tham số trong khung dữ liệu của bạn.

Hãy bắt đầu với việc nhập một bộ dữ liệu để làm việc.

Nhập dữ liệu để xây dựng DataFrame

Trong hướng dẫn này, chúng tôi đang sử dụng bộ dữ liệu nhà ở California.

Hãy để bắt đầu với việc nhập dữ liệu vào khung dữ liệu bằng gấu trúc.

import pandas as pd
housing = pd.read_csv("/sample_data/california_housing.csv")
housing.head()

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Nhà ở DataFrame

Tệp CSV của chúng tôi hiện được lưu trữ trong biến nhà ở dưới dạng khung dữ liệu gấu trúc.

Chọn một tập hợp con của DataFrame bằng toán tử lập chỉ mục

Toán tử lập chỉ mục chỉ là một cái tên lạ mắt cho dấu ngoặc vuông. Bạn có thể chọn các cột, hàng và kết hợp các hàng và cột chỉ bằng cách sử dụng dấu ngoặc vuông. Hãy cùng xem điều này trong hành động.square brackets. You can select columns, rows, and a combination of rows and columns using just the square brackets. Let’s see this in action.

1. Chỉ chọn các cột

Để chọn cột bằng cách sử dụng toán tử lập chỉ mục, hãy sử dụng dòng mã sau.

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Dân số

Dòng mã này chọn cột với nhãn là ‘dân số và hiển thị tất cả các giá trị hàng tương ứng với điều đó.

Bạn cũng có thể chọn nhiều cột bằng toán tử lập chỉ mục.

housing[['population', 'households' ]]

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Dân số và hộ gia đình

Để tập hợp một DataFrame và lưu trữ nó, hãy sử dụng dòng mã sau:

housing_subset = housing[['population', 'households' ]]
housing_subset.head()

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?

Điều này tạo ra một khung dữ liệu riêng biệt như một tập hợp con của bản gốc.

2. Chọn hàng

Bạn có thể sử dụng toán tử lập chỉ mục để chọn các hàng cụ thể dựa trên các điều kiện nhất định.

Ví dụ: để chọn các hàng có dân số lớn hơn 500, bạn có thể sử dụng dòng mã sau.

population_500 = housing[housing['population']>500]
population_500

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Dân số lớn hơn 500

Bạn cũng có thể tập hợp thêm một khung dữ liệu. Ví dụ: hãy để thử và lọc các hàng từ khung dữ liệu Housing_Subset của chúng tôi mà chúng tôi đã tạo ở trên.

population_500 = housing_subset[housing['population']>500]
population_500

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Tập hợp con

Lưu ý rằng hai đầu ra ở trên có cùng số lượng hàng (mà chúng nên).

Tập hợp một DataFrame bằng python .loc ()

.Loc & nbsp; Indexer là một cách hiệu quả để chọn các hàng và cột từ khung dữ liệu. Nó cũng có thể được sử dụng để chọn các hàng và cột đồng thời.loc indexer is an effective way to select rows and columns from the data frame. It can also be used to select rows and columns simultaneously.

Một điều quan trọng cần nhớ là .loc () hoạt động trên nhãn của các hàng và cột. Sau này, chúng tôi sẽ xem xét .iloc () dựa trên một chỉ mục của các hàng và cột. .loc() works on the labels of rows and columns. After this, we will look at .iloc() that is based on an index of rows and columns.

1. Chọn hàng với loc ()

Để chọn một hàng bằng cách sử dụng .Loc (), sử dụng dòng mã sau.

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Loc

Để chọn nhiều hàng sử dụng:

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Loc

Bạn cũng có thể cắt các hàng giữa chỉ mục bắt đầu và chỉ mục kết thúc.

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
Cắt lát

2. Chọn hàng và cột

Để chọn các hàng cụ thể và các cột cụ thể ra khỏi khung dữ liệu, hãy sử dụng dòng mã sau:

housing.loc[1:7,['population', 'households']]

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?

Dòng mã này chọn các hàng từ 1 đến 7 và các cột tương ứng với các nhãn ‘dân số và‘ nhà ở.

Tập hợp một DataFrame bằng Python ILOC ()

Hàm iloc () là viết tắt cho vị trí số nguyên. Nó hoạt động hoàn toàn trên lập chỉ mục số nguyên cho cả hàng và cột. is short for integer location. It works entirely on integer indexing for both rows and columns.

Để chọn một tập hợp con của các hàng và cột bằng ILOC (), hãy sử dụng dòng mã sau:

housing.iloc[[2,3,6], [3, 5]]

Hướng dẫn how do you create a subset in python? - làm thế nào để bạn tạo một tập hợp con trong python?
ILOC

Dòng mã này chọn hàng số 2, 3 và 6 cùng với cột số 3 và 5. 2, 3 and 6 along with column number 3 and 5.

Sử dụng ILOC giúp bạn không viết các nhãn hoàn chỉnh của các hàng và cột.

Bạn cũng có thể sử dụng ILOC () để chọn các hàng hoặc cột riêng lẻ giống như loc () sau khi thay thế nhãn bằng số nguyên.

Sự kết luận

Hướng dẫn này là về việc tập hợp một khung dữ liệu trong Python bằng cách sử dụng dấu ngoặc vuông, LỘC và ILOC. Chúng tôi đã học cách nhập tập dữ liệu vào khung dữ liệu và sau đó là cách lọc các hàng và cột từ khung dữ liệu.

Làm thế nào để bạn tạo một tập hợp con của dữ liệu?

Từ menu Enterprise, chọn Quản lý chất lượng, sau đó định nghĩa tập hợp dữ liệu. Mở menu Hành động trong trang Định nghĩa tập hợp dữ liệu, sau đó chọn Tạo hoặc chỉ cần nhấp vào biểu tượng Tạo.

Tập hợp con trong gấu trúc là gì?

Có nhiều cách khác nhau để tập hợp một bản dữ liệu gấu trúc.Bạn có thể cần chọn các cột cụ thể với tất cả các hàng.Đôi khi, bạn muốn chọn các hàng cụ thể với tất cả các cột hoặc chọn các hàng và cột đáp ứng một tiêu chí cụ thể, v.v.select specific columns with all rows. Sometimes, you want to select specific rows with all columns or select rows and columns that meet a specific criterion, etc.

Làm thế nào để bạn tạo một khung dữ liệu trong Python?

Phương thức - 3: Tạo DataFrame từ Dict of Ndarray/Danh sách..
Nhập Gandas dưới dạng PD ..
# gán dữ liệu danh sách ..
data = {'name': ['tom', 'joseph', 'krish', 'john'], 'tuổi': [20, 21, 19, 18]}.
# Tạo DataFrame ..
df = pd.dataframe (dữ liệu).
# In đầu ra ..
print(df).

Làm cách nào để tạo một khung dữ liệu mới trong một cột cụ thể?

Bạn có thể tạo một khung dữ liệu mới của một cột cụ thể bằng cách sử dụng phương thức dataFrame.assign ().Phương thức gán () gán các cột mới cho DataFrame, trả về một đối tượng mới (một bản sao) với các cột mới được thêm vào các cột gốc.using DataFrame. assign() method. The assign() method assign new columns to a DataFrame, returning a new object (a copy) with the new columns added to the original ones.