Một phần quan trọng của quá trình phân tích dữ liệu là loại bỏ các giá trị NAN. Trong bài viết này, cách thay thế giá trị NAN trong một cột hoặc nhiều cột bằng một chuỗi rỗng. Bắt đầu nào Show
Cũng đọc. Hiểu NaN trong Numpy và Pandas Chúng tôi sẽ bắt đầu bằng cách tạo DataFrame. Hãy tạo một DataFrame với dữ liệu về điểm số của các sinh viên trong các môn học khác nhau. Các cột là “Tên”, “Điểm số” và “Tuổi. ” import pandas as pd import numpy as np scoresheet = { 'Name' :['Linda','Tommy','Justin','Gary',np.nan], 'Score':['60',np.nan,'50','70','80'], 'Age':['18','19',np.nan,'20','22'], } df = pd.DataFrame(scoresheet) print(df) đầu ra Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 22 4 Phương pháp thay thế NAN bằng chuỗi rỗngBây giờ chúng ta hãy tìm hiểu cách thay thế các giá trị NaN bằng các chuỗi trống trên toàn bộ khung dữ liệu trong Pandas 1. sử dụng df. thay thế (np. nan,’ ‘, regex=true)Phương pháp này được sử dụng để thay thế tất cả các giá trị NAN trong DataFrame bằng một chuỗi rỗng df2 = df.replace(np.nan, '', regex=True) print(df2) đầu ra Name Score Age 0 Linda 60 18 1 Tommy 19 2 Justin 50 3 Gary 70 20 4 80 22 2. Sử dụng df [[‘column1′,’column2’]] = df [[‘column1′,’column2’]]. phương thức fillna(”)Trong phương pháp này, chúng tôi sẽ chỉ thay thế các giá trị NAN trong các cột được chỉ định df2 = df[['Age','Score' ]] = df[['Age','Score' ]].fillna('') print(df2) đầu ra Age Score 0 18 60 1 19 2 50 3 20 70 4 22 80 3. Sử dụng phương thức fillna()Phương thức fillna() có thể được sử dụng để thay thế tất cả các giá trị NAN trong DataFrame df2 = df.fillna("") print(df2) đầu ra Name Score Age 0 Linda 60 18 1 Tommy 19 2 Justin 50 3 Gary 70 20 4 80 22 4. Sử dụng phương thức fillna() trên một cột cụ thểTrong phương pháp này, chúng ta sẽ sử dụng phương thức fillna() cho một cột cụ thể trong DataFrame ________số 8 đầu ra 0 18 1 19 2 3 20 4 22 Name: Age, dtype: object Sự kết luậnTóm lại, chúng tôi đã xem xét các phương pháp khác nhau để điền giá trị NAN vào DataFrame bằng một chuỗi trống. Đây là một bước rất quan trọng trong phân tích dữ liệu và bạn cần biết cách loại bỏ các giá trị NAN Điều này thường không sao, vì tập dữ liệu có thể rất lớn và việc xóa một vài hàng sẽ không ảnh hưởng lớn đến kết quả Thí dụTrả về Khung dữ liệu mới không có ô trống nhập gấu trúc dưới dạng pd df = pd. read_csv('dữ liệu. csv') new_df = df. dropna() in (new_df. to_string()) Tự mình thử »Ghi chú. Theo mặc định, phương thức Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 220 trả về một DataFrame mới và sẽ không thay đổi khung gốc Nếu bạn muốn thay đổi DataFrame ban đầu, hãy sử dụng đối số Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 221 Thí dụXóa tất cả các hàng có giá trị NULL nhập gấu trúc dưới dạng pd df = pd. read_csv('dữ liệu. csv') df. dropna (tại chỗ = True) in (df. to_string()) Tự mình thử »Ghi chú. Bây giờ, Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 222 sẽ KHÔNG trả về Khung dữ liệu mới, nhưng nó sẽ xóa tất cả các hàng chứa giá trị NULL khỏi Khung dữ liệu ban đầu Thay thế các giá trị rỗngMột cách khác để xử lý các ô trống là thay vào đó hãy chèn một giá trị mới Bằng cách này, bạn không phải xóa toàn bộ hàng chỉ vì một số ô trống Phương thức Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 223 cho phép chúng ta thay thế các ô trống bằng một giá trị Thí dụThay giá trị NULL bằng số 130 nhập gấu trúc dưới dạng pd df = pd. read_csv('dữ liệu. csv') df. fillna(130, tại chỗ = True) Tự mình thử »Chỉ thay thế cho các cột được chỉ địnhVí dụ trên thay thế tất cả các ô trống trong toàn bộ Khung dữ liệu Để chỉ thay thế các giá trị trống cho một cột, hãy chỉ định tên cột cho DataFrame Thí dụThay thế giá trị NULL trong cột "Calo" bằng số 130 nhập gấu trúc dưới dạng pd df = pd. read_csv('dữ liệu. csv') df["Calo"]. fillna(130, tại chỗ = True) Tự mình thử »Thay thế bằng Mean, Median hoặc ModeMột cách phổ biến để thay thế các ô trống, là tính giá trị trung bình, trung bình hoặc chế độ của cột Pandas sử dụng các phương pháp Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 224 Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 225 và Name Score Age 0 Linda 60 18 1 Tommy NaN 19 2 Justin 50 NaN 3 Gary 70 20 4 NaN 80 226 để tính các giá trị tương ứng cho một cột được chỉ định Làm cách nào để chuyển đổi trống thành null trong gấu trúc?Nhận xét của bạn về câu trả lời này. . Đối với một cột sử dụng gấu trúc. df['Cột khung dữ liệu'] = df['Cột khung dữ liệu']. điền(0) Đối với một cột sử dụng numpy. df['Cột khung dữ liệu'] = df['Cột khung dữ liệu']. thay thế (np. nan, 0) Đối với toàn bộ DataFrame sử dụng gấu trúc. df. điền(0) Đối với toàn bộ DataFrame bằng cách sử dụng numpy. df. thay thế (np Làm cách nào để thay thế chuỗi rỗng trong gấu trúc?Thay thế NaN bằng Chuỗi rỗng sử dụng hàm thay thế()
. df. hàm thay thế() . Hàm này sẽ thay thế một chuỗi rỗng thay cho giá trị NaN.
Làm cách nào để thay thế các giá trị trống bằng NaN trong gấu trúc?Gấu trúc thay thế giá trị trống bằng NaN sử dụng mặt nạ()
. các phương thức mặt nạ (). Phương thức mask() thay thế các giá trị của các hàng mà điều kiện đánh giá là True. Sản lượng dưới sản lượng.
NaN có bằng null trong gấu trúc không?Trong pandas, một giá trị còn thiếu được biểu thị bằng NaN. Trong hầu hết các trường hợp, các thuật ngữ thiếu và không có thể hoán đổi cho nhau , nhưng để tuân thủ các tiêu chuẩn của gấu trúc, chúng ta sẽ tiếp tục sử dụng từ thiếu trong suốt hướng dẫn này. |