Chuyển đổi chuỗi rỗng thành null python pandas

Một phần quan trọng của quá trình phân tích dữ liệu là loại bỏ các giá trị NAN. Trong bài viết này, cách thay thế giá trị NAN trong một cột hoặc nhiều cột bằng một chuỗi rỗng. Bắt đầu nào

Cũng đọc. Hiểu NaN trong Numpy và Pandas

Chúng tôi sẽ bắt đầu bằng cách tạo DataFrame. Hãy tạo một DataFrame với dữ liệu về điểm số của các sinh viên trong các môn học khác nhau. Các cột là “Tên”, “Điểm số” và “Tuổi. ”

import pandas as pd
import numpy as np
scoresheet = {
    'Name' :['Linda','Tommy','Justin','Gary',np.nan],
    'Score':['60',np.nan,'50','70','80'],
    'Age':['18','19',np.nan,'20','22'],
              }
df = pd.DataFrame(scoresheet)
print(df)

đầu ra

     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22

4 Phương pháp thay thế NAN bằng chuỗi rỗng

Bây giờ chúng ta hãy tìm hiểu cách thay thế các giá trị NaN bằng các chuỗi trống trên toàn bộ khung dữ liệu trong Pandas

1. sử dụng df. thay thế (np. nan,’  ‘, regex=true)

Phương pháp này được sử dụng để thay thế tất cả các giá trị NAN trong DataFrame bằng một chuỗi rỗng

df2 = df.replace(np.nan, '', regex=True)
print(df2)

đầu ra

     Name       Score     Age
0   Linda         60          18
1   Tommy                     19
2  Justin          50    
3    Gary         70            20
4                    80            22

2. Sử dụng df [[‘column1′,’column2’]] = df [[‘column1′,’column2’]]. phương thức fillna(”)

Trong phương pháp này, chúng tôi sẽ chỉ thay thế các giá trị NAN trong các cột được chỉ định

df2 = df[['Age','Score' ]] = df[['Age','Score' ]].fillna('')
print(df2)

đầu ra

 Age Score
0  18    60
1  19      
2          50
3  20    70
4  22    80

3. Sử dụng phương thức fillna()

Phương thức fillna() có thể được sử dụng để thay thế tất cả các giá trị NAN trong DataFrame

df2 = df.fillna("")
print(df2)

đầu ra

     Name      Score    Age
0   Linda        60         18
1   Tommy                   19
2  Justin         50    
3    Gary         70         20
4                    80          22

4. Sử dụng phương thức fillna() trên một cột cụ thể

Trong phương pháp này, chúng ta sẽ sử dụng phương thức fillna() cho một cột cụ thể trong DataFrame

________số 8

đầu ra

0    18
1    19
2      
3    20
4    22
Name: Age, dtype: object

Sự kết luận

Tóm lại, chúng tôi đã xem xét các phương pháp khác nhau để điền giá trị NAN vào DataFrame bằng một chuỗi trống. Đây là một bước rất quan trọng trong phân tích dữ liệu và bạn cần biết cách loại bỏ các giá trị NAN

Điều này thường không sao, vì tập dữ liệu có thể rất lớn và việc xóa một vài hàng sẽ không ảnh hưởng lớn đến kết quả

Thí dụ

Trả về Khung dữ liệu mới không có ô trống

nhập gấu trúc dưới dạng pd

df = pd. read_csv('dữ liệu. csv')

new_df = df. dropna()

in (new_df. to_string())

Tự mình thử »

Ghi chú. Theo mặc định, phương thức

     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22
0 trả về một DataFrame mới và sẽ không thay đổi khung gốc

Nếu bạn muốn thay đổi DataFrame ban đầu, hãy sử dụng đối số

     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22
1

Thí dụ

Xóa tất cả các hàng có giá trị NULL

nhập gấu trúc dưới dạng pd

df = pd. read_csv('dữ liệu. csv')

df. dropna (tại chỗ = True)

in (df. to_string())

Tự mình thử »

Ghi chú. Bây giờ,

     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22
2 sẽ KHÔNG trả về Khung dữ liệu mới, nhưng nó sẽ xóa tất cả các hàng chứa giá trị NULL khỏi Khung dữ liệu ban đầu


Thay thế các giá trị rỗng

Một cách khác để xử lý các ô trống là thay vào đó hãy chèn một giá trị mới

Bằng cách này, bạn không phải xóa toàn bộ hàng chỉ vì một số ô trống

Phương thức

     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22
3 cho phép chúng ta thay thế các ô trống bằng một giá trị

Thí dụ

Thay giá trị NULL bằng số 130

nhập gấu trúc dưới dạng pd

df = pd. read_csv('dữ liệu. csv')

df. fillna(130, tại chỗ = True)

Tự mình thử »

Chỉ thay thế cho các cột được chỉ định

Ví dụ trên thay thế tất cả các ô trống trong toàn bộ Khung dữ liệu

Để chỉ thay thế các giá trị trống cho một cột, hãy chỉ định tên cột cho DataFrame

Thí dụ

Thay thế giá trị NULL trong cột "Calo" bằng số 130

nhập gấu trúc dưới dạng pd

df = pd. read_csv('dữ liệu. csv')

df["Calo"]. fillna(130, tại chỗ = True)

Tự mình thử »



Thay thế bằng Mean, Median hoặc Mode

Một cách phổ biến để thay thế các ô trống, là tính giá trị trung bình, trung bình hoặc chế độ của cột

Pandas sử dụng các phương pháp

     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22
4
     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22
5 và
     Name     Score      Age
0   Linda    60            18
1   Tommy NaN        19
2  Justin    50           NaN
3    Gary    70           20
4     NaN    80           22
6 để tính các giá trị tương ứng cho một cột được chỉ định

Làm cách nào để chuyển đổi trống thành null trong gấu trúc?

Nhận xét của bạn về câu trả lời này. .
Đối với một cột sử dụng gấu trúc. df['Cột khung dữ liệu'] = df['Cột khung dữ liệu']. điền(0)
Đối với một cột sử dụng numpy. df['Cột khung dữ liệu'] = df['Cột khung dữ liệu']. thay thế (np. nan, 0)
Đối với toàn bộ DataFrame sử dụng gấu trúc. df. điền(0)
Đối với toàn bộ DataFrame bằng cách sử dụng numpy. df. thay thế (np

Làm cách nào để thay thế chuỗi rỗng trong gấu trúc?

Thay thế NaN bằng Chuỗi rỗng sử dụng hàm thay thế() . df. hàm thay thế() . Hàm này sẽ thay thế một chuỗi rỗng thay cho giá trị NaN.

Làm cách nào để thay thế các giá trị trống bằng NaN trong gấu trúc?

Gấu trúc thay thế giá trị trống bằng NaN sử dụng mặt nạ() . các phương thức mặt nạ (). Phương thức mask() thay thế các giá trị của các hàng mà điều kiện đánh giá là True. Sản lượng dưới sản lượng.

NaN có bằng null trong gấu trúc không?

Trong pandas, một giá trị còn thiếu được biểu thị bằng NaN. Trong hầu hết các trường hợp, các thuật ngữ thiếu và không có thể hoán đổi cho nhau , nhưng để tuân thủ các tiêu chuẩn của gấu trúc, chúng ta sẽ tiếp tục sử dụng từ thiếu trong suốt hướng dẫn này.