Điền các giá trị còn thiếu với Pandas trung bình

Đây là một quy trình khá bắt buộc để sửa đổi dữ liệu chúng tôi có vì máy tính sẽ hiển thị cho bạn lỗi đầu vào không hợp lệ vì không thể xử lý dữ liệu có 'NaN' với nó và thực tế không thể thay đổi thủ công ' . Do đó, để giải quyết vấn đề này, chúng tôi xử lý dữ liệu và sử dụng các chức năng khác nhau để loại bỏ 'NaN' khỏi dữ liệu của chúng tôi và thay thế bằng giá trị trung bình cụ thể và sẵn sàng được xử lý bởi hệ thống

Chủ yếu có hai bước để xóa 'NaN' khỏi dữ liệu-

  1. Sử dụng Dataframe. fillna()  từ thư viện của gấu trúc
  2. Sử dụng  SimpleImputer từ sklearn. tính (điều này chỉ hữu ích nếu dữ liệu có ở dạng tệp csv)

Sử dụng Dataframe. fillna()  từ thư viện của gấu trúc

Với sự trợ giúp của Dataframe. fillna()  từ thư viện của gấu trúc, chúng ta có thể dễ dàng thay thế 'NaN' trong khung dữ liệu.  

Thủ tục

  1. Để tính giá trị trung bình (), chúng tôi sử dụng hàm trung bình của cột cụ thể
  2. Bây giờ với sự trợ giúp của hàm fillna(), chúng tôi sẽ thay đổi tất cả 'NaN' của cột cụ thể mà chúng tôi có ý nghĩa
  3. Chúng tôi sẽ in cột cập nhật

cú pháp. df. fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

Tham số

  • giá trị. Giá trị sử dụng để lấp lỗ
  • phương pháp. Phương pháp sử dụng để lấp đầy các lỗ trong phần đệm / điền Sê-ri được lập chỉ mục lại
  • trục. {0 hoặc 'chỉ mục'}
  • thay thế. Nếu Đúng, hãy điền vào chỗ
  • giới hạn. Nếu phương thức được chỉ định, đây là số lượng giá trị NaN liên tiếp tối đa để điền tiến/lùi
  • chán nản. dict, mặc định là Không có

ví dụ 1

  1. Để tính giá trị trung bình (), chúng tôi sử dụng hàm trung bình của cột cụ thể
  2. Sau đó, áp dụng hàm fillna(), chúng tôi sẽ thay đổi tất cả 'NaN' của cột cụ thể mà chúng tôi có ý nghĩa của nó và in khung dữ liệu được cập nhật

Python3




import numpy as np

import pandas as pd

 

# A dictionary with list as values

GFG_dict= {___'G1'numpy as np0_______1_______1numpy as np2numpy as np3numpy as np2numpy as np5numpy as np2numpy as np7numpy as np8

numpy as np9import0_______1_______0_______0_______2_______0_______3import4numpy as np8

numpy as np9import7numpy as np0_______0_______9numpy as np2pandas as pd1numpy as np2pandas as pd3numpy as np2pandas as pd5numpy as np8

numpy as np9pandas as pd8numpy as np0_______4_______0numpy as np2 2numpy as np2 4numpy as np2import2 7

 

 9

# A dictionary with list as values0= # A dictionary with list as values2

 

# A dictionary with list as values4

# A dictionary with list as values5_______7__________# A dictionary with list as values7import0_______5_______9

 

GFG_dict1

GFG_dict2

# A dictionary with list as values7import0_______6_______5_______7_______GFG_dict7=6_______9=0

=1_______7_______2=3=0

=1=6

đầu ra

ví dụ 2

Python3




import pandas as pd

import numpy as np

 

{2= {4

{5{6numpy as np0_______1_______1_______8_______9numpy as np3numpy as np2numpy as np5_______8_______9'G1'4{9

'G1'6'G1'7numpy as np2_______9_______9_______1_______2numpy as np01{9numpy as np03_______1_______8

numpy as np05

{5numpy as np07numpy as np0numpy as np1_______1_______2numpy as np3{9pandas as pd5numpy as np2numpy as np15{9

numpy as np17_______1_______18numpy as np2pandas as pd1_______8_______9import2numpy as np2numpy as np24numpy as np2numpy as np26numpy as np8

numpy as np05

{5numpy as np30numpy as np0numpy as np32numpy as np2numpy as np34{9

numpy as np17_______1_______37numpy as np2numpy as np34numpy as np2numpy as np41numpy as np42

numpy as np17_______1_______34numpy as np2numpy as np46numpy as np2numpy as np46numpy as np2

numpy as np17_______1_______51numpy as np2numpy as np37numpy as np2numpy as np55numpy as np8

numpy as np57

 

numpy as np59numpy as np07numpy as np61numpy as np62numpy as np63numpy as np07numpy as np65=GFG_dict9=0

=1______1_______70

đầu ra

 

Sử dụng  SimpleImputer() từ sklearn. quy tội

Chức năng này Biến thế quy nạp để hoàn thành các giá trị còn thiếu cung cấp các chiến lược cơ bản để quy các giá trị còn thiếu. Các giá trị này có thể được gán bằng một giá trị không đổi được cung cấp hoặc sử dụng số liệu thống kê (trung bình, trung bình hoặc thường xuyên nhất) của mỗi cột chứa các giá trị bị thiếu. Lớp này cũng cho phép mã hóa giá trị bị thiếu khác nhau

cú pháp. lớp học. quy tội. SimpleImputer(*, missing_values=nan, Strategy=’mean’, fill_value=None, verbose=0, copy=True, add_indicator=False)

Làm cách nào để điền các giá trị còn thiếu bằng trung vị trong gấu trúc?

Sử dụng Phương thức fillna() . Đây có thể là giá trị trung bình, trung bình, phương thức hoặc bất kỳ giá trị nào khác.

Tôi nên điền NA với giá trị trung bình hay trung bình?

Tốt hơn nên sử dụng giá trị trung bình để quy kết trong trường hợp có giá trị ngoại lai . Bạn có thể sử dụng phương pháp 'fillna' để tính cột 'Khoản_Khoản_Khoản_Khoản' với giá trị trung bình. Trong một số trường hợp, việc gán các giá trị bằng giá trị trước đó thay vì giá trị trung bình, chế độ hoặc trung vị sẽ phù hợp hơn. Điều này được gọi là chuyển tiếp điền.

Làm cách nào để điền các giá trị còn thiếu bằng NaN trong gấu trúc?

Bạn có thể thay thế giá trị còn thiếu ( NaN ) trong pandas. DataFrame và Sê-ri với bất kỳ giá trị nào bằng cách sử dụng phương thức fillna() .

Làm cách nào để thay thế giá trị null bằng giá trị trung bình trong gấu trúc?

Điều này có thể được thực hiện bằng cách sử dụng phương thức fillna() . Hoạt động cơ bản của loạt gấu trúc này. Phương thức fillna() được sử dụng để thay thế các giá trị bị thiếu (Nan hoặc NA) bằng một giá trị được chỉ định. Ban đầu, phương thức xác minh tất cả các giá trị Nan và thay thế chúng bằng giá trị thay thế được chỉ định.