Hướng dẫn data-cleaning in python github - làm sạch dữ liệu trong python github

Permalink

bậc thầy

Chuyển nhánh/thẻ

Không thể tải các nhánh

Không có gì để hiển thị

{{refname}}

Tên đã được sử dụng

Một thẻ đã tồn tại với tên chi nhánh được cung cấp. Nhiều lệnh GIT chấp nhận cả tên thẻ và tên chi nhánh, vì vậy việc tạo nhánh này có thể gây ra hành vi bất ngờ. Bạn có chắc là bạn muốn tạo chi nhánh này?

Đi nộp

  • Đi nộp
  • Sao chép đường dẫn
  • Sao chép permalink

Không thể lấy lại những người đóng góp tại thời điểm này

2724 dòng (2724 SLOC) 107 KB 107 KB

Đổ lỗi

Mở trong máy tính để bàn GitHub

  • Mở với máy tính để bàn
  • Xem thô
  • Xem đổ lỗi

Xin lỗi, có lỗi xảy ra. Tải lại?

Xin lỗi, chúng tôi không thể hiển thị tệp này.

Xin lỗi, tệp này không hợp lệ nên nó không thể được hiển thị.

Làm sạch dữ liệu.

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách xóa hoặc sửa đổi dữ liệu không chính xác, không đầy đủ, không liên quan, nhân đôi hoặc được định dạng không đúng.

Làm sạch dữ liệu là một trong những điều mà mọi người làm nhưng không ai thực sự nói về. Chắc chắn, nó không phải là phần "quyến rũ nhất" của học máy. Và không, có những thủ thuật và bí mật ẩn giấu để khám phá.

Các loại lỗi

1). Thiếu giá trị 2). Giá trị xấu 3). Sao chép

Đã thêm việc làm sạch dữ liệu bằng thư viện Python/ Pandas (2 tháng 10 năm 2019) bằng cách sử dụng dữ liệu thuộc tính.CSV.

Bộ dữ liệu nhỏ so với tập dữ liệu mô hình máy dữ liệu thực. Tôi giữ nó đơn giản để giảm bớt mã hóa.

Các chức năng hữu ích

Tải thư viện

import pandas as  pd 
import numpy as np 
import matplotlib.pyplot as plt
imort seabrom as sns 
%matplotlib inline 
%load_ext autoreload
%autoreload 2

Tải bộ dữ liệu với gấu trúc

#csv file, we will use the property data.csv file
data = pd.read_csv("property data.csv")

#loading excel
data_from_excel = pd.read_xlxs("  path to your file ") 

#Loading a json file 
data_from_excel = pd.read_json ("Path where you saved the JSON file")

Xem dữ liệu

#Viewing the first 5 rows
data.head()

#viewing the last 5 rows
data.tail()

Kiểm tra bộ dữ liệu

#Dataset shape
data.shape

#Dataset basic analysis
data.describe()

Loại bỏ Nan, N/A & NA

Hãy nhớ thư viện Python Pandas chỉ nhận ra NaN là giá trị bị thiếu để nó sẽ bỏ qua bất kỳ máy ghi giá trị bị thiếu nào với NA hoặc N/A, các bước bên dưới giúp chúng tôi giải quyết vấn đề đó

#Define a list to hold all representation of missing values 

missing_values = [ np.nan, 'N/A', 'na'] 

data = pd.read_csv("sample_data.csv", missing_values")

Kiểm tra bất kỳ giá trị bị thiếu:

Bạn có thể sử dụng các cách khác nhau để Chech cho giá trị thiếu

data.isnull()
#or
data.isnull().sum() 
#or 
data.isnull().any()

Hình dung giá trị còn thiếu với Seaborn

sns.headmap(isnull(), yticklabels=False annot=True)

Xóa các giá trị bị thiếu khỏi tập dữ liệu:

 df=df.dropna(axis=0, how='any')

Làm thế nào được sử dụng để hướng dẫn nên loại bỏ mức thấp nào, đó là khi được thiết lập cho tất cả mọi người, nó sẽ giảm một hàng nếu tất cả các giá trị bị thiếu.

Điền vào các giá trị bị thiếu:

#Forward fill, fills the missing value with the values above it.

data.fillna(method="ffill") 

#Back fill, fills the missing value with the values below it.

data.fillna(method="bfill") 
 
#Interploation finds the average for the above and below value and uses the value to fill the missing value

data.interpolate()

Điền vào các giá trị bị thiếu bằng một giá trị biết cụ thể:

data.fillna({
 'Column_to_substitute' : TheValue
 })


Lưu ý rằng khi cột hoặc hàng có 80%+ các giá trị bị thiếu, cách đơn giản nhất và tốt nhất để điều trị là bằng cách thả hàng/cột

Xem cột

Trong gấu trúc, chúng tôi sử dụng mã bên dưới để xem tất cả các cột trong bộ dữ liệu của chúng tôi

#csv file, we will use the property data.csv file
data = pd.read_csv("property data.csv")

#loading excel
data_from_excel = pd.read_xlxs("  path to your file ") 

#Loading a json file 
data_from_excel = pd.read_json ("Path where you saved the JSON file")
0

Thay đổi vỏ chữ cái của cột của chúng tôi

#csv file, we will use the property data.csv file
data = pd.read_csv("property data.csv")

#loading excel
data_from_excel = pd.read_xlxs("  path to your file ") 

#Loading a json file 
data_from_excel = pd.read_json ("Path where you saved the JSON file")
1

Remaning các cột

Ví dụ khi tôi có một cột gọi là thời lượng mà tôi muốn đặt tên theo thời gian, tôi sẽ sử dụng các đoạn trích bên dưới

#csv file, we will use the property data.csv file
data = pd.read_csv("property data.csv")

#loading excel
data_from_excel = pd.read_xlxs("  path to your file ") 

#Loading a json file 
data_from_excel = pd.read_json ("Path where you saved the JSON file")
2

Nhận các đoạn trích mới nhất: https://colab.research.google.com/drive/18pybchhtqkjbgcyf2qm0-m0_pa6dfuso#scrollto=h5rhxt3x4a6y