Permalink bậc thầy Chuyển nhánh/thẻ
Không thể tải các nhánh Không có gì để hiển thị {{refname}}
Tên đã được sử dụngMột thẻ đã tồn tại với tên chi nhánh được cung cấp. Nhiều lệnh GIT chấp nhận cả tên thẻ và tên chi nhánh, vì vậy việc tạo nhánh này có thể gây ra hành vi bất ngờ. Bạn có chắc là bạn muốn tạo chi nhánh này? Đi nộp
Không thể lấy lại những người đóng góp tại thời điểm này 2724 dòng (2724 SLOC) 107 KB 107 KB Đổ lỗi Mở trong máy tính để bàn GitHub
Xin lỗi, có lỗi xảy ra. Tải lại? Xin lỗi, chúng tôi không thể hiển thị tệp này. Xin lỗi, tệp này không hợp lệ nên nó không thể được hiển thị. Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách xóa hoặc sửa đổi dữ liệu không chính xác, không đầy đủ, không liên quan, nhân đôi hoặc được định dạng không đúng. Làm sạch dữ liệu là một trong những điều mà mọi người làm nhưng không ai thực sự nói về. Chắc chắn, nó không phải là phần "quyến rũ nhất" của học máy. Và không, có những thủ thuật và bí mật ẩn giấu để khám phá. 1). Thiếu giá trị 2). Giá trị xấu 3). Sao chép Đã thêm việc làm sạch dữ liệu bằng thư viện Python/ Pandas (2 tháng 10 năm 2019) bằng cách sử dụng dữ liệu thuộc tính.CSV. Bộ dữ liệu nhỏ so với tập dữ liệu mô hình máy dữ liệu thực. Tôi giữ nó đơn giản để giảm bớt mã hóa. Tải bộ dữ liệu với gấu trúc#csv file, we will use the property data.csv file data = pd.read_csv("property data.csv") #loading excel data_from_excel = pd.read_xlxs(" path to your file ") #Loading a json file data_from_excel = pd.read_json ("Path where you saved the JSON file") Xem dữ liệu#Viewing the first 5 rows data.head() #viewing the last 5 rows data.tail() Kiểm tra bộ dữ liệu#Dataset shape data.shape #Dataset basic analysis data.describe() Loại bỏ Nan, N/A & NAHãy nhớ thư viện Python Pandas chỉ nhận ra NaN là giá trị bị thiếu để nó sẽ bỏ qua bất kỳ máy ghi giá trị bị thiếu nào với NA hoặc N/A, các bước bên dưới giúp chúng tôi giải quyết vấn đề đó #Define a list to hold all representation of missing values missing_values = [ np.nan, 'N/A', 'na'] data = pd.read_csv("sample_data.csv", missing_values") Kiểm tra bất kỳ giá trị bị thiếu:Bạn có thể sử dụng các cách khác nhau để Chech cho giá trị thiếu data.isnull() #or data.isnull().sum() #or data.isnull().any() Hình dung giá trị còn thiếu với Seabornsns.headmap(isnull(), yticklabels=False annot=True) Xóa các giá trị bị thiếu khỏi tập dữ liệu:df=df.dropna(axis=0, how='any') Làm thế nào được sử dụng để hướng dẫn nên loại bỏ mức thấp nào, đó là khi được thiết lập cho tất cả mọi người, nó sẽ giảm một hàng nếu tất cả các giá trị bị thiếu. Điền vào các giá trị bị thiếu:#Forward fill, fills the missing value with the values above it. data.fillna(method="ffill") #Back fill, fills the missing value with the values below it. data.fillna(method="bfill") #Interploation finds the average for the above and below value and uses the value to fill the missing value data.interpolate() Điền vào các giá trị bị thiếu bằng một giá trị biết cụ thể:data.fillna({ 'Column_to_substitute' : TheValue }) Lưu ý rằng khi cột hoặc hàng có 80%+ các giá trị bị thiếu, cách đơn giản nhất và tốt nhất để điều trị là bằng cách thả hàng/cột Xem cộtTrong gấu trúc, chúng tôi sử dụng mã bên dưới để xem tất cả các cột trong bộ dữ liệu của chúng tôi #csv file, we will use the property data.csv file data = pd.read_csv("property data.csv") #loading excel data_from_excel = pd.read_xlxs(" path to your file ") #Loading a json file data_from_excel = pd.read_json ("Path where you saved the JSON file")0 Thay đổi vỏ chữ cái của cột của chúng tôi#csv file, we will use the property data.csv file data = pd.read_csv("property data.csv") #loading excel data_from_excel = pd.read_xlxs(" path to your file ") #Loading a json file data_from_excel = pd.read_json ("Path where you saved the JSON file")1 Remaning các cộtVí dụ khi tôi có một cột gọi là thời lượng mà tôi muốn đặt tên theo thời gian, tôi sẽ sử dụng các đoạn trích bên dưới #csv file, we will use the property data.csv file data = pd.read_csv("property data.csv") #loading excel data_from_excel = pd.read_xlxs(" path to your file ") #Loading a json file data_from_excel = pd.read_json ("Path where you saved the JSON file")2 Nhận các đoạn trích mới nhất: https://colab.research.google.com/drive/18pybchhtqkjbgcyf2qm0-m0_pa6dfuso#scrollto=h5rhxt3x4a6y |