Hướng dẫn python data cleaning examples - ví dụ về làm sạch dữ liệu python

Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: Làm sạch dữ liệu bằng gấu trúc và Numpy This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Data Cleaning With pandas and NumPy


Nội phân Chính showShow

  • Các cột rơi trong một khung dữ liệu
  • Thay đổi chỉ mục của một khung dữ liệu
  • Dọn dẹp các trường trong dữ liệu
  • Kết hợp các phương pháp STR với các cột Numpy để làm sạch
  • Làm sạch toàn bộ bộ dữ liệu bằng chức năng applicationMap
  • Đổi tên các cột và bỏ qua hàng
  • Làm sạch dữ liệu Python: Tóm tắt và tài nguyên

Các nhà khoa học dữ liệu dành một lượng lớn thời gian của họ để làm sạch các bộ dữ liệu và đưa chúng xuống một hình thức mà họ có thể làm việc. Trên thực tế, rất nhiều nhà khoa học dữ liệu cho rằng các bước ban đầu để thu thập và làm sạch dữ liệu chiếm 80% công việc.

Do đó, nếu bạn chỉ bước vào lĩnh vực này hoặc lên kế hoạch bước vào lĩnh vực này, điều quan trọng là có thể đối phó với dữ liệu lộn xộn, cho dù điều đó có nghĩa là các giá trị bị thiếu, định dạng không nhất quán, hồ sơ không phù hợp hoặc các ngoại lệ vô nghĩa.

Trong hướng dẫn này, chúng tôi sẽ tận dụng các thư viện Python và các thư viện Numpy để làm sạch dữ liệu.

Chúng tôi sẽ bao gồm những điều sau đây:

  • Thả các cột không cần thiết trong một
  • Thay đổi chỉ số của một
  • Sử dụng các phương thức
    6 để làm sạch các cột
  • Sử dụng chức năng
    7 để làm sạch toàn bộ bộ dữ liệu, yếu tố khôn ngoan
  • Đổi tên các cột thành một bộ nhãn dễ nhận biết hơn
  • Bỏ qua các hàng không cần thiết trong tệp CSV

Dưới đây là các bộ dữ liệu mà chúng tôi sẽ sử dụng:

  • BL-flickr-Images-Book.csv-Tệp CSV chứa thông tin về sách từ Thư viện Anh
  • Đại học_towns.txt - một tập tin văn bản chứa tên của các thị trấn đại học ở mọi tiểu bang Hoa Kỳ
  • Thế vận hội.CSV - Tệp CSV tóm tắt sự tham gia của tất cả các quốc gia trong Thế vận hội mùa hè và mùa đông

Bạn có thể tải xuống các bộ dữ liệu từ kho lưu trữ GitHub thực sự Python để tuân theo các ví dụ ở đây.

Hướng dẫn này giả định một sự hiểu biết cơ bản về các thư viện gấu trúc và numpy, bao gồm các đối tượng Panda, công việc

8 và
4, các phương pháp phổ biến có thể được áp dụng cho các đối tượng này và làm quen với các giá trị Numpy.

Hãy để nhập khẩu các mô -đun cần thiết và bắt đầu!


>>> import pandas as pd
>>> import numpy as np

Các cột rơi trong một khung dữ liệu

Thông thường, bạn sẽ thấy rằng không phải tất cả các danh mục dữ liệu trong bộ dữ liệu đều hữu ích cho bạn. Ví dụ: bạn có thể có một bộ dữ liệu có chứa thông tin học sinh (tên, lớp, tiêu chuẩn, tên của phụ huynh và địa chỉ) nhưng muốn tập trung vào việc phân tích các lớp học sinh.

Trong trường hợp này, các danh mục tên địa chỉ hoặc cha mẹ không quan trọng đối với bạn. Việc giữ lại các danh mục không cần thiết này sẽ chiếm không gian không cần thiết và có khả năng cũng không hoạt động.

Pandas cung cấp một cách tiện dụng để loại bỏ các cột hoặc hàng không mong muốn từ

Đầu tiên, hãy để Lôi tạo một

4 trong tệp CSV ‘bl-flickr-ifages-book.csv. Trong các ví dụ dưới đây, chúng tôi chuyển một đường dẫn tương đối đến
>>> df.drop(columns=to_drop, inplace=True)
5, có nghĩa là tất cả các bộ dữ liệu đều nằm trong một thư mục có tên
>>> df.drop(columns=to_drop, inplace=True)
6 trong thư mục làm việc hiện tại của chúng tôi:


Thông thường, bạn sẽ thấy rằng không phải tất cả các danh mục dữ liệu trong bộ dữ liệu đều hữu ích cho bạn. Ví dụ: bạn có thể có một bộ dữ liệu có chứa thông tin học sinh (tên, lớp, tiêu chuẩn, tên của phụ huynh và địa chỉ) nhưng muốn tập trung vào việc phân tích các lớp học sinh.

>>> to_drop = ['Edition Statement',
...            'Corporate Author',
...            'Corporate Contributors',
...            'Former owner',
...            'Engraver',
...            'Contributors',
...            'Issuance type',
...            'Shelfmarks']

>>> df.drop(to_drop, inplace=True, axis=1)

>>> df.head()
   Identifier      Place of Publication Date of Publication  \
0         206                    London         1879 [1878]
1         216  London; Virtue & Yorston                1868
2         218                    London                1869
3         472                    London                1851
4         480                    London                1857

               Publisher                                              Title  \
0       S. Tinsley & Co.                  Walter Forbes. [A novel.] By A. A
1           Virtue & Co.  All for Greed. [A novel. The dedication signed...
2  Bradbury, Evans & Co.  Love the Avenger. By the author of “All for Gr...
3          James Darling  Welsh Sketches, chiefly ecclesiastical, to the...
4   Wertheim & Macintosh  [The World in which I live, and my place in it...

      Author                                         Flickr URL
0      A. A.  http://www.flickr.com/photos/britishlibrary/ta...
1  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
2  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
3  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...
4  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...

>>> df.drop(columns=to_drop, inplace=True)

Thay đổi chỉ mục của một khung dữ liệu

Pandas cung cấp một cách tiện dụng để loại bỏ các cột hoặc hàng không mong muốn từ

>>> df['Identifier'].is_unique

Hãy để thay thế chỉ mục hiện có bằng cột này bằng cách sử dụng

>>> df = df.set_index('Identifier')
>>> df.head()
                Place of Publication Date of Publication  \
206                           London         1879 [1878]
216         London; Virtue & Yorston                1868
218                           London                1869
472                           London                1851
480                           London                1857

                        Publisher  \
206              S. Tinsley & Co.
216                  Virtue & Co.
218         Bradbury, Evans & Co.
472                 James Darling
480          Wertheim & Macintosh

                                                        Title     Author  \
206                         Walter Forbes. [A novel.] By A. A      A. A.
216         All for Greed. [A novel. The dedication signed...  A., A. A.
218         Love the Avenger. By the author of “All for Gr...  A., A. A.
472         Welsh Sketches, chiefly ecclesiastical, to the...  A., E. S.
480         [The World in which I live, and my place in it...  A., E. S.

                                                   Flickr URL
206         http://www.flickr.com/photos/britishlibrary/ta...
216         http://www.flickr.com/photos/britishlibrary/ta...
218         http://www.flickr.com/photos/britishlibrary/ta...
472         http://www.flickr.com/photos/britishlibrary/ta...
480         http://www.flickr.com/photos/britishlibrary/ta...


Chúng ta có thể truy cập từng bản ghi một cách đơn giản với

5 có thể không có tất cả những cái tên trực quan, nhưng nó cho phép chúng tôi thực hiện lập chỉ mục dựa trên nhãn, đó là ghi nhãn của một hàng hoặc bản ghi mà không liên quan đến vị trí của nó:


>>> df.loc[206]
Place of Publication                                               London
Date of Publication                                           1879 [1878]
Publisher                                                S. Tinsley & Co.
Title                                   Walter Forbes. [A novel.] By A. A
Author                                                              A. A.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object

Nói cách khác, 206 là nhãn đầu tiên của chỉ mục. Để truy cập nó theo vị trí, chúng tôi có thể sử dụng

7, chỉ lập chỉ mục dựa trên vị trí.

Trước đây, chỉ mục của chúng tôi là một phạm vi Index: các số nguyên bắt đầu từ

9. Bằng cách chuyển một tên cột cho
Bạn có thể nhận thấy rằng chúng tôi đã chỉ định lại biến cho đối tượng được trả về bằng phương thức với

2. Điều này là do, theo mặc định, phương thức trả về một bản sao đã sửa đổi của đối tượng của chúng tôi và không thực hiện các thay đổi trực tiếp cho đối tượng. Chúng ta có thể tránh điều này bằng cách đặt tham số
>>> df['Identifier'].is_unique

df.set_index('Identifier', inplace=True)

Dọn dẹp các trường trong dữ liệu

Cho đến nay, chúng tôi đã loại bỏ các cột không cần thiết và thay đổi chỉ số của

>>> df.head()
4 của chúng tôi thành một cái gì đó hợp lý hơn. Trong phần này, chúng tôi sẽ làm sạch các cột cụ thể và đưa chúng đến một định dạng thống nhất để hiểu rõ hơn về bộ dữ liệu và thực thi tính nhất quán. Cụ thể, chúng tôi sẽ làm sạch
5 và
Sau khi kiểm tra, tất cả các loại dữ liệu hiện là DTYPE

7, tương tự như
8 trong Python bản địa.

Nó gói gọn bất kỳ trường nào có thể phù hợp gọn gàng như dữ liệu bằng số hoặc phân loại. Điều này có ý nghĩa vì chúng tôi làm việc với dữ liệu ban đầu là một loạt các chuỗi lộn xộn:


>>> df.get_dtype_counts()
object    6

Một lĩnh vực có ý nghĩa khi thực thi giá trị số là ngày xuất bản để chúng ta có thể tính toán xuống đường:


Một cuốn sách cụ thể chỉ có thể có một ngày xuất bản. Do đó, chúng ta cần phải làm như sau:

  • Xóa các ngày bổ sung trong ngoặc vuông, bất cứ nơi nào hiện tại: 1879 [1878]
  • Chuyển đổi phạm vi ngày thành ngày bắt đầu của họ, bất cứ nơi nào hiện tại: 1860-63; 1839, 38-54
  • Loại bỏ hoàn toàn các ngày mà chúng tôi không chắc chắn và thay thế chúng bằng Numpy từ
    >>> df.drop(columns=to_drop, inplace=True)
    0: [1897?]
  • Chuyển đổi chuỗi
    df.set_index('Identifier', inplace=True)
    0 thành giá trị Numpy
    >>> df.drop(columns=to_drop, inplace=True)

Tổng hợp các mẫu, chúng ta thực sự có thể tận dụng một biểu thức chính quy duy nhất để trích xuất năm xuất bản:

Biểu thức thông thường ở trên có nghĩa là tìm thấy bất kỳ bốn chữ số nào ở đầu chuỗi, đủ cho trường hợp của chúng tôi. Trên đây là một chuỗi thô (có nghĩa là dấu gạch chéo ngược không còn là ký tự thoát), đó là cách thực hành tiêu chuẩn với các biểu thức thông thường.

df.set_index('Identifier', inplace=True)
2 đại diện cho bất kỳ chữ số nào và
df.set_index('Identifier', inplace=True)
3 lặp lại quy tắc này bốn lần. Nhân vật
df.set_index('Identifier', inplace=True)
4 phù hợp với sự khởi đầu của một chuỗi và dấu ngoặc đơn biểu thị một nhóm bắt giữ, báo hiệu cho gấu trúc mà chúng tôi muốn trích xuất phần đó của regex. (Chúng tôi muốn
df.set_index('Identifier', inplace=True)
4 để tránh các trường hợp
df.set_index('Identifier', inplace=True)
6 bắt đầu chuỗi.)

Hãy để xem những gì xảy ra khi chúng ta chạy Regex này trên bộ dữ liệu của chúng ta:


Về mặt kỹ thuật, cột này vẫn có

>>> df.loc[206]
Place of Publication                                               London
Date of Publication                                           1879 [1878]
Publisher                                                S. Tinsley & Co.
Title                                   Walter Forbes. [A novel.] By A. A
Author                                                              A. A.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object
7 DTYPE, nhưng chúng ta có thể dễ dàng nhận phiên bản số của nó với
df.set_index('Identifier', inplace=True)


Điều này dẫn đến khoảng một trong mười giá trị bị thiếu, đây là một mức giá nhỏ để trả cho việc có thể thực hiện tính toán trên các giá trị hợp lệ còn lại:


Tuyệt quá! Đã xong!

Kết hợp các phương pháp STR với các cột Numpy để làm sạch

Ở trên, bạn có thể nhận thấy việc sử dụng

df.set_index('Identifier', inplace=True)
9. Thuộc tính này là một cách để truy cập các hoạt động chuỗi nhanh trong các gấu trúc phần lớn bắt chước các hoạt động trên chuỗi python bản địa hoặc biên dịch các biểu thức chính quy, chẳng hạn như
>>> df.get_dtype_counts()
object    6
>>> df.get_dtype_counts()
object    6
1 và
>>> df.get_dtype_counts()
object    6

Để làm sạch trường

>>> df.loc[206]
Place of Publication                                               London
Date of Publication                                           1879 [1878]
Publisher                                                S. Tinsley & Co.
Title                                   Walter Forbes. [A novel.] By A. A
Author                                                              A. A.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object
6, chúng ta có thể kết hợp các phương pháp gấu trúc
>>> df.loc[206]
Place of Publication                                               London
Date of Publication                                           1879 [1878]
Publisher                                                S. Tinsley & Co.
Title                                   Walter Forbes. [A novel.] By A. A
Author                                                              A. A.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object
8 với chức năng Numpy tựa ____995, về cơ bản là một dạng vectơ của macro Excel tựa ____996. Nó có cú pháp sau:


Ở đây,

>>> df.get_dtype_counts()
object    6
7 là một đối tượng giống như mảng hoặc mặt nạ boolean.
>>> df.get_dtype_counts()
object    6
8 là giá trị được sử dụng nếu
>>> df.get_dtype_counts()
object    6
7 đánh giá thành
>>> df['Identifier'].is_unique
7 và
01 là giá trị được sử dụng khác.

Về cơ bản,

02 lấy mỗi phần tử trong đối tượng được sử dụng cho
>>> df.get_dtype_counts()
object    6
7, kiểm tra xem phần tử cụ thể đó có đánh giá thành
>>> df['Identifier'].is_unique
7 trong bối cảnh của điều kiện hay không và trả về
05 chứa
>>> df.get_dtype_counts()
object    6
8 hoặc
01, tùy thuộc vào áp dụng.

Nó có thể được lồng vào một câu lệnh if-then, cho phép chúng tôi tính toán các giá trị dựa trên nhiều điều kiện:


Chúng tôi sẽ sử dụng hai chức năng này để làm sạch

>>> df.loc[206]
Place of Publication                                               London
Date of Publication                                           1879 [1878]
Publisher                                                S. Tinsley & Co.
Title                                   Walter Forbes. [A novel.] By A. A
Author                                                              A. A.
Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
Name: 206, dtype: object
6 vì cột này có các đối tượng chuỗi. Dưới đây là nội dung của cột:


Chúng tôi thấy rằng đối với một số hàng, nơi xuất bản được bao quanh bởi các thông tin không cần thiết khác. Nếu chúng ta xem xét nhiều giá trị hơn, chúng ta sẽ thấy rằng đây chỉ là một số hàng có vị trí xuất bản của chúng là ‘London, hoặc‘ Oxford.

Hãy cùng xem hai mục cụ thể:


Hai cuốn sách này đã được xuất bản ở cùng một nơi, nhưng một cuốn có dấu gạch nối dưới tên của nơi này trong khi cuốn còn lại thì không.

Để làm sạch cột này trong một lần quét, chúng ta có thể sử dụng

09 để có được mặt nạ boolean.

Chúng tôi làm sạch cột như sau:


Chúng tôi kết hợp chúng với

>>> df.get_dtype_counts()
object    6


Ở đây, hàm

>>> df.get_dtype_counts()
object    6
5 được gọi trong cấu trúc lồng nhau, với
>>> df.get_dtype_counts()
object    6
7 là
8 của booleans thu được với
09. Phương thức
15 hoạt động tương tự như từ khóa
16 tích hợp được sử dụng để tìm thấy sự xuất hiện của một thực thể trong một điều không thể điều chỉnh được (hoặc chuỗi con trong một chuỗi).

Việc thay thế được sử dụng là một chuỗi đại diện cho địa điểm xuất bản mong muốn của chúng tôi. Chúng tôi cũng thay thế dấu gạch nối bằng một không gian bằng

17 và gán lại cho cột trong
4 của chúng tôi.

Mặc dù có nhiều dữ liệu bẩn hơn trong bộ dữ liệu này, chúng tôi sẽ chỉ thảo luận về hai cột này bây giờ.

Hãy để một cái nhìn vào năm mục đầu tiên, trông rất nhiều so với khi chúng tôi bắt đầu:


Làm sạch toàn bộ bộ dữ liệu bằng chức năng applicationMap

Trong một số tình huống nhất định, bạn sẽ thấy rằng bụi bẩn của người Hồi giáo không được định vị thành một cột nhưng được lan truyền nhiều hơn.

Có một số trường hợp sẽ hữu ích khi áp dụng chức năng tùy chỉnh cho từng ô hoặc phần tử của DataFrame. Phương pháp PANDAS

19 tương tự như hàm
20 được xây dựng và chỉ cần áp dụng một hàm cho tất cả các phần tử trong
Hãy cùng nhìn vào một ví dụ. Chúng tôi sẽ tạo ra một

4 trong tập tin của Đại học_Towns.txt.

Chúng tôi thấy rằng chúng tôi có tên nhà nước định kỳ theo sau là các thị trấn đại học ở tiểu bang đó:

23. Nếu chúng ta nhìn vào cách viết tên trạng thái trong tệp, chúng ta sẽ thấy rằng tất cả chúng đều có phần phụ [chỉnh sửa] [Chỉnh sửa].

Chúng ta có thể tận dụng mẫu này bằng cách tạo một danh sách các bộ dữ liệu

24 và gói danh sách đó trong một
Chúng ta có thể kết thúc danh sách này trong một khung dữ liệu và đặt các cột là trạng thái của Bang và khu vực. Pandas sẽ đưa từng phần tử trong danh sách và đặt

26 thành giá trị bên trái và
27 thành giá trị phù hợp.

DataFrame kết quả trông như thế này:


Mặc dù chúng ta có thể đã làm sạch các chuỗi này trong vòng lặp trên, Pandas làm cho nó dễ dàng. Chúng tôi chỉ cần tên nhà nước và tên thị trấn và có thể xóa mọi thứ khác. Mặc dù chúng tôi có thể sử dụng các phương thức Pandas,

6 một lần nữa ở đây, chúng tôi cũng có thể sử dụng
29 để ánh xạ một python có thể gọi cho từng yếu tố của dataFrame.

Chúng ta đã sử dụng yếu tố thuật ngữ, nhưng chính xác thì chúng ta có nghĩa là gì? Hãy xem xét các bản dữ liệu của Đồ chơi sau đây: DataFrame:


Trong ví dụ này, mỗi ô (‘mock,‘ dataset, ‘python,‘ pandas, v.v.) là một yếu tố. Do đó,

29 sẽ áp dụng một chức năng cho từng chức năng này một cách độc lập. Hãy để xác định chức năng đó:


Pandas xông

19 chỉ lấy một tham số, đó là hàm (có thể gọi được) nên được áp dụng cho từng yếu tố:


Đầu tiên, chúng tôi xác định hàm python lấy phần tử từ

4 làm tham số của nó. Bên trong hàm, kiểm tra được thực hiện để xác định xem có một
33 hay
df.set_index('Identifier', inplace=True)
6 trong phần tử hay không.

Tùy thuộc vào kiểm tra, các giá trị được trả về tương ứng bởi hàm. Cuối cùng, hàm

29 được gọi trên đối tượng của chúng tôi. Bây giờ DataFrame đã gọn gàng hơn nhiều:


Phương thức

29 đã lấy mỗi phần tử từ DataFrame, chuyển nó cho hàm và giá trị ban đầu được thay thế bằng giá trị trả về. Nó đơn giản mà!

Đổi tên các cột và bỏ qua hàng

Thông thường, các bộ dữ liệu mà bạn sẽ làm việc sẽ có tên cột không dễ hiểu hoặc thông tin không quan trọng trong một vài hàng đầu tiên và/hoặc các hàng cuối cùng, chẳng hạn như định nghĩa của các thuật ngữ trong bộ dữ liệu hoặc chú thích.

Trong trường hợp đó, chúng tôi muốn đổi tên các cột và bỏ qua một số hàng nhất định để chúng tôi có thể đi sâu vào thông tin cần thiết với các nhãn chính xác và hợp lý.

Để chứng minh làm thế nào chúng ta có thể thực hiện việc này, trước tiên, hãy để liếc nhìn vào năm hàng ban đầu của bộ dữ liệu Olympics.csv.

Bây giờ, chúng tôi sẽ đọc nó vào một gấu trúc DataFrame:


Đây thực sự là lộn xộn! Các cột là dạng chuỗi của các số nguyên được lập chỉ mục ở 0. Hàng đáng lẽ phải là tiêu đề của chúng tôi (nghĩa là một số được sử dụng để đặt tên cột) là ở

37. Điều này đã xảy ra vì tệp CSV của chúng tôi bắt đầu với 0, 1, 2,, 15.

Ngoài ra, nếu chúng ta đi đến nguồn của bộ dữ liệu này, chúng ta sẽ thấy rằng

>>> df.drop(columns=to_drop, inplace=True)
0 ở trên thực sự sẽ giống như một thứ gì đó giống như đất nước,
39 được cho là đại diện cho các trò chơi mùa hè .

Do đó, chúng ta cần phải làm hai điều:

  • Bỏ qua một hàng và đặt tiêu đề làm hàng đầu tiên (0 chỉ mục)
  • Đổi tên các cột

Chúng ta có thể bỏ qua các hàng và đặt tiêu đề trong khi đọc tệp CSV bằng cách chuyển một số tham số cho hàm

Chức năng này mất rất nhiều tham số tùy chọn, nhưng trong trường hợp này, chúng tôi chỉ cần một (

42) để xóa hàng thứ 0:


Bây giờ chúng tôi có hàng chính xác được đặt là tiêu đề và tất cả các hàng không cần thiết bị xóa. Hãy lưu ý về cách gấu trúc đã thay đổi tên của cột chứa tên của các quốc gia từ

>>> df.drop(columns=to_drop, inplace=True)
0 thành
Để đổi tên các cột, chúng tôi sẽ sử dụng phương thức DataFrame từ

45, cho phép bạn đăng lại một trục dựa trên ánh xạ (trong trường hợp này là
Hãy bắt đầu bằng cách xác định một từ điển ánh xạ các tên cột hiện tại (là khóa) cho các tên có thể sử dụng nhiều hơn (các giá trị từ điển):


Bây giờ chúng tôi có hàng chính xác được đặt là tiêu đề và tất cả các hàng không cần thiết bị xóa.

>>> df.drop(columns=to_drop, inplace=True)
0 thành
>>> df.head()
   Identifier      Place of Publication Date of Publication  \
0         206                    London         1879 [1878]
1         216  London; Virtue & Yorston                1868
2         218                    London                1869
3         472                    London                1851
4         480                    London                1857

               Publisher                                              Title  \
0       S. Tinsley & Co.                  Walter Forbes. [A novel.] By A. A
1           Virtue & Co.  All for Greed. [A novel. The dedication signed...
2  Bradbury, Evans & Co.  Love the Avenger. By the author of “All for Gr...
3          James Darling  Welsh Sketches, chiefly ecclesiastical, to the...
4   Wertheim & Macintosh  [The World in which I live, and my place in it...

      Author                                         Flickr URL
0      A. A.  http://www.flickr.com/photos/britishlibrary/ta...
1  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
2  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
3  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...
4  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...

Bây giờ chúng tôi có hàng chính xác được đặt là tiêu đề và tất cả các hàng không cần thiết bị xóa.

>>> df.drop(columns=to_drop, inplace=True)
0 thành
>>> df.head()
   Identifier      Place of Publication Date of Publication  \
0         206                    London         1879 [1878]
1         216  London; Virtue & Yorston                1868
2         218                    London                1869
3         472                    London                1851
4         480                    London                1857

               Publisher                                              Title  \
0       S. Tinsley & Co.                  Walter Forbes. [A novel.] By A. A
1           Virtue & Co.  All for Greed. [A novel. The dedication signed...
2  Bradbury, Evans & Co.  Love the Avenger. By the author of “All for Gr...
3          James Darling  Welsh Sketches, chiefly ecclesiastical, to the...
4   Wertheim & Macintosh  [The World in which I live, and my place in it...

      Author                                         Flickr URL
0      A. A.  http://www.flickr.com/photos/britishlibrary/ta...
1  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
2  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
3  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...
4  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...

Bây giờ chúng tôi có hàng chính xác được đặt là tiêu đề và tất cả các hàng không cần thiết bị xóa.

Để đổi tên các cột, chúng tôi sẽ sử dụng phương thức DataFrame từ

45, cho phép bạn đăng lại một trục dựa trên ánh xạ (trong trường hợp này là
Hãy bắt đầu bằng cách xác định một từ điển ánh xạ các tên cột hiện tại (là khóa) cho các tên có thể sử dụng nhiều hơn (các giá trị từ điển):

Chúng tôi gọi hàm

45 trên đối tượng của chúng tôi:

Cài đặt tại

>>> df['Identifier'].is_unique
7 chỉ định rằng các thay đổi của chúng tôi được thực hiện trực tiếp cho đối tượng. Hãy để xem nếu điều này kiểm tra ra:

  • Làm sạch dữ liệu Python: Tóm tắt và tài nguyên
  • Trong hướng dẫn này, bạn đã tìm hiểu làm thế nào bạn có thể bỏ thông tin không cần thiết từ bộ dữ liệu bằng hàm
    >>> df.drop(columns=to_drop, inplace=True)
    2, cũng như cách đặt chỉ mục cho bộ dữ liệu của bạn để các mục trong đó có thể được tham chiếu dễ dàng.
  • Hơn nữa, bạn đã học cách làm sạch các trường
    >>> df.loc[206]
    Place of Publication                                               London
    Date of Publication                                           1879 [1878]
    Publisher                                                S. Tinsley & Co.
    Title                                   Walter Forbes. [A novel.] By A. A
    Author                                                              A. A.
    Flickr URL              http://www.flickr.com/photos/britishlibrary/ta...
    Name: 206, dtype: object
    7 bằng trình truy cập
    >>> df.head()
       Identifier      Place of Publication Date of Publication  \
    0         206                    London         1879 [1878]
    1         216  London; Virtue & Yorston                1868
    2         218                    London                1869
    3         472                    London                1851
    4         480                    London                1857
                   Publisher                                              Title  \
    0       S. Tinsley & Co.                  Walter Forbes. [A novel.] By A. A
    1           Virtue & Co.  All for Greed. [A novel. The dedication signed...
    2  Bradbury, Evans & Co.  Love the Avenger. By the author of “All for Gr...
    3          James Darling  Welsh Sketches, chiefly ecclesiastical, to the...
    4   Wertheim & Macintosh  [The World in which I live, and my place in it...
          Author                                         Flickr URL
    0      A. A.  http://www.flickr.com/photos/britishlibrary/ta...
    1  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
    2  A., A. A.  http://www.flickr.com/photos/britishlibrary/ta...
    3  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...
    4  A., E. S.  http://www.flickr.com/photos/britishlibrary/ta...
    6 và cách làm sạch toàn bộ bộ dữ liệu bằng phương pháp
    >>> df = pd.read_csv('Datasets/BL-Flickr-Images-Book.csv')
    >>> df.head()
        Identifier             Edition Statement      Place of Publication  \
    0         206                           NaN                    London
    1         216                           NaN  London; Virtue & Yorston
    2         218                           NaN                    London
    3         472                           NaN                    London
    4         480  A new edition, revised, etc.                    London
      Date of Publication              Publisher  \
    0         1879 [1878]       S. Tinsley & Co.
    1                1868           Virtue & Co.
    2                1869  Bradbury, Evans & Co.
    3                1851          James Darling
    4                1857   Wertheim & Macintosh
                                                   Title     Author  \
    0                  Walter Forbes. [A novel.] By A. A      A. A.
    1  All for Greed. [A novel. The dedication signed...  A., A. A.
    2  Love the Avenger. By the author of “All for Gr...  A., A. A.
    3  Welsh Sketches, chiefly ecclesiastical, to the...  A., E. S.
    4  [The World in which I live, and my place in it...  A., E. S.
                                       Contributors  Corporate Author  \
    0                               FORBES, Walter.               NaN
    1  BLAZE DE BURY, Marie Pauline Rose - Baroness               NaN
    2  BLAZE DE BURY, Marie Pauline Rose - Baroness               NaN
    3                   Appleyard, Ernest Silvanus.               NaN
    4                           BROOME, John Henry.               NaN
       Corporate Contributors Former owner  Engraver Issuance type  \
    0                     NaN          NaN       NaN   monographic
    1                     NaN          NaN       NaN   monographic
    2                     NaN          NaN       NaN   monographic
    3                     NaN          NaN       NaN   monographic
    4                     NaN          NaN       NaN   monographic
                                              Flickr URL  \
    0  http://www.flickr.com/photos/britishlibrary/ta...
    1  http://www.flickr.com/photos/britishlibrary/ta...
    2  http://www.flickr.com/photos/britishlibrary/ta...
    3  http://www.flickr.com/photos/britishlibrary/ta...
    4  http://www.flickr.com/photos/britishlibrary/ta...
    0    British Library HMNTS 12641.b.30.
    1    British Library HMNTS 12626.cc.2.
    2    British Library HMNTS 12625.dd.1.
    3    British Library HMNTS 10369.bbb.15.
    4    British Library HMNTS 9007.d.28.
    29. Cuối cùng, chúng tôi đã khám phá cách bỏ qua các hàng trong tệp CSV và đổi tên các cột bằng phương thức
    >>> df = pd.read_csv('Datasets/BL-Flickr-Images-Book.csv')
    >>> df.head()
        Identifier             Edition Statement      Place of Publication  \
    0         206                           NaN                    London
    1         216                           NaN  London; Virtue & Yorston
    2         218                           NaN                    London
    3         472                           NaN                    London
    4         480  A new edition, revised, etc.                    London
      Date of Publication              Publisher  \
    0         1879 [1878]       S. Tinsley & Co.
    1                1868           Virtue & Co.
    2                1869  Bradbury, Evans & Co.
    3                1851          James Darling
    4                1857   Wertheim & Macintosh
                                                   Title     Author  \
    0                  Walter Forbes. [A novel.] By A. A      A. A.
    1  All for Greed. [A novel. The dedication signed...  A., A. A.
    2  Love the Avenger. By the author of “All for Gr...  A., A. A.
    3  Welsh Sketches, chiefly ecclesiastical, to the...  A., E. S.
    4  [The World in which I live, and my place in it...  A., E. S.
                                       Contributors  Corporate Author  \
    0                               FORBES, Walter.               NaN
    1  BLAZE DE BURY, Marie Pauline Rose - Baroness               NaN
    2  BLAZE DE BURY, Marie Pauline Rose - Baroness               NaN
    3                   Appleyard, Ernest Silvanus.               NaN
    4                           BROOME, John Henry.               NaN
       Corporate Contributors Former owner  Engraver Issuance type  \
    0                     NaN          NaN       NaN   monographic
    1                     NaN          NaN       NaN   monographic
    2                     NaN          NaN       NaN   monographic
    3                     NaN          NaN       NaN   monographic
    4                     NaN          NaN       NaN   monographic
                                              Flickr URL  \
    0  http://www.flickr.com/photos/britishlibrary/ta...
    1  http://www.flickr.com/photos/britishlibrary/ta...
    2  http://www.flickr.com/photos/britishlibrary/ta...
    3  http://www.flickr.com/photos/britishlibrary/ta...
    4  http://www.flickr.com/photos/britishlibrary/ta...
    0    British Library HMNTS 12641.b.30.
    1    British Library HMNTS 12626.cc.2.
    2    British Library HMNTS 12625.dd.1.
    3    British Library HMNTS 10369.bbb.15.
    4    British Library HMNTS 9007.d.28.
  • Biết về việc làm sạch dữ liệu là rất quan trọng, bởi vì nó là một phần lớn của khoa học dữ liệu. Bây giờ bạn có một sự hiểu biết cơ bản về cách gấu trúc và numpy có thể được tận dụng để làm sạch các bộ dữ liệu!

Kiểm tra các liên kết dưới đây để tìm thêm tài nguyên sẽ giúp bạn trên hành trình khoa học dữ liệu Python của bạn: This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Data Cleaning With pandas and NumPy