Trực quan hóa dữ liệu là kỹ thuật trình bày dữ liệu dưới dạng đồ thị, biểu đồ hoặc sơ đồ. Trực quan hóa dữ liệu giúp các nhà phân tích dữ liệu dễ dàng phân tích các xu hướng hoặc mẫu có thể có trong dữ liệu vì nó tóm tắt lượng dữ liệu khổng lồ ở định dạng đơn giản và dễ hiểu.
Trong bài viết này, chúng ta sẽ thảo luận về cách trực quan hóa dữ liệu bằng cách sử dụng plotnine trong Python, đây là một triển khai nghiêm ngặt về ngữ pháp đồ họa. Trước khi bắt đầu, hãy hiểu sơ qua về ngữ pháp đồ họa là gì
Ngữ pháp của đồ họa là gì?
Ngữ pháp đồ họa về cơ bản là một công cụ cho phép chúng ta mô tả các thành phần của một đồ họa nhất định. Về cơ bản, điều này cho phép chúng tôi nhìn xa hơn đồ họa được đặt tên, (biểu đồ phân tán, để đặt tên) và về cơ bản xem số liệu thống kê cơ bản đằng sau nó. Hãy coi ngữ pháp của đồ họa là ngữ pháp của tiếng Anh, nơi chúng ta sử dụng các từ, thì, dấu câu khác nhau để tạo thành một câu.
Các thành phần của Ngữ pháp đồ họa
Thông thường, để xây dựng hoặc mô tả bất kỳ hình ảnh trực quan nào có một hoặc nhiều chiều, chúng ta có thể sử dụng các thành phần được hiển thị trong hình bên dưới.
Đầu tiên, chúng ta sẽ xem 3 thành phần chính cần có để tạo biểu đồ, nếu không có các thành phần này thì plotnine sẽ không thể vẽ biểu đồ. Đó là-
- Dữ liệu là tập dữ liệu được sử dụng để vẽ đồ thị
- Tính thẩm mỹ (aes) là ánh xạ giữa các biến dữ liệu và các biến được sử dụng bởi biểu đồ như trục x, trục y, màu sắc, tô màu, kích thước, nhãn, alpha, hình dạng, độ rộng đường, loại đường
- Đối tượng hình học (geoms) là loại biểu đồ hoặc đối tượng hình học mà chúng ta muốn sử dụng như điểm, đường, biểu đồ, thanh, boxplot, v.v.
Có nhiều thành phần tùy chọn khác nhau có thể làm cho cốt truyện có ý nghĩa và dễ trình bày hơn. Đó là -
- Các khía cạnh cho phép dữ liệu được chia thành các nhóm và mỗi nhóm được vẽ riêng
- Biến đổi thống kê tính toán dữ liệu trước khi vẽ đồ thị
- Tọa độ xác định vị trí của đối tượng trong mặt phẳng 2D
- Chủ đề xác định cách trình bày dữ liệu như phông chữ, màu sắc, v.v.
Cài đặt
Cốt truyện dựa trên ggplot2 trong ngôn ngữ Lập trình R được sử dụng để triển khai ngữ pháp đồ họa trong Python. Để cài đặt plotnine gõ lệnh dưới đây trong terminal
pip install plotnineVẽ dữ liệu bằng Plotnine và ggplot trong Python
Ở đây chúng ta sẽ sử dụng ba thành phần chính i. e. dữ liệu, thẩm mỹ và các đối tượng hình học để vẽ dữ liệu của chúng tôi. Hãy đi qua từng thành phần một cách chi tiết
Dữ liệu
Dữ liệu là tập dữ liệu cần được vẽ. Chúng ta có thể chỉ định dữ liệu bằng cách sử dụng hàm tạo ggplot và chuyển tập dữ liệu tới hàm tạo đó
Ví dụ. Chỉ định tập dữ liệu cho ggplot
Chúng tôi sẽ sử dụng bộ dữ liệu Iris và sẽ đọc nó bằng Pandas
Python3
import pandas as pd
from plotnineimport ggplot
________số 8_______
dfimport0 import1import2import3
import5
import6
import7
đầu ra
Điều này sẽ cung cấp cho chúng tôi một đầu ra trống vì chúng tôi chưa chỉ định hai thành phần chính khác
Tính thẩm mỹ
Bây giờ, hãy xác định biến mà chúng ta muốn sử dụng cho mỗi trục trong biểu đồ. Tính thẩm mỹ ánh xạ các biến dữ liệu thành các thuộc tính đồ họa, như vị trí và màu sắc 2D
Ví dụ. Xác định tính thẩm mỹ của cốt truyện và ggplot trong Python
Python3
import pandas as pd
from plotnineimport pandas as pd3
________số 8_______
dfimport0 pandas as pd8import2import3
import7from3 from4import0from6from7import0from9import3
đầu ra
Trong ví dụ trên, chúng ta có thể thấy Loài được hiển thị trên trục x và chiều dài đài hoa được hiển thị trên trục y. Nhưng vẫn không có nhân vật nào trong cốt truyện. Điều này có thể được thêm vào bằng cách sử dụng các đối tượng hình học
đối tượng hình học
Sau khi xác định dữ liệu và tính thẩm mỹ, chúng ta cần xác định loại cốt truyện mà chúng ta muốn để trực quan hóa. Điều này nói với cốt truyện rằng các điểm dữ liệu sẽ được hiển thị như thế nào. Nó cung cấp nhiều đối tượng hình học như biểu đồ phân tán, biểu đồ đường, biểu đồ thanh, biểu đồ hộp, v.v. Hãy xem nhiều loại trong số chúng và cách sử dụng chúng
Ghi chú. Để biết danh sách tất cả các geoms, hãy tham khảo
ví dụ 1. Thêm các đối tượng hình học vào plotnine và ggplot trong Python
Python3
import pandas as pd
from plotnineimport plotnine6
________số 8_______
dfimport0 pandas as pd8import2import3
import7from3 from4import0from6from7import0from9import3from3 ggplot5
đầu ra
Trong ví dụ trên, chúng tôi đã sử dụng geom geom_col() là biểu đồ thanh có đáy nằm trên trục x. Chúng tôi có thể thay đổi điều này thành các loại hình địa lý khác nhau mà chúng tôi thấy phù hợp với cốt truyện của mình
ví dụ 2. Vẽ Biểu đồ với plotnine và ggplot trong Python
Python3
import pandas as pd
from plotnineimport 1
________số 8_______
dfimport0 pandas as pd8import2import3
import7from3 from4import0from9import3from3 # reading dataset7
đầu ra
ví dụ 3. Vẽ biểu đồ phân tán với plotnine và ggplot trong Python
Python3
import pandas as pd
from plotnineimport df3
________số 8_______
dfimport0 pandas as pd8import2import3
import7from3 from4import0from6from7import0from9import3from3 import12
đầu ra
Ví dụ 4. Plotting Box vẽ đồ thị với plotnine và ggplot trong Python
Python3
import pandas as pd
from plotnineimport import18
________số 8_______
dfimport0 pandas as pd8import2import3
import5
import6
import7from3 from4import0from6from7import0from9import3from3 import39
đầu ra
Ví dụ 5. Biểu đồ Plottin Line với plotnine và ggplot trong Python
Python3
import pandas as pd
from plotnineimport import45
________số 8_______
dfimport0 pandas as pd8import2import3
import7from3 from4import0from6from7import0from9import3from3 import64
đầu ra
Cho đến bây giờ chúng ta đã học về cách tạo một biểu đồ cơ bản bằng cách sử dụng khái niệm ngữ pháp của đồ họa và đó là ba thành phần chính. Bây giờ, hãy tìm hiểu cách tùy chỉnh các biểu đồ này bằng các thành phần tùy chọn khác
Tăng cường trực quan hóa dữ liệu bằng cách sử dụng plotnine và ggplot
Sau đây chúng ta sẽ tìm hiểu về các thành phần tùy chọn còn lại. Các thành phần này là -
- khía cạnh
- phép biến đổi thống kê
- tọa độ
- chủ đề
khía cạnh
Các khía cạnh được sử dụng để vẽ các tập hợp con của dữ liệu. nó cho phép một biểu đồ riêng lẻ cho các nhóm dữ liệu trong cùng một hình ảnh
Ví dụ: hãy xem xét bộ dữ liệu tiền boa chứa thông tin về những người có thể đã ăn ở nhà hàng và liệu họ có để lại tiền boa hay không, tuổi tác, giới tính của họ, v.v. Hãy nhìn vào nó
Ghi chú. Để tải xuống bộ dữ liệu được sử dụng, bấm vào đây
Bây giờ, giả sử chúng ta muốn vẽ biểu đồ về tổng hóa đơn theo giới tính và vào mỗi ngày. Trong những trường hợp như vậy, các khía cạnh có thể rất hữu ích, hãy xem cách
Ví dụ. Các khía cạnh với plotnine và ggplot trong Python
Python3
import pandas as pd
from plotnineimport import70
________số 8_______
dfimport0 pandas as pd8import76import3
import79
import80import7
import80from3 from4_______1_______0_______1_______92from7import0import95_______3_______59import0from61import3