Cốt truyện Python

Trực quan hóa dữ liệu là kỹ thuật trình bày dữ liệu dưới dạng đồ thị, biểu đồ hoặc sơ đồ. Trực quan hóa dữ liệu giúp các nhà phân tích dữ liệu dễ dàng phân tích các xu hướng hoặc mẫu có thể có trong dữ liệu vì nó tóm tắt lượng dữ liệu khổng lồ ở định dạng đơn giản và dễ hiểu.  

Trong bài viết này, chúng ta sẽ thảo luận về cách trực quan hóa dữ liệu bằng cách sử dụng plotnine trong Python, đây là một triển khai nghiêm ngặt về ngữ pháp đồ họa. Trước khi bắt đầu, hãy hiểu sơ qua về ngữ pháp đồ họa là gì

Ngữ pháp của đồ họa là gì?

Ngữ pháp đồ họa về cơ bản là một công cụ cho phép chúng ta mô tả các thành phần của một đồ họa nhất định. Về cơ bản, điều này cho phép chúng tôi nhìn xa hơn đồ họa được đặt tên, (biểu đồ phân tán, để đặt tên) và về cơ bản xem số liệu thống kê cơ bản đằng sau nó. Hãy coi ngữ pháp của đồ họa là ngữ pháp của tiếng Anh, nơi chúng ta sử dụng các từ, thì, dấu câu khác nhau để tạo thành một câu.  

Các thành phần của Ngữ pháp đồ họa

Thông thường, để xây dựng hoặc mô tả bất kỳ hình ảnh trực quan nào có một hoặc nhiều chiều, chúng ta có thể sử dụng các thành phần được hiển thị trong hình bên dưới.  

Cốt truyện Python

Đầu tiên, chúng ta sẽ xem 3 thành phần chính cần có để tạo biểu đồ, nếu không có các thành phần này thì plotnine sẽ không thể vẽ biểu đồ. Đó là-

  • Dữ liệu là tập dữ liệu được sử dụng để vẽ đồ thị
  • Tính thẩm mỹ (aes) là ánh xạ giữa các biến dữ liệu và các biến được sử dụng bởi biểu đồ như trục x, trục y, màu sắc, tô màu, kích thước, nhãn, alpha, hình dạng, độ rộng đường, loại đường
  • Đối tượng hình học (geoms) là loại biểu đồ hoặc đối tượng hình học mà chúng ta muốn sử dụng như điểm, đường, biểu đồ, thanh, boxplot, v.v.

Có nhiều thành phần tùy chọn khác nhau có thể làm cho cốt truyện có ý nghĩa và dễ trình bày hơn. Đó là -

  • Các khía cạnh cho phép dữ liệu được chia thành các nhóm và mỗi nhóm được vẽ riêng
  • Biến đổi thống kê tính toán dữ liệu trước khi vẽ đồ thị
  • Tọa độ xác định vị trí của đối tượng trong mặt phẳng 2D
  • Chủ đề xác định cách trình bày dữ liệu như phông chữ, màu sắc, v.v.

Cài đặt

Cốt truyện dựa trên ggplot2 trong ngôn ngữ Lập trình R được sử dụng để triển khai ngữ pháp đồ họa trong Python. Để cài đặt plotnine gõ lệnh dưới đây trong terminal

pip install plotnine

Cốt truyện Python
Cốt truyện Python

Vẽ dữ liệu bằng Plotnine và ggplot trong Python

Ở đây chúng ta sẽ sử dụng ba thành phần chính i. e. dữ liệu, thẩm mỹ và các đối tượng hình học để vẽ dữ liệu của chúng tôi. Hãy đi qua từng thành phần một cách chi tiết

Dữ liệu

Dữ liệu là tập dữ liệu cần được vẽ. Chúng ta có thể chỉ định dữ liệu bằng cách sử dụng hàm tạo ggplot và chuyển tập dữ liệu tới hàm tạo đó

Ví dụ. Chỉ định tập dữ liệu cho ggplot

Chúng tôi sẽ sử dụng bộ dữ liệu Iris và sẽ đọc nó bằng Pandas

Python3




import pandas as pd

from plotnineimport ggplot

 

________số 8_______

dfimport0 import1import2import3

 

import5

import6

import7

đầu ra

Cốt truyện Python

Điều này sẽ cung cấp cho chúng tôi một đầu ra trống vì chúng tôi chưa chỉ định hai thành phần chính khác

Tính thẩm mỹ

Bây giờ, hãy xác định biến mà chúng ta muốn sử dụng cho mỗi trục trong biểu đồ. Tính thẩm mỹ ánh xạ các biến dữ liệu thành các thuộc tính đồ họa, như vị trí và màu sắc 2D

Ví dụ. Xác định tính thẩm mỹ của cốt truyện và ggplot trong Python

Python3




import pandas as pd

from plotnineimport pandas as pd3

 

________số 8_______

dfimport0 pandas as pd8import2import3

 

import7from3 from4import0from6from7import0from9import3

đầu ra

Cốt truyện Python

Trong ví dụ trên, chúng ta có thể thấy Loài được hiển thị trên trục x và chiều dài đài hoa được hiển thị trên trục y. Nhưng vẫn không có nhân vật nào trong cốt truyện. Điều này có thể được thêm vào bằng cách sử dụng các đối tượng hình học

đối tượng hình học

Sau khi xác định dữ liệu và tính thẩm mỹ, chúng ta cần xác định loại cốt truyện mà chúng ta muốn để trực quan hóa. Điều này nói với cốt truyện rằng các điểm dữ liệu sẽ được hiển thị như thế nào. Nó cung cấp nhiều đối tượng hình học như biểu đồ phân tán, biểu đồ đường, biểu đồ thanh, biểu đồ hộp, v.v. Hãy xem nhiều loại trong số chúng và cách sử dụng chúng

Ghi chú. Để biết danh sách tất cả các geoms, hãy tham khảo

ví dụ 1. Thêm các đối tượng hình học vào plotnine và ggplot trong Python

Python3




import pandas as pd

from plotnineimport plotnine6

 

________số 8_______

dfimport0 pandas as pd8import2import3

 

import7from3 from4import0from6from7import0from9import3from3 ggplot5

đầu ra

Cốt truyện Python

Trong ví dụ trên, chúng tôi đã sử dụng geom geom_col() là biểu đồ thanh có đáy nằm trên trục x. Chúng tôi có thể thay đổi điều này thành các loại hình địa lý khác nhau mà chúng tôi thấy phù hợp với cốt truyện của mình

ví dụ 2. Vẽ Biểu đồ với plotnine và ggplot trong Python

Python3




import pandas as pd

from plotnineimport  1

 

________số 8_______

dfimport0 pandas as pd8import2import3

 

import7from3 from4import0from9import3from3 # reading dataset7

đầu ra

Cốt truyện Python

ví dụ 3. Vẽ biểu đồ phân tán với plotnine và ggplot trong Python

Python3




import pandas as pd

from plotnineimport df3

 

________số 8_______

dfimport0 pandas as pd8import2import3

 

import7from3 from4import0from6from7import0from9import3from3 import12

đầu ra

Cốt truyện Python

Ví dụ 4. Plotting Box vẽ đồ thị với plotnine và ggplot trong Python

Python3




import pandas as pd

from plotnineimport import18

 

________số 8_______

dfimport0 pandas as pd8import2import3

 

import5

import6

import7from3 from4import0from6from7import0from9import3from3 import39

đầu ra

Cốt truyện Python

Ví dụ 5. Biểu đồ Plottin Line với plotnine và ggplot trong Python

Python3




import pandas as pd

from plotnineimport import45

 

________số 8_______

dfimport0 pandas as pd8import2import3

 

import7from3 from4import0from6from7import0from9import3from3 import64

đầu ra

Cốt truyện Python

Cho đến bây giờ chúng ta đã học về cách tạo một biểu đồ cơ bản bằng cách sử dụng khái niệm ngữ pháp của đồ họa và đó là ba thành phần chính. Bây giờ, hãy tìm hiểu cách tùy chỉnh các biểu đồ này bằng các thành phần tùy chọn khác

Tăng cường trực quan hóa dữ liệu bằng cách sử dụng plotnine và ggplot

Sau đây chúng ta sẽ tìm hiểu về các thành phần tùy chọn còn lại. Các thành phần này là -

  • khía cạnh
  • phép biến đổi thống kê
  • tọa độ
  • chủ đề

khía cạnh

Các khía cạnh được sử dụng để vẽ các tập hợp con của dữ liệu. nó cho phép một biểu đồ riêng lẻ cho các nhóm dữ liệu trong cùng một hình ảnh

Ví dụ: hãy xem xét bộ dữ liệu tiền boa chứa thông tin về những người có thể đã ăn ở nhà hàng và liệu họ có để lại tiền boa hay không, tuổi tác, giới tính của họ, v.v. Hãy nhìn vào nó

Ghi chú. Để tải xuống bộ dữ liệu được sử dụng, bấm vào đây

Cốt truyện Python

Bây giờ, giả sử chúng ta muốn vẽ biểu đồ về tổng hóa đơn theo giới tính và vào mỗi ngày. Trong những trường hợp như vậy, các khía cạnh có thể rất hữu ích, hãy xem cách

Ví dụ. Các khía cạnh với plotnine và ggplot trong Python

Python3




import pandas as pd

from plotnineimport import70

 

________số 8_______

dfimport0 pandas as pd8import76import3

 

import79

import80import7

import80from3 from4_______1_______0_______1_______92from7import0import95_______3_______59import0from61import3

Cốt truyện Python là gì?

plotnine là việc triển khai ngữ pháp đồ họa bằng Python , nó dựa trên ggplot2. Ngữ pháp cho phép người dùng soạn các ô bằng cách ánh xạ rõ ràng dữ liệu tới các đối tượng trực quan tạo nên ô.

Cốt truyện có giống như ggplot không?

plotnine dựa trên ggplot2 từ ngôn ngữ lập trình R , vì vậy nếu bạn có nền tảng về R thì bạn có thể coi plotnine tương đương với ggplot2 trong Python.

Plotnine có sử dụng Matplotlib không?

Gói plotnine được xây dựng trên Matplotlib và tương tác tốt với Pandas.

Seaborn có tốt hơn Matplotlib không?

Matplotlib được tùy chỉnh cao và mạnh mẽ. Với sự trợ giúp của các chủ đề mặc định, Seaborn ngăn các ô chồng chéo . Matplotlib vẽ các biểu đồ khác nhau bằng Pandas và Numpy. Seaborn là phiên bản mở rộng của Matplotlib, sử dụng Matplotlib, Numpy và Pandas để vẽ biểu đồ.