Trực quan hóa dữ liệu là kỹ thuật trình bày dữ liệu dưới dạng đồ thị, biểu đồ hoặc sơ đồ. Trực quan hóa dữ liệu giúp các nhà phân tích dữ liệu dễ dàng phân tích các xu hướng hoặc mẫu có thể có trong dữ liệu vì nó tóm tắt lượng dữ liệu khổng lồ ở định dạng đơn giản và dễ hiểu. Show
Trong bài viết này, chúng ta sẽ thảo luận về cách trực quan hóa dữ liệu bằng cách sử dụng plotnine trong Python, đây là một triển khai nghiêm ngặt về ngữ pháp đồ họa. Trước khi bắt đầu, hãy hiểu sơ qua về ngữ pháp đồ họa là gì Ngữ pháp của đồ họa là gì?Ngữ pháp đồ họa về cơ bản là một công cụ cho phép chúng ta mô tả các thành phần của một đồ họa nhất định. Về cơ bản, điều này cho phép chúng tôi nhìn xa hơn đồ họa được đặt tên, (biểu đồ phân tán, để đặt tên) và về cơ bản xem số liệu thống kê cơ bản đằng sau nó. Hãy coi ngữ pháp của đồ họa là ngữ pháp của tiếng Anh, nơi chúng ta sử dụng các từ, thì, dấu câu khác nhau để tạo thành một câu. Các thành phần của Ngữ pháp đồ họaThông thường, để xây dựng hoặc mô tả bất kỳ hình ảnh trực quan nào có một hoặc nhiều chiều, chúng ta có thể sử dụng các thành phần được hiển thị trong hình bên dưới. Đầu tiên, chúng ta sẽ xem 3 thành phần chính cần có để tạo biểu đồ, nếu không có các thành phần này thì plotnine sẽ không thể vẽ biểu đồ. Đó là-
Có nhiều thành phần tùy chọn khác nhau có thể làm cho cốt truyện có ý nghĩa và dễ trình bày hơn. Đó là -
Cài đặtCốt truyện dựa trên ggplot2 trong ngôn ngữ Lập trình R được sử dụng để triển khai ngữ pháp đồ họa trong Python. Để cài đặt plotnine gõ lệnh dưới đây trong terminal pip install plotnine Vẽ dữ liệu bằng Plotnine và ggplot trong PythonỞ đây chúng ta sẽ sử dụng ba thành phần chính i. e. dữ liệu, thẩm mỹ và các đối tượng hình học để vẽ dữ liệu của chúng tôi. Hãy đi qua từng thành phần một cách chi tiết Dữ liệuDữ liệu là tập dữ liệu cần được vẽ. Chúng ta có thể chỉ định dữ liệu bằng cách sử dụng hàm tạo ggplot và chuyển tập dữ liệu tới hàm tạo đó Ví dụ. Chỉ định tập dữ liệu cho ggplotChúng tôi sẽ sử dụng bộ dữ liệu Iris và sẽ đọc nó bằng Pandas Python3
________số 8_______
đầu ra Điều này sẽ cung cấp cho chúng tôi một đầu ra trống vì chúng tôi chưa chỉ định hai thành phần chính khác Tính thẩm mỹBây giờ, hãy xác định biến mà chúng ta muốn sử dụng cho mỗi trục trong biểu đồ. Tính thẩm mỹ ánh xạ các biến dữ liệu thành các thuộc tính đồ họa, như vị trí và màu sắc 2D Ví dụ. Xác định tính thẩm mỹ của cốt truyện và ggplot trong PythonPython3
________số 8_______
đầu ra Trong ví dụ trên, chúng ta có thể thấy Loài được hiển thị trên trục x và chiều dài đài hoa được hiển thị trên trục y. Nhưng vẫn không có nhân vật nào trong cốt truyện. Điều này có thể được thêm vào bằng cách sử dụng các đối tượng hình học đối tượng hình họcSau khi xác định dữ liệu và tính thẩm mỹ, chúng ta cần xác định loại cốt truyện mà chúng ta muốn để trực quan hóa. Điều này nói với cốt truyện rằng các điểm dữ liệu sẽ được hiển thị như thế nào. Nó cung cấp nhiều đối tượng hình học như biểu đồ phân tán, biểu đồ đường, biểu đồ thanh, biểu đồ hộp, v.v. Hãy xem nhiều loại trong số chúng và cách sử dụng chúng Ghi chú. Để biết danh sách tất cả các geoms, hãy tham khảo ví dụ 1. Thêm các đối tượng hình học vào plotnine và ggplot trong PythonPython3
________số 8_______
đầu ra Trong ví dụ trên, chúng tôi đã sử dụng geom geom_col() là biểu đồ thanh có đáy nằm trên trục x. Chúng tôi có thể thay đổi điều này thành các loại hình địa lý khác nhau mà chúng tôi thấy phù hợp với cốt truyện của mình ví dụ 2. Vẽ Biểu đồ với plotnine và ggplot trong PythonPython3
________số 8_______
đầu ra ví dụ 3. Vẽ biểu đồ phân tán với plotnine và ggplot trong PythonPython3
________số 8_______
đầu ra Ví dụ 4. Plotting Box vẽ đồ thị với plotnine và ggplot trong PythonPython3
________số 8_______
đầu ra Ví dụ 5. Biểu đồ Plottin Line với plotnine và ggplot trong PythonPython3
________số 8_______
đầu ra Cho đến bây giờ chúng ta đã học về cách tạo một biểu đồ cơ bản bằng cách sử dụng khái niệm ngữ pháp của đồ họa và đó là ba thành phần chính. Bây giờ, hãy tìm hiểu cách tùy chỉnh các biểu đồ này bằng các thành phần tùy chọn khác Tăng cường trực quan hóa dữ liệu bằng cách sử dụng plotnine và ggplotSau đây chúng ta sẽ tìm hiểu về các thành phần tùy chọn còn lại. Các thành phần này là -
khía cạnhCác khía cạnh được sử dụng để vẽ các tập hợp con của dữ liệu. nó cho phép một biểu đồ riêng lẻ cho các nhóm dữ liệu trong cùng một hình ảnh Ví dụ: hãy xem xét bộ dữ liệu tiền boa chứa thông tin về những người có thể đã ăn ở nhà hàng và liệu họ có để lại tiền boa hay không, tuổi tác, giới tính của họ, v.v. Hãy nhìn vào nó Ghi chú. Để tải xuống bộ dữ liệu được sử dụng, bấm vào đây Bây giờ, giả sử chúng ta muốn vẽ biểu đồ về tổng hóa đơn theo giới tính và vào mỗi ngày. Trong những trường hợp như vậy, các khía cạnh có thể rất hữu ích, hãy xem cách Ví dụ. Các khía cạnh với plotnine và ggplot trong PythonPython3
________số 8_______
Cốt truyện Python là gì?plotnine là việc triển khai ngữ pháp đồ họa bằng Python , nó dựa trên ggplot2. Ngữ pháp cho phép người dùng soạn các ô bằng cách ánh xạ rõ ràng dữ liệu tới các đối tượng trực quan tạo nên ô.
Cốt truyện có giống như ggplot không?plotnine dựa trên ggplot2 từ ngôn ngữ lập trình R , vì vậy nếu bạn có nền tảng về R thì bạn có thể coi plotnine tương đương với ggplot2 trong Python.
Plotnine có sử dụng Matplotlib không?Gói plotnine được xây dựng trên Matplotlib và tương tác tốt với Pandas.
Seaborn có tốt hơn Matplotlib không?Matplotlib được tùy chỉnh cao và mạnh mẽ. Với sự trợ giúp của các chủ đề mặc định, Seaborn ngăn các ô chồng chéo . Matplotlib vẽ các biểu đồ khác nhau bằng Pandas và Numpy. Seaborn là phiên bản mở rộng của Matplotlib, sử dụng Matplotlib, Numpy và Pandas để vẽ biểu đồ. |