Trực quan hóa tập dữ liệu python

Cám ơn bạn đã ghé thăm blog của Thịnh. Đây là góc chia sẻ kiến ​​thức và kinh nghiệm của tôi về Tiếp thị kỹ thuật số, Dữ liệu cũng như hành trình học hỏi của tôi trong hơn 7 năm qua

NGHIÊN CỨU TÌNH HUỐNG. Luxstay cá nhân hóa nội dung để tăng 60% tương tác

Trực quan hóa tập dữ liệu python

#GROWTH MasterClass – MoEngage

#career_talk với Trịnh Thái

Thịnh Vũ

#tiếp thị kỹ thuật số #tăng trưởng #dữ_liệu

danh mục

  • Bộ sưu tập API (3)
  • Khoa học dữ liệu (8)
  • Năng suất (5)
  • Khóa học Python (1)
  • Suy nghĩ (3)
  • Hướng dẫn (6)

Python Data Visualization – Trực quan hóa dữ liệu với Python

Trực quan hóa dữ liệu là quy tắc cố gắng hiểu dữ liệu bằng cách đặt dữ liệu vào ngữ cảnh trực quan để các mẫu, xu hướng và tương quan có thể dễ dàng thực hiện

Python cung cấp nhiều thư viện đồ họa tuyệt vời đi kèm với rất nhiều tính năng khác nhau. Dù bạn muốn tạo ra các tương tác, trực tiếp hoặc tùy biến cao, python đều có một thư viện tuyệt vời cho bạn

Để có một cái nhìn tổng quan, dưới đây là một vài thư viện phổ biến

  • Matplotlib. cấp thấp, cung cấp nhiều tùy chỉnh, cấp thấp, cung cấp nhiều tùy chỉnh
  • Trực quan hóa gấu trúc. giao diện dễ sử dụng, được xây dựng trên Matplotlib giao diện dễ sử dụng, được xây dựng trên Matplotlib
  • sinh ra biển. giao diện cao cấp, kiểu mặc định tuyệt vời Giao diện cấp cao, kiểu mặc định tuyệt vời
  • ggplot. dựa trên ggplot2 của R, sử dụng Ngữ pháp của đồ họa dựa trên ggplot2 của R, sử dụng Ngữ pháp của đồ họa
  • âm mưu. could create the compoture of the composit

Trong bài viết này, chúng ta sẽ tìm hiểu cách tạo các ô cơ bản bằng cách sử dụng Matplotlib và Pandas cũng như cách sử dụng một số tính năng cụ thể của từng thư viện. Bài viết này sẽ tập trung vào cú pháp chứ không tập trung vào diễn giải các biểu đồ

Nhập dữ liệu

Trong bài viết này, chúng tôi sẽ sử dụng hai bộ dữ liệu có sẵn miễn phí. Bộ dữ liệu Iris và Wine Reviews, cả hai chúng ta đều có thể tải xuống bằng phương pháp read_csv pandas

Hình 2. Iris data head

Hình 3. Đầu dữ liệu Wine Review

Matplotlib – Trực quan hóa dữ liệu Python

Matplotlib là thư viện python phổ biến nhất. Đây là một thư viện cấp thấp với giao diện giống Matlab, cung cấp rất nhiều sự tự do dù phải viết thêm mã

To install Matplotlib, pip and conda can be used

Pip cài đặt matplotlib hoặc conda cài đặt matplotlib
hoặc
conda cài đặt matplotlib

Matplotlib đặc biệt tốt để tạo các biểu đồ cơ bản như biểu đồ đường, biểu đồ thanh, biểu đồ và nhiều hơn nữa. It is could not be enter by way typing

nhập matplotlib. pyplot dưới dạng plt

Biểu đồ phân tán – Trực quan hóa dữ liệu Python

Để tạo biểu đồ phân tán trong Matplotlib, chúng ta có thể sử dụng phương thức phân tán. Chúng ta cũng sẽ tạo một hình và một bộ phận bằng cách sử dụng plt. các ô phụ để chúng tôi có thể cung cấp cho biểu đồ của mình một tiêu đề và nhãn

Hình 4. Biểu đồ phân tán Matplotlib

Chúng ta có thể cung cấp cho biểu đồ nhiều ý nghĩa hơn bằng cách tô màu trong mỗi điểm dữ liệu theo lớp của nó. Điều này có thể được thực hiện bằng cách tạo từ ánh xạ từ lớp sang màu và sau đó tự phân tán từng điểm bằng cách sử dụng vòng lặp cho và chuyển đổi màu tương ứng

Hình 5. Scatter Plot được tô màu theo lớp

Biểu đồ đường – Trực quan hóa dữ liệu Python

Trong Matplotlib, chúng ta có thể tạo biểu đồ đường theo cách gọi biểu đồ công thức. Chúng ta cũng có thể vẽ nhiều cột trong một biểu đồ, bằng cách lặp qua các cột mà chúng ta muốn và vẽ từng cột trên cùng một mạng

Hình 6. Biểu đồ đường

Biểu đồ – Trực quan hóa dữ liệu Python

Trong Matplotlib, chúng ta có thể tạo Biểu đồ bằng công thức lịch sử. Nếu chúng ta chuyển phân loại dữ liệu dưới dạng cột điểm từ bộ dữ liệu được đánh giá, thì nó sẽ tự động tính toán tần suất xuất hiện của mỗi lớp

Hình 7. Biểu đồ

Biểu đồ thanh – Trực quan hóa dữ liệu Python– Trực quan hóa dữ liệu Python

Một biểu đồ thanh có thể được tạo bằng thanh định thức. Biểu đồ thanh không tự động tính toán tần suất của danh mục nên chúng ta sẽ sử dụng chức năng value_counts pandas để thực hiện công việc này. Biểu đồ thanh rất hữu ích cho phân loại dữ liệu không có nhiều danh mục khác nhau (dưới 30) vì các biểu đồ khác có thể trở nên khá lộn xộn

Hình 8. Biểu đồ cột

Pandas Visualization – Python Data Visualization– Python Data Visualization

Pandas là một thư viện có hiệu suất cao, dễ sử dụng, cung cấp các cấu trúc dữ liệu, như các tệp dữ liệu và các công cụ phân tích dữ liệu như các công cụ trực quan mà chúng ta sẽ sử dụng trong bài viết này

Pandas Visualization dễ dàng tạo ra các ô từ một khung dữ liệu và chuỗi pandas. Nó cũng có API cao hơn Matplotlib và do đó chúng ta cần ít mã hơn cho cùng kết quả

Có thể cài đặt gấu trúc bằng cách sử dụng pip hoặc conda

pip install pandas hoặc conda install pandas
or
conda cài đặt pandas

Biểu đồ phân tán – Trực quan hóa dữ liệu Python– Trực quan hóa dữ liệu Python

Để tạo một biểu đồ phân tán trong Pandas, chúng ta có thể gọi. kịch bản. scatter() và truyền cho nó hai đối số, tên của cột x cũng giống như tên của cột y. Chúng ta cũng có thể cho nó một tiêu đề

Hình 9. Âm mưu phân tán

Như bạn có thể thấy trong hình, nó sẽ tự động đặt nhãn x và y thành cột tên

Biểu đồ đường – Trực quan hóa dữ liệu Python– Trực quan hóa dữ liệu Python

To create a line chart in Pandas, we could call. kịch bản. hàng(). Trong khi ở Matplotlib, chúng ta cần lặp lại từng cột mà chúng ta muốn vẽ, trong Pandas chúng ta không cần phải làm điều này vì nó tự động vẽ tất cả các cột số có sẵn (ít nhất là nếu chúng ta không chỉ định

Hình 10. Biểu đồ đường

Nếu chúng ta có nhiều hơn một tính năng thì Pandas sẽ tự động tạo ra một chú thích, như có thể tìm thấy trong hình trên

Biểu đồ – Trực quan hóa dữ liệu Python– Trực quan hóa dữ liệu Python

Trong Pandas, chúng ta có thể tạo một biểu đồ với biểu đồ phương thức. lịch sử. Không có bất kỳ đối số nào bắt buộc nhưng chúng ta có thể tùy ý chuyển một số như kích thước

Hình 11. Biểu đồ

Nó cũng thực sự dễ dàng để tạo ra nhiều biểu đồ

Hình 12. Nhiều biểu đồ

Đối số ô con số chỉ định rằng chúng ta muốn có một ô riêng cho từng tính năng và bố cục chỉ số lượng ô trên mỗi hàng và cột

Biểu đồ thanh – Trực quan hóa dữ liệu Python

Để vẽ biểu đồ thanh, chúng ta có thể sử dụng biểu đồ phương thức. bar(), nhưng trước khi chúng ta có thể gọi nó, chúng ta cần lấy dữ liệu của mình. Đối với điều này, trước tiên chúng ta sẽ đếm số lần xuất hiện bằng phương thức value_count() và sau đó sắp xếp các lần xuất hiện từ nhỏ nhất đến lớn nhất bằng phương thức sort_index()

Hình 13. Bar-Chart vertical

Phương pháp này cũng rất đơn giản để tạo biểu đồ thanh ngang bằng biểu đồ phương thức. barh() này

Hình 14. Bar-Chart ngang

Chúng ta cũng có thể vẽ các dữ liệu khác vào đây

Hình 15. Các quốc gia có rượu vang quý nhất (theo trung bình)

Trong ví dụ trên, chúng tôi đã lập nhóm dữ liệu theo quốc gia và sau đó lấy giá trị trung bình của giá rượu, và vẽ ra 5 quốc gia có giá rượu trung bình cao nhất