Pandas là một trong những công cụ được sử dụng phổ biến nhất cho khoa học dữ liệu và học máy, được sử dụng để làm sạch và phân tích dữ liệu. Show Ở đây, Pandas là công cụ tốt nhất để xử lý dữ liệu lộn xộn trong thế giới thực này. Và Pandas là một trong những gói Python nguồn mở được xây dựng trên đỉnh của Numpy. Xử lý dữ liệu bằng cách sử dụng gấu trúc rất nhanh và hiệu quả bằng cách sử dụng loạt dữ liệu và dòng dữ liệu của Pandas, hai cấu trúc dữ liệu PANDAS này sẽ giúp bạn thao tác dữ liệu theo nhiều cách khác nhau. Dựa trên các tính năng có sẵn trong gấu trúc, chúng ta có thể nói gấu trúc là tốt nhất để xử lý dữ liệu. Nó có thể xử lý dữ liệu bị thiếu, làm sạch dữ liệu và nó hỗ trợ nhiều định dạng tệp. Điều này có nghĩa là nó có thể đọc hoặc tải dữ liệu ở nhiều định dạng như CSV, Excel, SQL, v.v., Hãy để lấy một ví dụ và xem nó sẽ đọc dữ liệu CSV như thế nào. Thí dụdata = pd.read_csv('world-happiness-report.csv') print(data.shape) data.head() Giải trìnhTrong mã trên, dữ liệu biến lưu trữ dữ liệu CSV là báo cáo hạnh phúc thế giới (được tải xuống từ bộ dữ liệu Kaggle) bằng cách sử dụng chức năng read_csv có sẵn trong gói Pandas. data.shape được sử dụng để cung cấp cho bạn các cột và số lượng hàng. Đầu raCountry name year Life Ladder Log GDP per capita Social support \ 0 Afghanistan 2008 3.724 7.370 0.451 1 Afghanistan 2009 4.402 7.540 0.552 2 Afghanistan 2010 4.758 7.647 0.539 3 Afghanistan 2011 3.832 7.620 0.521 4 Afghanistan 2012 3.783 7.705 0.521 Healthy life expectancy at birth Freedom to make life choices Generosity \ 50.80 0.718 0.168 51.20 0.679 0.190 51.60 0.600 0.121 51.92 0.496 0.162 52.24 0.531 0.236 Perceptions of corruption Positive affect Negative affect 0.882 0.518 0.258 0.850 0.584 0.237 0.707 0.618 0.275 0.731 0.611 0.267 0.776 0.710 0.268 Khối trên có 5 hàng dữ liệu hàng đầu trong bộ dữ liệu báo cáo hạnh phúc thế giới có thể được hiển thị bởi hàm pandas dataFrame.head (). Có nhiều tính năng khác giúp chúng tôi xử lý dữ liệu lớn cho cả hai hoạt động khoa học dữ liệu máy học. Đang hợp nhất và tham gia các bộ dữ liệu, trực quan hóa, nhóm, mặt nạ và cũng rất hữu ích để thực hiện các hoạt động toán học trên các bộ dữ liệu của chúng tôi. Hãy cùng lấy một ví dụ khác và xem cách tạo tệp đầu ra bằng gấu trúc. Thí dụfile = data.to_json('output_file.json') Giải trìnhTrong mã trên, dữ liệu biến lưu trữ dữ liệu CSV là báo cáo hạnh phúc thế giới (được tải xuống từ bộ dữ liệu Kaggle) bằng cách sử dụng chức năng read_csv có sẵn trong gói Pandas. data.shape được sử dụng để cung cấp cho bạn các cột và số lượng hàng. Đầu raKhối trên có 5 hàng dữ liệu hàng đầu trong bộ dữ liệu báo cáo hạnh phúc thế giới có thể được hiển thị bởi hàm pandas dataFrame.head (). Có nhiều tính năng khác giúp chúng tôi xử lý dữ liệu lớn cho cả hai hoạt động khoa học dữ liệu máy học. Đang hợp nhất và tham gia các bộ dữ liệu, trực quan hóa, nhóm, mặt nạ và cũng rất hữu ích để thực hiện các hoạt động toán học trên các bộ dữ liệu của chúng tôi.
Hãy cùng lấy một ví dụ khác và xem cách tạo tệp đầu ra bằng gấu trúc.
Tại sao chúng ta đang sử dụng gấu trúc trong Python?Pandas được xây dựng trên đỉnh của hai thư viện Python cốt lõi, Matplotlib để trực quan hóa dữ liệu và không có tác dụng cho các hoạt động toán học.Gấu trúc hoạt động như một trình bao bọc trên các thư viện này, cho phép bạn truy cập vào nhiều phương thức của Matplotlib và Numpy với ít mã hơn.allowing you to access many of matplotlib's and NumPy's methods with less code.
Những gấu trúc được sử dụng cho cuộc sống thực là gì?Do đó, rất nhiều nhà kinh tế đã bắt đầu sử dụng Python và Pandas để phân tích các bộ dữ liệu khổng lồ.Pandas cung cấp một bộ công cụ toàn diện, như DataFrames và xử lý tệp.Những công cụ này giúp rất nhiều trong việc truy cập và thao tác dữ liệu để có được kết quả mong muốn.analyze huge datasets. Pandas provide a comprehensive set of tools, like dataframes and file-handling. These tools help immensely in accessing and manipulating data to get the desired results.
Điều tốt nhất về gấu trúc trong Python là gì?Các tính năng chính của gấu trúc đối tượng DataFrame nhanh và hiệu quả với lập chỉ mục mặc định và tùy chỉnh.Các công cụ để tải dữ liệu vào các đối tượng dữ liệu trong bộ nhớ từ các định dạng tệp khác nhau.Căn chỉnh dữ liệu và xử lý tích hợp dữ liệu bị thiếu.Định hình lại và xoay vòng các bộ ngày.Fast and efficient DataFrame object with default and customized indexing. Tools for loading data into in-memory data objects from different file formats. Data alignment and integrated handling of missing data. Reshaping and pivoting of date sets. |