Hướng dẫn what is the purpose of pandas in python? - mục đích của gấu trúc trong trăn là gì?

Cập nhật lần cuối: ngày 9 tháng 8 năm 2022

Hướng dẫn what is the purpose of pandas in python? - mục đích của gấu trúc trong trăn là gì?

Pandas trong Python là gì?

Pandas là một gói Python nguồn mở được sử dụng rộng rãi nhất để phân tích dữ liệu/phân tích dữ liệu và các tác vụ học máy. Nó được xây dựng trên đỉnh của một gói khác có tên Numpy, cung cấp hỗ trợ cho các mảng đa chiều. Là một trong những gói gây tranh cãi dữ liệu phổ biến nhất, Pandas hoạt động tốt với nhiều mô -đun khoa học dữ liệu khác bên trong hệ sinh thái Python và thường được đưa vào mỗi phân phối Python, từ các phân phối đi kèm với hệ điều hành của bạn đến các nhà cung cấp thương mại như ActiveState's ActivePython. & NBSPSPS ;ActivePython

Bạn có thể làm gì với DataFrames bằng cách sử dụng gấu trúc?

Pandas làm cho việc thực hiện nhiều nhiệm vụ tốn thời gian, lặp đi lặp lại liên quan đến việc làm việc với dữ liệu, bao gồm: bao gồm: bao gồm: bao gồm: bao gồm: bao gồm:

  • Dọn dẹp dữ liệu
  • Dữ liệu điền
  • Chuẩn hóa dữ liệu
  • Hợp nhất và tham gia
  • Trực quan hóa dữ liệu
  • Phân tích thống kê
  • Kiểm tra dữ liệu
  • Tải và lưu dữ liệu
  • Và nhiều hơn nữa

Trên thực tế, với gấu trúc, bạn có thể làm mọi thứ làm cho các nhà khoa học dữ liệu hàng đầu thế giới bỏ phiếu cho gấu trúc là công cụ phân tích dữ liệu và thao tác tốt nhất có sẵn.

Với loạt bài này, chúng tôi sẽ thông qua việc đọc một số dữ liệu, phân tích nó, thao túng nó và cuối cùng lưu trữ nó. Đây là tất cả những điều mà bạn có thể được thực hiện với Thư viện Pandas. Có nhiều chức năng hơn có thể được khám phá nhưng điều đó chỉ cần mất quá nhiều thời gian và đối với những người quan tâm đến thư viện và muốn đi sâu hơn vào tài liệu cho nó là một khởi đầu tuyệt vời: https: //pandas.pydata. org/docs/user_guide/index.html#hướng dẫn người dùnghttps://pandas.pydata.org/docs/user_guide/index.html#user-guide

Với nguồn gốc sâu thẳm trong nguồn mở, và là thành viên sáng lập của Quỹ Python, Activeestate đã tích cực đóng góp cho cộng đồng Python. Chúng tôi cung cấp sự tiện lợi, bảo mật và hỗ trợ mà doanh nghiệp của bạn cần trong khi tương thích với phân phối nguồn mở của Python.

Tải xuống ActiveState Python để bắt đầu hoặc liên hệ với chúng tôi để tìm hiểu thêm về việc sử dụng Python ActiveState trong tổ chức của bạn. to get started or contact us to learn more about using ActiveState Python in your organization.

Đừng nhầm lẫn với Pandas, hệ thống quản lý lưu trữ Úc được sử dụng cho kho lưu trữ Pandora.

gấu trúc
Hướng dẫn what is the purpose of pandas in python? - mục đích của gấu trúc trong trăn là gì?
(Các) tác giả gốcWes McKinney
Developer(s)Cộng đồng
phát hành lần đầu11 & nbsp; tháng 1 năm 2008; 14 năm trước [cần trích dẫn]; 14 years ago[citation needed]
Phiên bản ổn định

1.5.0 [1] / 19 tháng 9 năm 2022; 22 ngày trước; 22 days ago

Kho

  • github.com/pandas-dev/pandas
    Hướng dẫn what is the purpose of pandas in python? - mục đích của gấu trúc trong trăn là gì?

Viết vàoPython, Cython, C
Hệ điều hànhĐa nền tảng
Loại hìnhĐiện toán kỹ thuật
Giấy phépGiấy phép BSD mới
Trang mạngpandas.pydata.org

Pandas là một thư viện phần mềm được viết cho ngôn ngữ lập trình Python để thao tác và phân tích dữ liệu. [2] Cụ thể, nó cung cấp các cấu trúc dữ liệu và hoạt động để thao tác các bảng số và chuỗi thời gian. Nó là phần mềm miễn phí được phát hành theo giấy phép BSD ba điều khoản. [3] Tên này có nguồn gốc từ thuật ngữ "dữ liệu bảng", một thuật ngữ kinh tế lượng cho các bộ dữ liệu bao gồm các quan sát trong nhiều khoảng thời gian cho cùng một cá nhân. [4] Tên của nó là một vở kịch trên cụm từ "Phân tích dữ liệu Python". [5] Wes McKinney bắt đầu xây dựng những gì sẽ trở thành gấu trúc tại AQR Capital khi ông là một nhà nghiên cứu ở đó từ năm 2007 đến 2010. [6] is a software library written for the Python programming language for data manipulation and analysis.[2] In particular, it offers data structures and operations for manipulating numerical tables and time series. It is free software released under the three-clause BSD license.[3] The name is derived from the term "panel data", an econometrics term for data sets that include observations over multiple time periods for the same individuals.[4] Its name is a play on the phrase "Python data analysis" itself.[5] Wes McKinney started building what would become pandas at AQR Capital while he was a researcher there from 2007 to 2010.[6]

Các tính năng thư viện [Chỉnh sửa][edit]

  • Đối tượng DataFrame cho thao tác dữ liệu với lập chỉ mục tích hợp.
  • Các công cụ để đọc và ghi dữ liệu giữa các cấu trúc dữ liệu trong bộ nhớ và các định dạng tệp khác nhau.
  • Căn chỉnh dữ liệu và xử lý tích hợp dữ liệu bị thiếu.
  • Định hình lại và xoay vòng các tập dữ liệu.
  • Cắt dựa trên nhãn, lập chỉ mục ưa thích và tập hợp các bộ dữ liệu lớn.
  • Cấu trúc dữ liệu Chèn và xóa cột.
  • Nhóm theo động cơ cho phép các hoạt động đánh dấu-apply trên các bộ dữ liệu.
  • Dữ liệu tập hợp hợp nhất và tham gia.
  • Lập chỉ mục trục phân cấp để làm việc với dữ liệu chiều cao trong cấu trúc dữ liệu chiều thấp hơn.
  • Chức năng chuỗi thời gian: Tạo phạm vi ngày [7] và chuyển đổi tần số, thống kê cửa sổ di chuyển, hồi quy tuyến tính cửa sổ, dịch chuyển ngày và tụt hậu.
  • Cung cấp lọc dữ liệu.

Thư viện được tối ưu hóa cao cho hiệu suất, với các đường dẫn mã quan trọng được viết bằng Cython hoặc C. [8]

DataFrames[edit][edit]

Pandas chủ yếu được sử dụng để phân tích dữ liệu và thao tác liên quan đến dữ liệu bảng trong các khung dữ liệu. Pandas cho phép nhập dữ liệu từ các định dạng tệp khác nhau như các giá trị được phân tách bằng dấu phẩy, JSON, bảng điều khiển, bảng cơ sở dữ liệu SQL hoặc truy vấn và Microsoft Excel. [9] Pandas cho phép các hoạt động thao tác dữ liệu khác nhau như hợp nhất, [10] định hình lại, [11] chọn, [12] cũng như làm sạch dữ liệu và các tính năng gây tranh cãi dữ liệu. Sự phát triển của gấu trúc được giới thiệu thành Python nhiều tính năng tương đương khi làm việc với các khung dữ liệu được thiết lập trong ngôn ngữ lập trình R. Thư viện PANDAS được xây dựng trên một thư viện khác Numpy, được định hướng để làm việc hiệu quả với các mảng thay vì các tính năng làm việc trên DataFrames.

History[edit][edit]

Nhà phát triển Wes McKinney bắt đầu làm việc trên Gandas vào năm 2008 trong khi tại AQR Capital Management vì nhu cầu về một công cụ linh hoạt, hiệu suất cao để thực hiện phân tích định lượng trên dữ liệu tài chính. Trước khi rời AQR, anh ta đã có thể thuyết phục ban quản lý cho phép anh ta mở nguồn thư viện.

Một nhân viên AQR khác, Chang She, đã tham gia nỗ lực vào năm 2012 với tư cách là người đóng góp chính thứ hai cho thư viện.

Vào năm 2015, Pandas đã ký hợp đồng với tư cách là một dự án được tài trợ bởi Numf Focus, một tổ chức từ thiện phi lợi nhuận 501 (c) (3) tại Hoa Kỳ. [13]

Timeline:[14][edit][edit]

  • 2008: Phát triển gấu trúc bắt đầu
  • 2009: Pandas trở thành nguồn mở
  • 2012: Phiên bản đầu tiên của Python để phân tích dữ liệu được công bố
  • 2015: Pandas trở thành một dự án được tài trợ Numf Focus
  • 2018: Nhà phát triển cốt lõi đầu tiên chạy nước rút

Xem thêm [sửa][edit]

  • matplotlib
  • Numpy
  • Bỏ qua
  • Scipy
  • R (Ngôn ngữ lập trình)
  • Scikit-learn
  • StatSmodels
  • Danh sách phần mềm phân tích số

References[edit][edit]

  1. ^"Phát hành Pandas 1.5.0". "Release Pandas 1.5.0".
  2. ^Brooks, Gabriel. "Giới thiệu về Python Pandas cho người mới bắt đầu". Almabetter.com. Truy cập ngày 24 tháng 10 năm 2020. Brooks, Gabriel. "Introduction to Python Pandas for Beginners". Almabetter.com. Retrieved 24 October 2020.
  3. ^"Giấy phép - Tổng quan về gói - Tài liệu Pandas 1.0.0". gấu trúc. 28 tháng 1 năm 2020. Truy cập ngày 30 tháng 1 năm 2020. "License – Package overview – pandas 1.0.0 documentation". pandas. 28 January 2020. Retrieved 30 January 2020.
  4. ^Wes McKinney (2011). "Pandas: Một thư viện Python nền tảng để phân tích dữ liệu và thống kê" (PDF). Truy cập ngày 2 tháng 8 năm 2018. Wes McKinney (2011). "pandas: a Foundational Python Library for Data Analysis and Statistics" (PDF). Retrieved 2 August 2018.
  5. ^McKinney, Wes (2017). Python để phân tích dữ liệu, phiên bản thứ hai. Phương tiện truyền thông O'Reilly. p. & nbsp; 5. ISBN & NBSP; 9781491957660. McKinney, Wes (2017). Python for Data Analysis, Second Edition. O'Reilly Media. p. 5. ISBN 9781491957660.
  6. ^Kopf, Dan. "Gặp gỡ người đàn ông đằng sau công cụ quan trọng nhất trong khoa học dữ liệu". Quartz. Truy cập ngày 17 tháng 11 năm 2020. Kopf, Dan. "Meet the man behind the most important tool in data science". Quartz. Retrieved 17 November 2020.
  7. ^"Pandas.Date_Range - Tài liệu Pandas 1.0.0". gấu trúc. 29 tháng 1 năm 2020. Truy cập ngày 30 tháng 1 năm 2020. "pandas.date_range – pandas 1.0.0 documentation". pandas. 29 January 2020. Retrieved 30 January 2020.
  8. ^"Thư viện phân tích dữ liệu Python - Pandas: Thư viện phân tích dữ liệu Python". gấu trúc. Truy cập ngày 13 tháng 11 năm 2017. "Python Data Analysis Library – pandas: Python Data Analysis Library". pandas. Retrieved 13 November 2017.
  9. ^"Công cụ IO (văn bản, CSV, HDF5, Mạnh) - Tài liệu Pandas 1.4.1". "IO tools (Text, CSV, HDF5, …) — pandas 1.4.1 documentation".
  10. ^"Hợp nhất, tham gia, Concatenate và so sánh - Tài liệu Pandas 1.4.1". "Merge, join, concatenate and compare — pandas 1.4.1 documentation".
  11. ^"Các bảng định hình lại và xoay vòng - Tài liệu Pandas 1.4.1". "Reshaping and pivot tables — pandas 1.4.1 documentation".
  12. ^"Lập chỉ mục và chọn dữ liệu - Tài liệu Pandas 1.4.1". "Indexing and selecting data — pandas 1.4.1 documentation".
  13. ^"Numf Focus - Pandas: một dự án được tài trợ bởi tài chính". Numf Focus. Truy cập ngày 3 tháng 4 năm 2018. "NumFOCUS – pandas: a fiscally sponsored project". NumFOCUS. Retrieved 3 April 2018.
  14. ^"Pandas - Thư viện phân tích dữ liệu Python". pandas.pydata.org. Truy cập ngày 29 tháng 9 năm 2021. "pandas - Python Data Analysis Library". pandas.pydata.org. Retrieved 29 September 2021.

Đọc thêm [Chỉnh sửa][edit]

  • McKinney, Wes (2017). Python để phân tích dữ liệu & nbsp; Sebastopol: O'Reilly. ISBN & NBSP; 978-1-4919-5766-0.
  • Molin, Stefanie (2019). Phân tích dữ liệu thực hành với gấu trúc: Thực hiện hiệu quả việc thu thập dữ liệu, tranh cãi, phân tích và trực quan hóa bằng Python. Đóng gói. ISBN & NBSP; 978-1-7896-1532-6.
  • Chen, Daniel Y. (2018). Gandas cho tất cả mọi người & nbsp ;: Phân tích dữ liệu Python. Boston: Addison-Wesley. ISBN & NBSP; 978-0-13-454693-3.
  • Vanderplas, Jake (2016). "Thao tác dữ liệu với gấu trúc". Cẩm nang khoa học dữ liệu Python: Các công cụ thiết yếu để làm việc với dữ liệu. O'Reilly. Trang & NBSP; 97 Từ216. ISBN & NBSP; 978-1-4919-1205-8.
  • Pathak, Chankey (2018). Cookbook Pandas. Trang & nbsp; 1 trận8.

Liên kết bên ngoài [Chỉnh sửa][edit]

  • Trang web chính thức

Tại sao chúng ta sử dụng gấu trúc trong Python?

Pandas là một thư viện Python để phân tích dữ liệu.Bắt đầu bởi Wes McKinney vào năm 2008 vì nhu cầu về một công cụ phân tích định lượng mạnh mẽ và linh hoạt, Pandas đã phát triển thành một trong những thư viện Python phổ biến nhất.Nó có một cộng đồng đóng góp cực kỳ tích cực.for data analysis. Started by Wes McKinney in 2008 out of a need for a powerful and flexible quantitative analysis tool, pandas has grown into one of the most popular Python libraries. It has an extremely active community of contributors.

Pandas là gì và việc sử dụng gấu trúc là gì?

Pandas là gì?Pandas là một thư viện Python được sử dụng để làm việc với các bộ dữ liệu.Nó có các chức năng để phân tích, làm sạch, khám phá và thao tác dữ liệu.Tên "Pandas" có một tham chiếu đến cả "dữ liệu bảng" và "phân tích dữ liệu Python" và được Wes McKinney tạo ra vào năm 2008.a Python library used for working with data sets. It has functions for analyzing, cleaning, exploring, and manipulating data. The name "Pandas" has a reference to both "Panel Data", and "Python Data Analysis" and was created by Wes McKinney in 2008.