Hướng dẫn freecodecamp data analysis with python projects - phân tích dữ liệu freecodecamp với các dự án python

Freecodecamp là một tổ chức phi lợi nhuận do nhà tài trợ hỗ trợ 501 (c) (3) (Số nhận dạng thuế liên bang Hoa Kỳ: 82-0779546)

Nhiệm vụ của chúng tôi: Để giúp mọi người học cách viết mã miễn phí. Chúng tôi thực hiện điều này bằng cách tạo hàng ngàn video, bài viết và các bài học mã hóa tương tác - tất cả đều có sẵn miễn phí cho công chúng. Chúng tôi cũng có hàng ngàn nhóm nghiên cứu Freecodecamp trên khắp thế giới.

Quyên góp cho Freecodecamp hướng tới các sáng kiến ​​giáo dục của chúng tôi và giúp trả tiền cho máy chủ, dịch vụ và nhân viên.

Bạn có thể thực hiện quyên góp được khấu trừ thuế ở đây.

fcc-data-analysis-with-python

Nhìn chung, các dự án đại diện cho một cách tuyệt vời để xây dựng sự quen thuộc với nhiều nhiệm vụ và gói phân tích dữ liệu phổ biến, và phục vụ như một giới thiệu rất tốt cho lĩnh vực này.

Sau khi hoàn thành, bạn sẽ nhận được một chứng chỉ cho phép bạn xây dựng một số niềm tin vào các kỹ năng của mình trước khi chuyển sang học tập và xây dựng dự án tiếp theo.

Tổng quan

Notebook khóa học và xây dựng các dự án này cho phép tôi có được các kỹ năng mới và làm quen với hộp công cụ phân tích dữ liệu và trực quan của Python. Tôi đã học toàn bộ quá trình phân tích dữ liệu: đọc dữ liệu từ nhiều nguồn (CSV, SQL, Excel, v.v.), xử lý chúng bằng cách sử dụng Numpy và Pandas, trực quan hóa chúng bằng cách sử dụng matplotlib và Seaborn và Clean và xử lý nó để tạo báo cáo.

Chứng nhận

Các dự án này cũng cho phép tôi có được phân tích dữ liệu của mình với chứng nhận Python, là chứng nhận của nhà phát triển, đại diện cho khoảng 400 giờ của khóa học.

    • Hành động

      Tự động hóa bất kỳ quy trình làm việc

    • Gói

      Máy chủ và quản lý các gói

    • Bảo vệ

      Tìm và sửa chữa lỗ hổng

    • Không gian mã hóa

      Môi trường dev tức thì

    • Phi công phụ

      Viết mã tốt hơn bằng AI

    • Đánh giá mã

      Quản lý thay đổi mã

    • Vấn đề

      Lập kế hoạch và theo dõi công việc

    • Thảo luận

      Hợp tác bên ngoài mã

    • Khám phá
    • Tất cả các tính năng
    • Tài liệu
    • Kỹ năng GitHub
    • Blog

    • Theo kế hoạch
    • Doanh nghiệp
    • Đội
    • So sánh tất cả
    • Bằng giải pháp
    • CI/CD & tự động hóa
    • DevOps
    • DevSecops
    • Nghiên cứu trường hợp
    • Câu chuyện của khách hàng
    • Tài nguyên

    • Nhà tài trợ GitHub

      Quỹ phát triển nguồn mở

    • Dự án Readme

      Bài viết cộng đồng GitHub

    • Kho lưu trữ
    • Chủ đề
    • Xu hướng
    • Bộ sưu tập

  • Giá cả

Một nhà phân tích tổng quan về các khái niệm chính và những gì mong đợi

Ảnh của Martin Sanchez trên unplash

(Ghi chú: Tất cả các ý kiến ​​là của riêng tôi)

Giới thiệu

Việc mài giũa kỹ năng lập trình Python của bạn luôn hữu ích cho những người bạn làm việc trong phân tích dữ liệu & khoa học dữ liệu, và việc học liên tục được yêu cầu trong không gian phát triển bị chi phối bởi các trường hợp sử dụng ngày càng mở rộng và ngôn ngữ lập trình nguồn mở và chất lỏng.

Cuối cùng, những người bạn thích mã hóa thực tế hơn là ngồi qua nhiều phút của các bài học video nên tìm các dự án xây dựng thách thức và giải trí, và cách tốt nhất để bị mắc kẹt và tìm hiểu các khái niệm mới trên đường đi.

Trong bài viết này, tôi sẽ đưa ra một cái nhìn tổng quan về những gì mong đợi nếu bạn quyết định xây dựng các dự án có trong phân tích dữ liệu trên mạng với phần Python, trong chương trình giảng dạy mà tôi đã hoàn thành gần đây. Chứng nhận hoàn toàn dựa trên dự án, và các bài giảng hoàn toàn tùy chọn.

Bài viết này sẽ chỉ tập trung vào các dự án cuối cùng, mà tôi quyết định tự kiểm tra trong các giờ sau của mình.

Chứng chỉ tác giả

Tuyên bố miễn trừ trách nhiệm: Thời lượng khóa học ước tính là 400 giờ (Bài giảng + Dự án); Tôi có ~ 3 năm làm việc với Python với tư cách là một nhà phân tích dữ liệu và trong khi tôi chỉ tập trung vào các dự án để hoàn thành chứng nhận, tôi chắc chắn đã đầu tư lên tới 400 giờ vào hành trình lập trình Python của mình. the estimated course duration is 400 hours (lectures + projects); I have ~3 years of working with Python as a Data Analyst, and while I solely focused on the projects to complete the certification, I have certainly invested upwards of 400 hours in my Python programming journey.

Nếu bạn mới bắt đầu, tôi chắc chắn khuyên bạn nên trải qua các bài giảng Freecodecamp và đưa thời gian ước tính vào, vì về lâu dài, nó sẽ có lợi cho bạn nhiều hơn là chỉ có được chứng chỉ.

Tài nguyên được đề xuất là:

  • Freecodecamp- Phân tích dữ liệu với khóa học Python

Các dự án

Trọng tâm của các thách thức (thành thật mà nói, chúng khép kín hơn so với các dự án đầy đủ, và do đó, tên là Thử thách, cảm thấy phù hợp hơn ở đây) là xung quanh việc xây dựng các phần chức năng khép kín (tức là các chức năng Python phân tích dữ liệu và trả về một đầu ra bằng số hoặc trực quan) thay vì xây dựng một quy trình công việc lớn. Về vấn đề này, thiết lập không quá khác biệt so với các thách thức mã hóa cổ điển, mặc dù những thứ này có lẽ dài hơn một chút.

Mỗi thử thách được kiểm tra so với các bài kiểm tra đơn vị khác nhau thách thức mã của bạn trong các điều kiện khác nhau.

Điều này không khác biệt lớn so với công việc mà một nhà phân tích dữ liệu Python sẽ thấy mình đang thực hiện một lần trong một dự án, nơi bạn sẽ có khả năng được giao nhiệm vụ khám phá dữ liệu và trả lời một số câu hỏi liên quan đến vấn đề kinh doanh trong tay.

Các gói bạn sẽ sử dụng sẽ chủ yếu là numpy và/hoặc gấu trúc để thao tác dữ liệu và matplotlib và/hoặc seeborn để trực quan hóa dữ liệu.

1. Máy tính sai lệch tiêu chuẩn trung bình

Biểu tượng ma trận được thiết kế bởi Vitaly Gorbachev

Mục tiêu: Tạo một hàm có tên calculate() sử dụng Numpy để xuất ra giá trị trung bình, phương sai, độ lệch chuẩn, tối đa, tối thiểu và tổng của các hàng, cột và các phần tử trong ma trận 3 x 3.: “Create a function named calculate() that uses Numpy to output the mean, variance, standard deviation, max, min, and sum of the rows, columns, and elements in a 3 x 3 matrix.”

Cân nhắc: Điều này cảm thấy như là thách thức dễ nhất về thời gian, nhưng nó chắc chắn rất quan trọng vì nó chạm vào một số khối xây dựng chính và các khái niệm về gói Numpy, có tầm quan trọng cơ bản đối với nhiều tính toán phức tạp trong lĩnh vực khoa học dữ liệu, trong đó Bạn sẽ làm việc với dữ liệu ma trận và loại mảng rất nhiều và sẽ cần phải định hình lại nó và nhào nặn liên tục trong quá trình xử lý dữ liệu.this felt like the easiest challenge in terms of time, but it is definitely important as it touches some of the key building blocks and concepts of the numpy package, which are of fundamental importance for many complex computations in the data science realm, where you will be working with matrix and array-type data a lot and will need to reshape it and mold it constantly during the data processing pipeline.

Cách tiếp cận: Khám phá và tận dụng các chức năng được xây dựng trong các chức năngdiscover and leverage numpy’s built in functions

Các khái niệm chính: định hình lại dữ liệu, nhắm mục tiêu trục, mảng numpydata reshape, axis targeting, numpy arrays

2. Máy phân tích dữ liệu nhân khẩu học

Nguồn: Tác giả

Mục tiêu: Sử dụng gấu trúc để trả lời các câu hỏi khác nhau về bộ dữ liệu dựa trên điều tra dân số: “Use Pandas to answer various questions about a Census-based dataset”

Cân nhắc: Đây là một thách thức phân tích dữ liệu cổ điển trong đó bạn được cung cấp một bộ dữ liệu và cần trả lời các câu hỏi khác nhau khi bạn khám phá nó. Để làm như vậy, bạn sẽ tận dụng tối đa các phương pháp thao tác dữ liệu của Pandas và tìm hiểu các phương pháp mới trên đường đi.This is a classic data analysis challenge where you are given a dataset and need to answer various questions as you explore it. To do so, you will make the most of Pandas’ data manipulation methods, and learn new ones along the way.

Cách tiếp cận: Chuyển đổi các câu hỏi chung thành các phương pháp gấu trúc; chuỗi chúng lại với nhau để có được câu trả lời cuối cùngConvert the general questions into Pandas methods; chain them together to get to the final answer

Các khái niệm chính: Số lượng và phân phối tần số phân loại, nhóm và định hình lại dữ liệu, lọc và sắp xếp, tính toán KPICategorical frequency counts and distributions, grouping and reshaping data, filtering and sorting, KPI calculation

3. Trực quan hóa dữ liệu y tế

Nguồn: Tác giả

Mục tiêu: Trực quan hóa và thực hiện các tính toán từ dữ liệu kiểm tra y tế bằng cách sử dụng matplotlib, seeborn và pandas,: “Visualize and make calculations from medical examination data using matplotlib, seaborn, and pandas”

Cân nhắc: Đây là một thách thức trực quan hóa dữ liệu cổ điển trong đó bạn được cung cấp một bộ dữ liệu y tế và cần vẽ sơ đồ các sơ đồ ma trận phân loại và tương quan, trong khi sử dụng một số gói phổ biến như Seaborn, nhưng cũng có các phương pháp ít được biết đến như Ma trận tương quan sử dụng các phương thức lập chỉ mục numpy kết hợp với dữ liệu mảng. Tôi chưa bao giờ tự mình tiếp xúc với khái niệm này và dành khá nhiều thời gian để nghiên cứu các mẹo hữu ích trên Stack Overflow. Chắc chắn là một cái gọn gàng.This is a classic data visualization challenge where you are given a medical dataset and need to plot categorical and correlation matrix -type plots, while making use of some popular packages like seaborn, but also of less known methods such as “masking” a correlation matrix using numpy indexing methods in combination with array data. I had never been exposed to this concept myself and spent quite a bit of time researching useful tips on Stack Overflow. Definitely a neat one.

Cách tiếp cận: Chuyển đổi các câu hỏi chung thành các phương pháp gấu trúc; chuỗi chúng lại với nhau để có được câu trả lời cuối cùng; Kết xuất câu trả lời cuối cùng bằng cách sử dụng sơ đồ trên biển kết hợp với các đối số định dạng được hỗ trợ bởi NumpyConvert the general questions into Pandas methods; chain them together to get to the final answer; render the final answer using seaborn plotting in combination with formatting arguments supported by numpy

Các khái niệm chính: định hình lại và nhóm dữ liệu, loại bỏ ngoại lệ, lô biển, mặt nạ numpyReshaping and grouping data, outlier removal, seaborn plots, numpy masks

4. Trình xem chuỗi thời gian trực quan

Nguồn: Tác giả

Mục tiêu: Sử dụng gấu trúc để trả lời các câu hỏi khác nhau về bộ dữ liệu dựa trên điều tra dân số: “visualize time series data using a line chart, bar chart, and box plots”

Cân nhắc: Đây là một thách thức phân tích dữ liệu cổ điển trong đó bạn được cung cấp một bộ dữ liệu và cần trả lời các câu hỏi khác nhau khi bạn khám phá nó. Để làm như vậy, bạn sẽ tận dụng tối đa các phương pháp thao tác dữ liệu của Pandas và tìm hiểu các phương pháp mới trên đường đi.Similar to project 3, with the added caveat of having to process time series data to render trends and distributions over time

Cách tiếp cận: Chuyển đổi các câu hỏi chung thành các phương pháp gấu trúc; chuỗi chúng lại với nhau để có được câu trả lời cuối cùngConvert the general questions into Pandas methods; chain them together to get to the final answer; render the final answer using seaborn plotting in combination with formatting arguments.

Các khái niệm chính: Số lượng và phân phối tần số phân loại, nhóm và định hình lại dữ liệu, lọc và sắp xếp, tính toán KPIPivoting and grouping data, outlier removal, seaborn plots, time series representation

3. Trực quan hóa dữ liệu y tế

Nguồn: Tác giả

Mục tiêu: Trực quan hóa và thực hiện các tính toán từ dữ liệu kiểm tra y tế bằng cách sử dụng matplotlib, seeborn và pandas,: “Analyze a dataset of the global average sea level change since 1880. Use the data to predict the sea level change through year 2050 with two different regression models”

Cân nhắc: Đây là một thách thức trực quan hóa dữ liệu cổ điển trong đó bạn được cung cấp một bộ dữ liệu y tế và cần vẽ sơ đồ các sơ đồ ma trận phân loại và tương quan, trong khi sử dụng một số gói phổ biến như Seaborn, nhưng cũng có các phương pháp ít được biết đến như Ma trận tương quan sử dụng các phương thức lập chỉ mục numpy kết hợp với dữ liệu mảng. Tôi chưa bao giờ tự mình tiếp xúc với khái niệm này và dành khá nhiều thời gian để nghiên cứu các mẹo hữu ích trên Stack Overflow. Chắc chắn là một cái gọn gàng.In this project the added component of a simple regression model is introduced when working with time series data; you will make use of the SciPy package to fit a couple of regression models to estimate sea level projections. This project is a simple yet useful introductions to a statistical model, which closes off the series.

Cách tiếp cận: Phù hợp với mô hình hồi quy hai dữ liệu và vẽ các giá trị dự đoán trong chuỗi thời gian hiện tại Fit regression models two the data, and plot the predicted values over the current time-series

Khái niệm chính: Mô hình hồi quy, Scatterplot, Định dạng đồ thịRegression model, scatterplot, graph formatting

Tóm tắt và các bước tiếp theo

Nhìn chung, các dự án đại diện cho một cách tuyệt vời để xây dựng sự quen thuộc với nhiều nhiệm vụ và gói phân tích dữ liệu phổ biến, và phục vụ như một giới thiệu rất tốt cho lĩnh vực này.

Sau khi hoàn thành, bạn sẽ nhận được một chứng chỉ cho phép bạn xây dựng một số niềm tin vào các kỹ năng của mình trước khi chuyển sang học tập và xây dựng dự án tiếp theo.

Cảm ơn vì đã đọc!

Tôi có thể làm phân tích dữ liệu trong Python không?

Trong phân tích dữ liệu với chứng nhận Python, bạn sẽ tìm hiểu các nguyên tắc cơ bản của phân tích dữ liệu với Python. Khi kết thúc chứng nhận này, bạn sẽ biết cách đọc dữ liệu từ các nguồn như CSV và SQL, và cách sử dụng các thư viện như Numpy, Pandas, Matplotlib và Seaborn để xử lý và trực quan hóa dữ liệu.. By the end of this certification, you'll know how to read data from sources like CSVs and SQL, and how to use libraries like Numpy, Pandas, Matplotlib, and Seaborn to process and visualize data.

Codecademy có tốt hơn freecodecamp không?

Tóm lại, Freecodecamp là chương trình để sử dụng khi bạn muốn cải thiện kỹ năng của mình, trong khi Codecademy là tốt nhất để có được sự hiểu biết của người mới bắt đầu về mã hóa.Tuy nhiên, chúng tôi nhận ra rằng điều này có thể không phải lúc nào cũng như vậy vì mọi sinh viên đều khác nhau và có thể làm tốt hơn trong một chương trình giảng dạy thách thức hơn so với một chương trình đơn giản.Codecademy is best to gain a beginner's understanding of coding. However, we recognize that this may not always be the case as every student is different and may do better in a more challenging curriculum than a simple one.

Freecodecamp có tốt cho Python không?

Freecodecamp có một trong những khóa học phổ biến nhất trên Python.Nó hoàn toàn miễn phí (và thậm chí không có bất kỳ quảng cáo nào).Bạn có thể xem nó trên YouTube tại đây.It's completely free (and doesn't even have any advertisements). You can watch it on YouTube here.

Python nào là tốt nhất để phân tích dữ liệu?

Pandas (phân tích dữ liệu Python) là phải trong vòng đời khoa học dữ liệu.Đây là thư viện Python phổ biến và được sử dụng rộng rãi nhất cho khoa học dữ liệu, cùng với sự numpy trong matplotlib. is a must in the data science life cycle. It is the most popular and widely used Python library for data science, along with NumPy in matplotlib.