Một nhà khoa học dữ liệu cần biết bao nhiêu con trăn?

Hầu hết các nhà khoa học dữ liệu tham vọng bắt đầu học Python bằng cách tham gia các khóa học lập trình dành cho nhà phát triển. Họ cũng bắt đầu giải các câu đố về lập trình Python trên các trang web như LeetCode với giả định rằng họ phải nắm vững các khái niệm lập trình trước khi bắt đầu phân tích dữ liệu bằng Python

Nội dung chính Show

Định cấu hình môi trường lập trình của bạn
Chỉ học những kiến thức cơ bản về Python
Numpy và Pandas - Một nguồn tuyệt vời để tìm hiểu chúng
Tìm hiểu cách trực quan hóa dữ liệu bằng Matplotlib
Cách sử dụng SQL và Python
Tìm hiểu Thống kê cơ bản với Python
Thực hiện Machine Learning bằng Scikit-Learn
Phần kết luận
Bao nhiêu Python được sử dụng trong khoa học dữ liệu?
Python cơ bản có đủ cho khoa học dữ liệu không?
Những kỹ năng Python nào cần thiết cho khoa học dữ liệu?
Một nhà khoa học dữ liệu nên biết bao nhiêu mã hóa?

Đây là một sai lầm nghiêm trọng vì các nhà khoa học dữ liệu sử dụng Python để truy xuất, làm sạch, trực quan hóa và xây dựng mô hình; . Do đó, bạn phải tập trung phần lớn thời gian của mình vào việc học các mô-đun và thư viện trong Python để thực hiện các tác vụ này

Thực hiện theo các bước tăng dần này để tìm hiểu Python cho khoa học dữ liệu

Định cấu hình môi trường lập trình của bạn

Jupyter Notebook là một môi trường lập trình mạnh mẽ để phát triển và trình bày các dự án khoa học dữ liệu.

Cách đơn giản nhất để bạn cài đặt Jupyter Notebook trên máy tính của mình là cài đặt Anaconda. Anaconda là Bản phân phối Python được sử dụng rộng rãi nhất cho khoa học dữ liệu và được tải sẵn tất cả các thư viện phổ biến nhất

Bạn có thể xem qua bài đăng trên blog có tiêu đề "Hướng dẫn cho người mới bắt đầu cài đặt Jupyter Notebook bằng cách sử dụng bản phân phối Anaconda" để tìm hiểu cách cài đặt Anaconda. Trong khi cài đặt Anaconda, hãy chọn phiên bản Python 3 mới nhất

Sau khi cài đặt Anaconda, hãy xem qua bài viết này trên Code Academy để tìm hiểu cách sử dụng Jupyter Notebooks

Chỉ học những kiến thức cơ bản về Python

Code Academy có một khóa học tuyệt vời về Python, bạn sẽ mất khoảng 20 giờ để hoàn thành khóa học đó. Bạn không cần phải nâng cấp lên Phiên bản Pro vì mục tiêu của bạn chỉ là làm quen với những kiến thức cơ bản về ngôn ngữ lập trình Python.

Numpy và Pandas - Một nguồn tuyệt vời để tìm hiểu chúng

Python chậm đối với các thuật toán nặng về số lượng và xử lý lượng dữ liệu lớn. Bạn có thể hỏi tại sao Python lại là ngôn ngữ lập trình phổ biến nhất cho khoa học dữ liệu?

Câu trả lời là trong Python, có thể dễ dàng giảm tải các tác vụ xử lý số xuống lớp thấp hơn dưới dạng tiện ích mở rộng C hoặc Fortran. Đó chính xác là những gì Numpy và Pandas làm

Trước tiên, bạn nên học Numpy. Đây là mô-đun cơ bản nhất cho tính toán khoa học với Python. Numpy cung cấp sự hỗ trợ của các mảng đa chiều được tối ưu hóa cao, là cấu trúc dữ liệu cơ bản nhất của hầu hết các thuật toán Machine Learning

Tiếp theo, bạn nên học Pandas. Các nhà khoa học dữ liệu dành phần lớn thời gian của họ để làm sạch dữ liệu, còn được gọi là trộn dữ liệu hoặc xáo trộn dữ liệu

Pandas là thư viện Python phổ biến nhất để thao tác dữ liệu. Pandas là một phần mở rộng của NumPy. Mã cơ bản cho Pandas sử dụng rộng rãi thư viện NumPy. Cấu trúc dữ liệu chính trong Pandas được gọi là khung dữ liệu

Wes McKinney, người tạo ra Pandas, đã viết một cuốn sách tuyệt vời có tên "Python để phân tích dữ liệu". Xem qua các chương 4, 5, 7, 8 và 10 để tìm hiểu về Pandas và Numpy. Các chương này bao gồm các tính năng Numpy và Pandas được sử dụng thường xuyên nhất để thao tác dữ liệu

Tìm hiểu cách trực quan hóa dữ liệu bằng Matplotlib

Matplotlib là gói Python cơ bản để tạo các hình ảnh trực quan cơ bản. Bạn phải học cách sử dụng Matplotlib để tạo một số biểu đồ phổ biến nhất như Biểu đồ đường, Biểu đồ thanh, Biểu đồ phân tán, Biểu đồ và Biểu đồ hộp.

Một thư viện đồ thị tốt khác được xây dựng trên Matplotlib và được tích hợp chặt chẽ với Pandas được gọi là Seaborn. Ở giai đoạn này, tôi khuyên bạn nên nhanh chóng học cách tạo các biểu đồ cơ bản trong Matplotlib và không tập trung vào Seaborn

Tôi đã viết một hướng dẫn gồm bốn phần về cách phát triển các biểu đồ cơ bản bằng Matplotlib

Phần một. Các số liệu cơ bản trong Matplotlib

Phần hai. Cách kiểm soát kiểu dáng và màu sắc của hình, chẳng hạn như điểm đánh dấu, độ dày của đường kẻ, mẫu đường kẻ và sử dụng bản đồ màu

Một phần ba. Chú thích, kiểm soát phạm vi trục, tỷ lệ khung hình và hệ tọa độ

phần bốn. Làm việc với các số liệu phức tạp

Bạn xem qua các hướng dẫn này để nắm bắt kiến thức cơ bản về Matplotlib

Lưu ý nhanh, bạn không cần phải dành quá nhiều thời gian để học Matplotlib vì ngày nay các công ty đã bắt đầu áp dụng các công cụ như Tableau và Qlik để tạo trực quan hóa tương tác

Cách sử dụng SQL và Python

Trong tổ chức, dữ liệu nằm trong cơ sở dữ liệu. Do đó, bạn cần biết cách truy xuất dữ liệu bằng SQL và thực hiện phân tích trong Jupyter Notebook bằng Python.

Các nhà khoa học dữ liệu thao tác dữ liệu bằng cả SQL và Pandas. Bởi vì có một số tác vụ thao tác dữ liệu dễ thực hiện bằng SQL và có một số tác vụ nhất định có thể được thực hiện hiệu quả bằng Pandas. Cá nhân tôi thích sử dụng SQL để truy xuất dữ liệu và thực hiện các thao tác trong Pandas

Ngày nay, các công ty sử dụng các nền tảng phân tích như Mode Analytics và Databricks để dễ dàng làm việc với Python và SQL

Vì vậy, bạn nên biết cách sử dụng hiệu quả SQL và Python cùng nhau. Để tìm hiểu điều đó, bạn có thể cài đặt cơ sở dữ liệu SQLite trên máy tính của mình và lưu trữ tệp CSV trong đó và phân tích nó bằng Python và SQL. Đây là một bài đăng trên blog tuyệt vời chỉ cho bạn cách làm điều đó. Lập trình với Cơ sở dữ liệu trong Python bằng SQLite

Trước khi xem qua bài đăng trên blog, bạn nên hiểu những điều cơ bản về SQL. Chế độ Analytics có một hướng dẫn tốt về SQL. Giới thiệu về SQL. Xem qua phần SQL CƠ BẢN của họ để hiểu rõ những điều cơ bản về SQL vì mọi nhà khoa học dữ liệu chắc chắn nên biết cách truy xuất dữ liệu hiệu quả bằng SQL

Tìm hiểu Thống kê cơ bản với Python

Hầu hết các Nhà khoa học dữ liệu khao khát trực tiếp chuyển sang học máy học mà không cần học những kiến thức cơ bản về thống kê.

Đừng phạm sai lầm đó vì Thống kê là xương sống của khoa học dữ liệu. Mặt khác, các nhà khoa học dữ liệu khao khát học thống kê chỉ học các khái niệm lý thuyết thay vì học các khái niệm thực tế

Theo các khái niệm thực tế, ý tôi là, bạn nên biết loại vấn đề nào có thể được giải quyết bằng Thống kê. Hiểu những thách thức bạn có thể vượt qua bằng Thống kê

Dưới đây là một số khái niệm thống kê cơ bản bạn nên biết

Lấy mẫu, phân phối tần suất, Giá trị trung bình, Trung vị, Chế độ, Đo lường độ biến thiên, Khái niệm cơ bản về xác suất, thử nghiệm quan trọng, độ lệch chuẩn, điểm z, khoảng tin cậy và thử nghiệm giả thuyết (bao gồm cả thử nghiệm A/B)

Một cuốn sách rất hay để dạy về Thống kê thực tế là “Practical Statistics for Data Scientist. 50 khái niệm cơ bản". Thật không may, đối với những người yêu thích Python như tôi, các ví dụ mã trong cuốn sách được viết bằng R. Tôi khuyên bạn nên đọc bốn chương đầu tiên của cuốn sách. Xem qua 4 chương đầu tiên của cuốn sách để hiểu các khái niệm thống kê cơ bản mà tôi đã đề cập trước đây, bỏ qua các ví dụ về mã và chỉ hiểu các khái niệm. Phần còn lại của các chương trong cuốn sách chủ yếu tập trung vào Machine Learning. Tôi sẽ nói về cách học Machine Learning trong phần tiếp theo

Hầu hết mọi người khuyên Think Stats học Thống kê với Python nhưng tác giả dạy các chức năng tùy chỉnh của riêng mình thay vì sử dụng các thư viện Python tiêu chuẩn như Statsmodels để thực hiện Thống kê. Đó là lý do tại sao tôi không giới thiệu cuốn sách này

Sau đó, mục tiêu của bạn là triển khai các khái niệm cơ bản mà bạn đã học trong Python. StatsModels là một thư viện Python phổ biến được sử dụng để xây dựng các mô hình thống kê trong Python. Trang web StatsModels có các hướng dẫn hay về cách triển khai các khái niệm thống kê bằng Python

Ngoài ra, bạn cũng có thể xem video này của Gaël Varoquaux. Anh ấy chỉ cho bạn cách thực hiện thống kê suy luận và thăm dò bằng Pandas và Mô hình thống kê

Thực hiện Machine Learning bằng Scikit-Learn

Scikit-Learn là một trong những Thư viện máy học phổ biến nhất trong Python. Mục tiêu của bạn là tìm hiểu cách triển khai một số thuật toán máy học phổ biến nhất bằng Scikit-Learn.

Đây là cách để làm điều đó

Trước tiên, hãy xem video tuần 1, 2, 3, 6, 7 và 8 của khóa học Máy học của Andrew Ng trên Coursera. Tôi đã bỏ qua các phần về Mạng nơ-ron vì ở điểm bắt đầu, bạn phải tập trung vào các kỹ thuật Học máy phổ biến nhất

Khi bạn đã hoàn thành việc đó, hãy đọc cuốn sách “Học máy thực hành với Scikit-Learn và TensorFlow”. Chỉ cần xem qua phần đầu tiên của cuốn sách (khoảng 300 trang). Đây là một trong những cuốn sách Machine Learning thiết thực nhất hiện có

Bằng cách thực hiện các bài tập mã hóa trong cuốn sách này, bạn sẽ học cách triển khai các khái niệm lý thuyết mà bạn đã học trong khóa học của Andrew Ng bằng Python

Phần kết luận

Bước cuối cùng của bạn là thực hiện một dự án khoa học dữ liệu bao gồm tất cả các bước trên. Bạn có thể tìm thấy tập hợp dữ liệu mình thích và sau đó đưa ra các câu hỏi kinh doanh thú vị mà bạn có thể trả lời bằng cách phân tích nó. Tuy nhiên, đừng chọn các tập dữ liệu chung chung như Titanic Machine Learning cho dự án của bạn. Bạn có thể đọc "19 địa điểm để tìm tập dữ liệu miễn phí cho dự án khoa học dữ liệu của bạn" để tìm tập dữ liệu.

Một cách khác là áp dụng khoa học dữ liệu vào một lĩnh vực mà bạn đam mê. Ví dụ: nếu bạn muốn dự đoán giá thị trường chứng khoán thì bạn có thể lấy dữ liệu thời gian thực từ Yahoo Finance và lưu trữ dữ liệu đó trong cơ sở dữ liệu SQL và sử dụng Máy học để dự đoán giá cổ phiếu

Nếu bạn đang muốn chuyển sang khoa học dữ liệu từ một ngành khác, tôi khuyên bạn nên làm việc trong một dự án tận dụng kiến thức chuyên môn về miền của bạn. Tôi đã giải thích sâu về cách tiếp cận này trong các bài đăng trên blog trước đây của mình "Hướng dẫn từng bước để chuyển sự nghiệp của bạn sang khoa học dữ liệu – Phần 1" và "Hướng dẫn từng bước để chuyển sự nghiệp của bạn sang dữ liệu

Bao nhiêu Python được sử dụng trong khoa học dữ liệu?

Python là ngôn ngữ cấp cao, mã nguồn mở, được thông dịch và cung cấp cách tiếp cận tuyệt vời cho lập trình hướng đối tượng. Đó là một trong những ngôn ngữ tốt nhất được nhà khoa học dữ liệu sử dụng cho các dự án/ứng dụng khoa học dữ liệu khác nhau . Python cung cấp chức năng tuyệt vời để xử lý toán học, thống kê và chức năng khoa học.

Python cơ bản có đủ cho khoa học dữ liệu không?

Khả năng đọc nội tại và tính rõ ràng của Python đã làm cho nó tương đối dễ sử dụng và số lượng thư viện phân tích chuyên dụng trên nó có thể được sử dụng dễ dàng khi tạo các mô hình xử lý Khoa học dữ liệu. Câu hỏi lớn là liệu Python có đủ cho Khoa học dữ liệu. Vâng, câu trả lời là KHÔNG