Hầu hết các nhà khoa học dữ liệu tham vọng bắt đầu học Python bằng cách tham gia các khóa học lập trình dành cho nhà phát triển. Họ cũng bắt đầu giải các câu đố về lập trình Python trên các trang web như LeetCode với giả định rằng họ phải nắm vững các khái niệm lập trình trước khi bắt đầu phân tích dữ liệu bằng Python Show
Đây là một sai lầm nghiêm trọng vì các nhà khoa học dữ liệu sử dụng Python để truy xuất, làm sạch, trực quan hóa và xây dựng mô hình; . Do đó, bạn phải tập trung phần lớn thời gian của mình vào việc học các mô-đun và thư viện trong Python để thực hiện các tác vụ này Thực hiện theo các bước tăng dần này để tìm hiểu Python cho khoa học dữ liệu Định cấu hình môi trường lập trình của bạn Cách đơn giản nhất để bạn cài đặt Jupyter Notebook trên máy tính của mình là cài đặt Anaconda. Anaconda là Bản phân phối Python được sử dụng rộng rãi nhất cho khoa học dữ liệu và được tải sẵn tất cả các thư viện phổ biến nhất Bạn có thể xem qua bài đăng trên blog có tiêu đề "Hướng dẫn cho người mới bắt đầu cài đặt Jupyter Notebook bằng cách sử dụng bản phân phối Anaconda" để tìm hiểu cách cài đặt Anaconda. Trong khi cài đặt Anaconda, hãy chọn phiên bản Python 3 mới nhất Sau khi cài đặt Anaconda, hãy xem qua bài viết này trên Code Academy để tìm hiểu cách sử dụng Jupyter Notebooks Chỉ học những kiến thức cơ bản về Python Numpy và Pandas - Một nguồn tuyệt vời để tìm hiểu chúng Câu trả lời là trong Python, có thể dễ dàng giảm tải các tác vụ xử lý số xuống lớp thấp hơn dưới dạng tiện ích mở rộng C hoặc Fortran. Đó chính xác là những gì Numpy và Pandas làm Trước tiên, bạn nên học Numpy. Đây là mô-đun cơ bản nhất cho tính toán khoa học với Python. Numpy cung cấp sự hỗ trợ của các mảng đa chiều được tối ưu hóa cao, là cấu trúc dữ liệu cơ bản nhất của hầu hết các thuật toán Machine Learning Tiếp theo, bạn nên học Pandas. Các nhà khoa học dữ liệu dành phần lớn thời gian của họ để làm sạch dữ liệu, còn được gọi là trộn dữ liệu hoặc xáo trộn dữ liệu Pandas là thư viện Python phổ biến nhất để thao tác dữ liệu. Pandas là một phần mở rộng của NumPy. Mã cơ bản cho Pandas sử dụng rộng rãi thư viện NumPy. Cấu trúc dữ liệu chính trong Pandas được gọi là khung dữ liệu Wes McKinney, người tạo ra Pandas, đã viết một cuốn sách tuyệt vời có tên "Python để phân tích dữ liệu". Xem qua các chương 4, 5, 7, 8 và 10 để tìm hiểu về Pandas và Numpy. Các chương này bao gồm các tính năng Numpy và Pandas được sử dụng thường xuyên nhất để thao tác dữ liệu Tìm hiểu cách trực quan hóa dữ liệu bằng Matplotlib Một thư viện đồ thị tốt khác được xây dựng trên Matplotlib và được tích hợp chặt chẽ với Pandas được gọi là Seaborn. Ở giai đoạn này, tôi khuyên bạn nên nhanh chóng học cách tạo các biểu đồ cơ bản trong Matplotlib và không tập trung vào Seaborn Tôi đã viết một hướng dẫn gồm bốn phần về cách phát triển các biểu đồ cơ bản bằng Matplotlib Phần một. Các số liệu cơ bản trong Matplotlib Phần hai. Cách kiểm soát kiểu dáng và màu sắc của hình, chẳng hạn như điểm đánh dấu, độ dày của đường kẻ, mẫu đường kẻ và sử dụng bản đồ màu Một phần ba. Chú thích, kiểm soát phạm vi trục, tỷ lệ khung hình và hệ tọa độ phần bốn. Làm việc với các số liệu phức tạp Bạn xem qua các hướng dẫn này để nắm bắt kiến thức cơ bản về Matplotlib Lưu ý nhanh, bạn không cần phải dành quá nhiều thời gian để học Matplotlib vì ngày nay các công ty đã bắt đầu áp dụng các công cụ như Tableau và Qlik để tạo trực quan hóa tương tác Cách sử dụng SQL và Python Các nhà khoa học dữ liệu thao tác dữ liệu bằng cả SQL và Pandas. Bởi vì có một số tác vụ thao tác dữ liệu dễ thực hiện bằng SQL và có một số tác vụ nhất định có thể được thực hiện hiệu quả bằng Pandas. Cá nhân tôi thích sử dụng SQL để truy xuất dữ liệu và thực hiện các thao tác trong Pandas Ngày nay, các công ty sử dụng các nền tảng phân tích như Mode Analytics và Databricks để dễ dàng làm việc với Python và SQL Vì vậy, bạn nên biết cách sử dụng hiệu quả SQL và Python cùng nhau. Để tìm hiểu điều đó, bạn có thể cài đặt cơ sở dữ liệu SQLite trên máy tính của mình và lưu trữ tệp CSV trong đó và phân tích nó bằng Python và SQL. Đây là một bài đăng trên blog tuyệt vời chỉ cho bạn cách làm điều đó. Lập trình với Cơ sở dữ liệu trong Python bằng SQLite Trước khi xem qua bài đăng trên blog, bạn nên hiểu những điều cơ bản về SQL. Chế độ Analytics có một hướng dẫn tốt về SQL. Giới thiệu về SQL. Xem qua phần SQL CƠ BẢN của họ để hiểu rõ những điều cơ bản về SQL vì mọi nhà khoa học dữ liệu chắc chắn nên biết cách truy xuất dữ liệu hiệu quả bằng SQL Tìm hiểu Thống kê cơ bản với Python Đừng phạm sai lầm đó vì Thống kê là xương sống của khoa học dữ liệu. Mặt khác, các nhà khoa học dữ liệu khao khát học thống kê chỉ học các khái niệm lý thuyết thay vì học các khái niệm thực tế Theo các khái niệm thực tế, ý tôi là, bạn nên biết loại vấn đề nào có thể được giải quyết bằng Thống kê. Hiểu những thách thức bạn có thể vượt qua bằng Thống kê Dưới đây là một số khái niệm thống kê cơ bản bạn nên biết Lấy mẫu, phân phối tần suất, Giá trị trung bình, Trung vị, Chế độ, Đo lường độ biến thiên, Khái niệm cơ bản về xác suất, thử nghiệm quan trọng, độ lệch chuẩn, điểm z, khoảng tin cậy và thử nghiệm giả thuyết (bao gồm cả thử nghiệm A/B) Một cuốn sách rất hay để dạy về Thống kê thực tế là “Practical Statistics for Data Scientist. 50 khái niệm cơ bản". Thật không may, đối với những người yêu thích Python như tôi, các ví dụ mã trong cuốn sách được viết bằng R. Tôi khuyên bạn nên đọc bốn chương đầu tiên của cuốn sách. Xem qua 4 chương đầu tiên của cuốn sách để hiểu các khái niệm thống kê cơ bản mà tôi đã đề cập trước đây, bỏ qua các ví dụ về mã và chỉ hiểu các khái niệm. Phần còn lại của các chương trong cuốn sách chủ yếu tập trung vào Machine Learning. Tôi sẽ nói về cách học Machine Learning trong phần tiếp theo Hầu hết mọi người khuyên Think Stats học Thống kê với Python nhưng tác giả dạy các chức năng tùy chỉnh của riêng mình thay vì sử dụng các thư viện Python tiêu chuẩn như Statsmodels để thực hiện Thống kê. Đó là lý do tại sao tôi không giới thiệu cuốn sách này Sau đó, mục tiêu của bạn là triển khai các khái niệm cơ bản mà bạn đã học trong Python. StatsModels là một thư viện Python phổ biến được sử dụng để xây dựng các mô hình thống kê trong Python. Trang web StatsModels có các hướng dẫn hay về cách triển khai các khái niệm thống kê bằng Python Ngoài ra, bạn cũng có thể xem video này của Gaël Varoquaux. Anh ấy chỉ cho bạn cách thực hiện thống kê suy luận và thăm dò bằng Pandas và Mô hình thống kê Thực hiện Machine Learning bằng Scikit-Learn Đây là cách để làm điều đó Trước tiên, hãy xem video tuần 1, 2, 3, 6, 7 và 8 của khóa học Máy học của Andrew Ng trên Coursera. Tôi đã bỏ qua các phần về Mạng nơ-ron vì ở điểm bắt đầu, bạn phải tập trung vào các kỹ thuật Học máy phổ biến nhất Khi bạn đã hoàn thành việc đó, hãy đọc cuốn sách “Học máy thực hành với Scikit-Learn và TensorFlow”. Chỉ cần xem qua phần đầu tiên của cuốn sách (khoảng 300 trang). Đây là một trong những cuốn sách Machine Learning thiết thực nhất hiện có Bằng cách thực hiện các bài tập mã hóa trong cuốn sách này, bạn sẽ học cách triển khai các khái niệm lý thuyết mà bạn đã học trong khóa học của Andrew Ng bằng Python Phần kết luận Một cách khác là áp dụng khoa học dữ liệu vào một lĩnh vực mà bạn đam mê. Ví dụ: nếu bạn muốn dự đoán giá thị trường chứng khoán thì bạn có thể lấy dữ liệu thời gian thực từ Yahoo Finance và lưu trữ dữ liệu đó trong cơ sở dữ liệu SQL và sử dụng Máy học để dự đoán giá cổ phiếu Nếu bạn đang muốn chuyển sang khoa học dữ liệu từ một ngành khác, tôi khuyên bạn nên làm việc trong một dự án tận dụng kiến thức chuyên môn về miền của bạn. Tôi đã giải thích sâu về cách tiếp cận này trong các bài đăng trên blog trước đây của mình "Hướng dẫn từng bước để chuyển sự nghiệp của bạn sang khoa học dữ liệu – Phần 1" và "Hướng dẫn từng bước để chuyển sự nghiệp của bạn sang dữ liệu Bao nhiêu Python được sử dụng trong khoa học dữ liệu?Python là ngôn ngữ cấp cao, mã nguồn mở, được thông dịch và cung cấp cách tiếp cận tuyệt vời cho lập trình hướng đối tượng. Đó là một trong những ngôn ngữ tốt nhất được nhà khoa học dữ liệu sử dụng cho các dự án/ứng dụng khoa học dữ liệu khác nhau . Python cung cấp chức năng tuyệt vời để xử lý toán học, thống kê và chức năng khoa học.
Python cơ bản có đủ cho khoa học dữ liệu không?Khả năng đọc nội tại và tính rõ ràng của Python đã làm cho nó tương đối dễ sử dụng và số lượng thư viện phân tích chuyên dụng trên nó có thể được sử dụng dễ dàng khi tạo các mô hình xử lý Khoa học dữ liệu. Câu hỏi lớn là liệu Python có đủ cho Khoa học dữ liệu. Vâng, câu trả lời là KHÔNG
Những kỹ năng Python nào cần thiết cho khoa học dữ liệu?Khoa học dữ liệu với các kỹ năng cốt lõi của Python . Món ăn. Sử dụng Máy tính xách tay Jupyter. . Món ăn. Khám phá tập dữ liệu của bạn với Pandas. . Món ăn. Đọc và ghi tệp CSV. . Món ăn. Làm việc với dữ liệu JSON trong Python. . Món ăn. Khung dữ liệu gấu trúc 101. . Món ăn. Vẽ đồ thị Python với Matplotlib. . Món ăn. Dọn dẹp dữ liệu với gấu trúc và NumPy. . Món ăn Một nhà khoa học dữ liệu nên biết bao nhiêu mã hóa?Cần bao nhiêu mã hóa cho khoa học dữ liệu? . Tuy nhiên, một khởi đầu tốt sẽ là hiểu các nguyên tắc cơ bản của một ngôn ngữ mã hóa và ngôn ngữ truy vấn. Hãy nhớ rằng, khi bạn viết mã trong thế giới thực, Google là người bạn tốt nhất của bạn. varying degrees of coding are required for each position. However, a good start would be understanding the fundamentals of one coding language and a querying language. Remember, when you code in the real world, Google is your best friend. |