Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

Bởi Nicole Janeway Bills, nhà khoa học dữ liệu tại Atlas Research

Với cú pháp đơn giản, có thể đọc được của Python, bất cứ ai cũng có thể truy cập các khả năng ấn tượng cho điện toán khoa học. Python đã trở thành ngôn ngữ tiêu chuẩn cho khoa học dữ liệu và học máy, và nó được đánh giá trong & nbsp; ba ngôn ngữ được yêu thích nhất & nbsp;top three most loved languages in Stack Overflow’s 2020 Developer Survey.

Nếu bạn là một & nbsp; người mới đến & nbsp; đối với ngôn ngữ lập trình rất được yêu thích này, thì đây là mười mẹo để thúc đẩy sự hưng thịnh của bộ kỹ năng Python của bạn. Bạn có thể theo dõi trong này & nbsp; Google colab & nbsp; notebook & nbsp; (cộng với, & nbsp; giới thiệu video nhanh về google colab).Google Colab notebook (plus, a quick video introduction to Google Colab).

#10 - Danh sách toàn diện

& nbsp; Một cú pháp đơn giản, đơn để làm việc với danh sách, khả năng hiểu danh sách cho phép bạn truy cập và thực hiện một hành động trên các yếu tố riêng lẻ của danh sách.
A simple, single-line syntax for working with lists, a list comprehension allows you to access and perform an action on individual elements of a list.

Cú pháp bao gồm các dấu ngoặc chứa một biểu thức như & nbsp; ________ 10, tiếp theo là một mệnh đề

[1 if 'orchid' in plant else 0 for plant in greenhouse]
1 và/hoặc
[1 if 'orchid' in plant else 0 for plant in greenhouse]
2.

sẽ in:

boat orchid
dancing-lady orchid
nun's hood orchid
chinese ground orchid
vanilla orchid
tiger orchid

.

#9-Câu lệnh IF một dòng

& nbsp; Cùng với mẹo trước đó, dòng đơn nếu có thể giúp bạn làm cho mã của bạn ngắn gọn hơn.
Along with the previous tip, the single-line if can help you make your code more concise.

Hãy nói rằng chúng tôi đã quyết định chúng tôi quan tâm đến việc xác định xem một nhà máy có phải là một cây lan hay không. Với một dòng duy nhất, chúng tôi bắt đầu với giá trị mà chúng tôi muốn xuất nếu điều kiện kiểm tra là đúng.

Mã này kết hợp một dòng nếu có khả năng hiểu danh sách để xuất ra 1 trong đó nhà máy là một phong lan và nếu không sẽ xuất ra 0.

[1 if 'orchid' in plant else 0 for plant in greenhouse]

sẽ đầu ra:

[1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0]

Danh sách này không quá thú vị, nhưng khi kết hợp với mẹo tiếp theo, chúng tôi sẽ thấy việc sử dụng thực tế của dòng đơn nếu.

#8 - Áp dụng Lambda cho cột DataFrame

& nbsp; DataFrame của Pandas là một cấu trúc có thể chứa dữ liệu bảng, như Excel cho Python. & NBSP; ________ 14 & nbsp; là một từ khóa cung cấp một lối tắt để thực hiện các hoạt động trên các giá trị trong bảng.
A pandas DataFrame is a structure that can hold tabular data, like Excel for Python. 

[1 if 'orchid' in plant else 0 for plant in greenhouse]
4 is a keyword that provides a shortcut to performing operations on values in the table.

Hãy nói rằng chúng tôi có một bảng thông tin về các nhà máy nhà kính của chúng tôi:

In DataFrame này sẽ hiển thị như sau:

Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

Hãy để nói rằng chúng tôi muốn biết liệu một nhà máy có thích một nhà soạn nhạc cổ điển của Đức hay không.

data[‘music’].apply(lambda x: 1 if x == ‘bach’ else 0)

sẽ đầu ra:

Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

Danh sách này không quá thú vị, nhưng khi kết hợp với mẹo tiếp theo, chúng tôi sẽ thấy việc sử dụng thực tế của dòng đơn nếu.

#8 - Áp dụng Lambda cho cột DataFrame

& nbsp; DataFrame của Pandas là một cấu trúc có thể chứa dữ liệu bảng, như Excel cho Python. & NBSP; ________ 14 & nbsp; là một từ khóa cung cấp một lối tắt để thực hiện các hoạt động trên các giá trị trong bảng.

Hãy nói rằng chúng tôi có một bảng thông tin về các nhà máy nhà kính của chúng tôi:
Let’s say we want to identify which Bach-loving plants also need full sun, so we can arrange them together in the greenhouse.

In DataFrame này sẽ hiển thị như sau:

Hãy để nói rằng chúng tôi muốn biết liệu một nhà máy có thích một nhà soạn nhạc cổ điển của Đức hay không.

Trong đó cột đầu tiên là chỉ mục DataFrame và cột thứ hai là một chuỗi đại diện cho đầu ra của dòng đơn nếu.

________ 14 & nbsp; đại diện cho một chức năng ẩn danh của người Viking. Nó cho phép chúng tôi thực hiện các hoạt động trên các giá trị trong một khung dữ liệu mà không tạo ra một hàm chính thức - tức là, một hàm với & nbsp; ________ 16 & nbsp; và & nbsp; ________ 17 & nbsp; mà chúng tôi sẽ thấy trong một khoảnh khắc.

#7 - Áp dụng một điều kiện cho nhiều cột

& nbsp; Hãy nói rằng chúng tôi muốn xác định những cây yêu thích Bach nào cũng cần mặt trời đầy đủ, vì vậy chúng tôi có thể sắp xếp chúng lại với nhau trong nhà kính.

Đầu tiên, chúng tôi tạo một chức năng bằng cách sử dụng & nbsp; ________ 16 & nbsp; từ khóa và đặt cho nó một tên có dấu gạch dưới giữa các từ (ví dụ: sunny_shelf). Một cách thích hợp, quy ước đặt tên này được gọi là & nbsp; Snake Case & nbsp;

Chức năng Sunny_Shelf lấy hai tham số làm đầu vào của nó - cột để kiểm tra xem Sun Sun Sun và cột để kiểm tra cho Bach Bach. Các chức năng đầu ra cho dù cả hai điều kiện này là đúng.
By the way, you can break up any statement inside parentheses, brackets, or braces across multiple lines to avoid a single line from running too long. We’ve seen this when we initialized our greenhouse list, created our dataframe of plants, and used the np.where() function.

Dòng 4, chúng tôi & nbsp; .apply () & nbsp; hàm này cho dataFrame và chỉ định cột nào nên được truyền dưới dạng tham số. & Nbsp; hàng). Chúng tôi gán đầu ra của hàm .Apply () cho cột DataFrame mới có tên là ‘New_Shelf.

Ngoài ra, chúng tôi có thể sử dụng chức năng & nbsp; np.where () & nbsp; cho cùng một mục đích:

Hàm này & nbsp; từ thư viện Numpy & nbsp; kiểm tra hai điều kiện được chỉ định ở trên (tức là, nhà máy là người yêu thích âm nhạc cổ điển và mặt trời đầy đủ của Đức) và gán đầu ra cho cột new_shelf.

& nbsp; Bây giờ, hãy để mở rộng nhà kính của chúng tôi, vì vậy chúng tôi có nhiều dữ liệu trong thế giới thực hơn để làm việc. Chúng tôi sẽ thực hiện điều này bằng cách nhập một .csv chứa dữ liệu thực vật. & Nbsp; hãy làm theo bằng cách truy cập bộ dữ liệu ở đây.
Now let’s expand our greenhouse, so we have more real world data to work with. We’ll do this by importing a .csv containing plant data. Follow along by accessing the dataset here.

Hãy nói rằng bảng chứa một định danh nhà máy duy nhất mà chúng tôi muốn sử dụng làm chỉ mục trong khung dữ liệu của chúng tôi. Chúng ta có thể thiết lập điều này với tham số index_col.

data = pd.read_csv('greenhouse.csv', index_col='plant_id')

Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

Đối với các nguyên tắc cơ bản của phân tích dữ liệu khám phá (EDA) và 9 mẹo Python hữu ích khác, hãy xem bài viết này:

10 Kỹ năng Python bị đánh giá thấp, hãy lên trò chơi khoa học dữ liệu của bạn với các mẹo này để cải thiện mã hóa python của bạn để phân tích EDA tốt hơn, phân tích mục tiêu, tính năng & NBSP;
Up your Data Science game with these tips for improving your Python coding for better EDA, target analysis, feature…
 

#4 - định dạng là tiền

& nbsp; Chúng ta đang chi bao nhiêu cho những cây này dù sao? Hãy để định dạng đầu ra của tính toán này là tiền.
How much are we spending on these plants anyway? Let’s format the output of this calculation as money.

‘${:,.2f}’.format(data[‘price’].sum())

sẽ đầu ra:

Bộ phân cách dấu phẩy giúp bạn dễ dàng thấy chúng tôi đã giảm bao nhiêu tiền mặt cho đến nay.

#3 - Tạo bảng xoay vòng

& nbsp; Tiếp theo, hãy để nói rằng chúng tôi muốn thấy số tiền chi tiêu cho mỗi loài thực vật. Chúng ta có thể xoay vòng với tổng hợp bằng cách sử dụng & nbsp; pd.pivot_table () & nbsp; hoặc & nbsp; .groupby ().
Next, let’s say we want to see the amount spent per plant species. We can pivot with aggregation using either pd.pivot_table() or .groupby().

pd.pivot_table(data, index=’plant’, values=’price’, aggfunc=np.sum)

hoặc

data[[‘plant’,’price’]].groupby(by=’plant’).sum()

Một trong hai phương thức sẽ xuất ra như sau:

Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

Chúng tôi cũng có thể chỉ định một bảng trục đa cấp bằng một trong hai phương thức.

Kiểm tra & nbsp; ________ 21 & nbsp; mang lại sự thật.

Ở đây, những gì DataFrame kết quả trông như thế nào:

Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

#2 - tính toán phần trăm của tổng số

& nbsp; Tò mò về cách mỗi loài thực vật đóng góp vào tổng chi phí của nhà kính? Chia mỗi giá trị cho tổng trên tất cả các hàng và gán đầu ra đó cho một cột mới có tên ‘Perc,:
Curious about how each plant species contributed toward the total cost of the greenhouse? Divide each value by the sum across all the rows, and assign that output to a new column called ‘perc’:

piv['perc'] = piv['price'].div(piv['price'].sum(axis=0))

Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

#1 - Sắp xếp theo nhiều cột

& nbsp; Cuối cùng, hãy để sắp xếp khung dữ liệu của chúng tôi để hoa lan ở trên cùng và các nhà máy được tổ chức bởi giá giảm.
Finally, let’s sort our DataFrame so that orchids are at the top and the plants are organized by price descending.

piv.sort_values([‘orchid’,’price’], ascending=False)

Hướng dẫn what are basic python skills? - các kỹ năng python cơ bản là gì?

Bản tóm tắt

& nbsp; Trong bài viết này, chúng tôi đã đề cập đến 10 kỹ năng Python có thể hữu ích cho các nhà khoa học dữ liệu mới bắt đầu. Những mẹo này bao gồm:
In this article, we covered 10 Python skills that might be useful for beginner Data Scientists. These tips include:

  • Liệt kê toàn diện (#10)
  • Câu lệnh IFLE IF (#9)
  • Áp dụng Lambda cho cột DataFrame (#8)
  • Áp dụng một điều kiện cho nhiều cột (#7)
  • Phá vỡ một dòng dài của mã (#6)
  • Đọc trong A .CSV và SET INDEX (#5)
  • Định dạng là tiền (#4)
  • Tạo một bảng xoay (#3)
  • Tính phần trăm của tổng số (#2)
  • Sắp xếp theo nhiều cột & nbsp; (#1)

Truy cập & nbsp; colab Notebook & nbsp; tại đây và & nbsp; truy cập & nbsp; bộ dữ liệu nhà kính & nbsp; tại đây.Colab notebook here, and access the greenhouse dataset here.

Tôi hy vọng bài viết này sẽ giúp bạn phát triển bộ kỹ năng của bạn như một nhà khoa học dữ liệu mới. Cảm ơn vì đã cho tôi chia sẻ hai điều yêu thích của tôi - Python và làm vườn - trong một bài viết.

Nếu bạn thích câu chuyện này, hãy xem & NBSP; 10 Kỹ năng Python bị định giá thấp & NBSP; và & NBSP; 10 Kỹ năng Python mà họ không dạy trong Bootcamp. Theo dõi tôi trên & nbsp; Medium, & nbsp; LinkedIn, & nbsp; YouTube, và & nbsp; Twitter & nbsp; để có thêm ý tưởng để thúc đẩy các kỹ năng khoa học dữ liệu của bạn., check out 10 Undervalued Python Skills and 10 Python Skill They Don’t Teach in Bootcamp. Follow me on Medium, LinkedIn, YouTube, and Twitter for more ideas to advance your data science skills.

Tài nguyên tuyệt vời hơn cho các nhà khoa học dữ liệu

& nbsp; Chứng nhận khoa học dữ liệu tốt nhất mà bạn chưa bao giờ nghe về một hướng dẫn thực tế về đào tạo có giá trị nhất trong chiến lược dữ liệu. & nbsp;
The Best Data Science Certification You’ve Never Heard Of
A practical guide to the most valuable training in data strategy.
 

5 Giấy tờ khoa học dữ liệu phải đọc (và cách sử dụng chúng) ý tưởng nền tảng để giữ bạn ở trên trò chơi khoa học dữ liệu. & nbsp;
Foundational ideas to keep you on top of the data science game.
 

Điều gì khác biệt giữa một nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư học máy? Khám phá sự khác biệt giữa các tiêu đề công việc chung này với sự tương tự của một cuộc gặp gỡ. & nbsp;
Explore the distinction between these common job titles with the analogy of a track meet.
 

Cách chống lại dự án khoa học dữ liệu của bạn 5 yếu tố quan trọng của lựa chọn & triển khai mô hình ML & NBSP;
5 critical elements of ML model selection & deployment
 

Mô hình học máy của bạn có khả năng bị lỗi không? 5 sai lầm cần tránh trong quy trình lập kế hoạch của bạn & nbsp;
5 missteps to avoid in your planning process
 

Bio: & nbsp; Nicole Janeway Bills & NBSP; là một kỹ sư học máy có kinh nghiệm trong tư vấn thương mại và liên bang. Thành thạo Python, SQL và Tableau, Nicole có kinh nghiệm kinh doanh trong xử lý ngôn ngữ tự nhiên (NLP), điện toán đám mây, kiểm tra thống kê, phân tích giá cả và các quy trình ETL và nhằm mục đích sử dụng nền tảng này để kết nối dữ liệu với kết quả kinh doanh và tiếp tục phát triển Kỹ năng kỹ thuật. is a machine learning engineer with experience in commercial and federal consulting. Proficient in Python, SQL, and Tableau, Nicole has business experience in natural language processing (NLP), cloud computing, statistical testing, pricing analysis, and ETL processes, and aims to use this background to connect data with business outcomes and continue to develop technical skillsets.

Nguyên bản. Đăng lại với sự cho phép.

Related:

  • 10 Kỹ năng Python bị đánh giá thấp
  • 6 bài học trong 6 tháng với tư cách là một nhà khoa học dữ liệu
  • Fastcore: Thư viện Python bị đánh giá thấp