Hướng dẫn python abbreviation - viết tắt của trăn

1. Mô hình học máy đầu tiên của bạn

Vậy ngày hôm nay chúng ta đang xây dựng mô hình máy học nào? Trong bài viết này, chúng tôi sẽ xây dựng một mô hình hồi quy bằng cách sử dụng thuật toán rừng ngẫu nhiên trên bộ dữ liệu hòa tan.

Nội dung chính Show

1. Mô hình học máy đầu tiên của bạn
2. Bộ dữ liệu
2.1. Bộ dữ liệu đồ chơi
2.2. Bộ dữ liệu của riêng bạn
3. Tách dữ liệu
4. Xây dựng mô hình
4.1. Hồi quy tuyến tính
4.2. Rừng ngẫu nhiên
4.3. Các thuật toán học máy khác
4.4. Kết hợp kết quả
5. Trực quan hóa dữ liệu kết quả dự đoán
Cái gì tiếp theo?
Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!
Làm thế nào để bạn phù hợp với một mô hình trong Python?
Nó có nghĩa là gì để phù hợp với một python mô hình?
Làm thế nào để phù hợp () hoạt động trong Python?
Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

Nội dung chính ShowShow

1. Mô hình học máy đầu tiên của bạn
2. Bộ dữ liệu
2.1. Bộ dữ liệu đồ chơi
2.2. Bộ dữ liệu của riêng bạn
3. Tách dữ liệu
4. Xây dựng mô hình
4.1. Hồi quy tuyến tính
4.2. Rừng ngẫu nhiên
4.3. Các thuật toán học máy khác
4.4. Kết hợp kết quả
5. Trực quan hóa dữ liệu kết quả dự đoán
Cái gì tiếp theo?
Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!
Làm thế nào để bạn phù hợp với một mô hình trong Python?
Nó có nghĩa là gì để phù hợp với một python mô hình?
Làm thế nào để phù hợp () hoạt động trong Python?
Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

Nội phân chính

1. Mô hình học máy đầu tiên của bạn
2.1. Bộ dữ liệu đồ chơi
2.2. Bộ dữ liệu của riêng bạn
3. Tách dữ liệu
4. Xây dựng mô hình
4.1. Hồi quy tuyến tính
4.2. Rừng ngẫu nhiên
4.3. Các thuật toán học máy khác
4.4. Kết hợp kết quả
5. Trực quan hóa dữ liệu kết quả dự đoán
Cái gì tiếp theo?
Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!
Làm thế nào để bạn phù hợp với một mô hình trong Python?
Nó có nghĩa là gì để phù hợp với một python mô hình?
Làm thế nào để phù hợp () hoạt động trong Python?
Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

Nội phân chính

2. Bộ dữ liệu

2.1. Bộ dữ liệu đồ chơi

2.2. Bộ dữ liệu của riêng bạn

3. Tách dữ liệu

4. Xây dựng mô hình

from sklearn import datasetsiris = datasets.load_iris()
X = iris.data
y = iris.target

4.1. Hồi quy tuyến tính

2.2. Bộ dữ liệu của riêng bạn

3. Tách dữ liệu

4. Xây dựng mô hình

4.1. Hồi quy tuyến tính

4.2. Rừng ngẫu nhiên

4.3. Các thuật toán học máy khác

4.4. Kết hợp kết quả

5. Trực quan hóa dữ liệu kết quả dự đoán

Cái gì tiếp theo?

Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!

Làm thế nào để bạn phù hợp với một mô hình trong Python?

import pandas as pddf = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/delaney_solubility_with_descriptors.csv')

Nó có nghĩa là gì để phù hợp với một python mô hình?

Làm thế nào để phù hợp () hoạt động trong Python?

Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

Nội phân chính

2. Bộ dữ liệu

Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!

X = df.drop(['logS'], axis=1)

Làm thế nào để bạn phù hợp với một mô hình hồi quy trong Python?

y = df.iloc[:,-1]

4).

Sau khi xây dựng mô hình, chúng tôi sẽ áp dụng mô hình để đưa ra dự đoán theo sau là đánh giá hiệu suất mô hình và trực quan hóa dữ liệu về kết quả của nó.

import pandas as pddf = pd.read_csv('data.csv')

Vậy chúng ta sẽ sử dụng bộ dữ liệu nào? Câu trả lời mặc định có thể là sử dụng bộ dữ liệu đồ chơi làm ví dụ như bộ dữ liệu IRIS (phân loại) hoặc bộ dữ liệu nhà ở Boston (hồi quy).

Như chúng ta có thể thấy, chúng tôi đã làm điều này bằng cách thả hoặc loại bỏ cột cuối cùng (

y = df[‘logS’]

2.2.2.2. Gán biến cho y

y = df.logS

Để gán cột cuối cùng cho biến

3. Tách dữ liệu

4. Xây dựng mô hình

4.1. Hồi quy tuyến tính

4.2. Rừng ngẫu nhiên

4.3. Các thuật toán học máy khác

Trong mã trên, dòng đầu tiên nhập hàm

y = df.iloc[:,-1]

8 từ mô-đun phụ

y = df[‘logS’]

0. Như chúng ta có thể thấy, đối số đầu vào bao gồm dữ liệu đầu vào

X = df.drop(['logS'], axis=1)

9 và

y = df.iloc[:,-1]

0, kích thước tập kiểm tra được chỉ định là 0,2 (nghĩa là 20% dữ liệu sẽ được chuyển đến tập kiểm tra trong khi 80% còn lại cho tập huấn luyện) và Số hạt ngẫu nhiên được đặt thành 42.

Từ mã trên, chúng ta có thể thấy rằng chúng ta đã tạo đồng thời 4 biến bao gồm các biến

X = df.drop(['logS'], axis=1)

9 và

y = df.iloc[:,-1]

0 phân tách cho tập huấn luyện (

y = df[‘logS’]

5 và

y = df[‘logS’]

6) và tập kiểm tra (

y = df[‘logS’]

7 và

y = df[‘logS’]

8).

Bây giờ chúng tôi đã sẵn sàng để sử dụng 4 biến này để xây dựng mô hình.

4. Xây dựng mô hình

Đến phần thú vị! Bây giờ chúng tôi sẽ xây dựng một số mô hình hồi quy.

4.1. Hồi quy tuyến tính

4.1.1. Xây dựng mô hình

Hãy bắt đầu với hồi quy tuyến tính truyền thống.

________số 8

Dòng đầu tiên nhập hàm

y = df[‘logS’]

9 từ mô-đun phụ

y = df.logS

0. Tiếp theo, hàm

y = df[‘logS’]

9 được gán cho biến

y = df.logS

2 và hàm

y = df.logS

3 thực hiện đào tạo mô hình thực tế trên dữ liệu đầu vào

y = df[‘logS’]

5 và

y = df[‘logS’]

Bây giờ mô hình được xây dựng, chúng tôi sẽ áp dụng nó để đưa ra dự đoán trên tập huấn luyện và tập kiểm tra như sau:

X = df.drop(['logS'], axis=1)

Như chúng ta có thể thấy trong mã trên, mô hình (

y = df.logS

2) được áp dụng để đưa ra dự đoán thông qua hàm

y = df.logS

7 trên tập huấn luyện và tập kiểm tra.

4.1.2. Hiệu suất mô hình

Bây giờ chúng tôi sẽ tính toán các số liệu hiệu suất để chúng tôi có thể xác định hiệu suất mô hình.

import pandas as pddf = pd.read_csv('data.csv')

Trong mã trên, chúng tôi nhập các hàm

y = df.logS

8 và

y = df.logS

9 từ mô hình phụ

import pandas as pddf = pd.read_csv('data.csv')

20 để tính toán các số liệu hiệu suất. Các đối số đầu vào cho cả hai hàm là các giá trị y thực tế (

y = df.iloc[:,-1]

0) và các giá trị y dự đoán (

import pandas as pddf = pd.read_csv('data.csv')

22 và

import pandas as pddf = pd.read_csv('data.csv')

23).Y values (

y = df.iloc[:,-1]

0) and the predicted Y values (

import pandas as pddf = pd.read_csv('data.csv')

22 and

import pandas as pddf = pd.read_csv('data.csv')

23).Y values (

y = df.iloc[:,-1]

0) and the predicted Y values (

import pandas as pddf = pd.read_csv('data.csv')

22 and

import pandas as pddf = pd.read_csv('data.csv')

23).

Hãy để nói về quy ước đặt tên được sử dụng ở đây, chúng tôi gán hàm cho các biến tự giải thích rõ ràng cho biết những gì biến chứa. Ví dụ, ________ 74 và

import pandas as pddf = pd.read_csv('data.csv')

25 nói rõ ràng rằng các biến chứa các số liệu hiệu suất MSE và R2 cho các mô hình xây dựng bằng cách sử dụng hồi quy tuyến tính trên tập huấn luyện. Ưu điểm của việc sử dụng quy ước đặt tên này là các số liệu hiệu suất của bất kỳ mô hình nào trong tương lai được xây dựng bằng thuật toán học máy khác có thể dễ dàng được xác định bằng các tên biến của nó. Ví dụ, chúng tôi có thể sử dụng

import pandas as pddf = pd.read_csv('data.csv')

26 để biểu thị MSE của bộ đào tạo cho một mô hình được xây dựng bằng cách sử dụng rừng ngẫu nhiên.

Các số liệu hiệu suất có thể được hiển thị bằng cách chỉ in các biến. Chẳng hạn, để in ra MSE cho bộ đào tạo:

import pandas as pddf = pd.read_csv('data.csv')

mà cho

import pandas as pddf = pd.read_csv('data.csv')

27.

Để xem kết quả cho 3 số liệu khác, chúng tôi cũng có thể in từng cái một nhưng điều đó sẽ hơi lặp đi lặp lại.

Một cách khác là tạo ra màn hình gọn gàng của 4 số liệu như sau:

import pandas as pddf = pd.read_csv('data.csv')

trong đó tạo ra các dữ liệu sau:

4.2. Rừng ngẫu nhiên

Rừng ngẫu nhiên (RF) là một phương pháp học tập theo cách kết hợp dự đoán của một số cây quyết định. Một điều tuyệt vời về RF là tầm quan trọng tính năng tích hợp của nó (nghĩa là các giá trị chỉ mục Gini mà nó tạo ra cho các mô hình được xây dựng).

4.2.1. Xây dựng mô hình

Bây giờ, hãy để xây dựng một mô hình RF bằng cách sử dụng mã sau:

import pandas as pddf = pd.read_csv('data.csv')

Trong mã trên, dòng đầu tiên nhập hàm

import pandas as pddf = pd.read_csv('data.csv')

28 (nghĩa là cũng có thể được gọi là bộ hồi quy) từ mô-đun phụ

import pandas as pddf = pd.read_csv('data.csv')

29. Cần lưu ý ở đây rằng

import pandas as pddf = pd.read_csv('data.csv')

28 là phiên bản hồi quy (tức là điều này được sử dụng khi biến Y bao gồm các giá trị số) trong khi phiên bản chị em của nó là

y = df.iloc[:,-1]

21, là phiên bản phân loại (tức là điều này được sử dụng cho khi biến Y chứa giá trị phân loại).

Trong ví dụ này, chúng tôi đang đặt tham số

y = df.iloc[:,-1]

22 thành 2 và số hạt ngẫu nhiên (thông qua

y = df.iloc[:,-1]

23) là 42. Cuối cùng, mô hình được đào tạo bằng hàm

y = df.iloc[:,-1]

24 nơi chúng tôi đặt

y = df[‘logS’]

5 và

y = df[‘logS’]

6 làm dữ liệu đầu vào.

Bây giờ chúng tôi sẽ áp dụng mô hình được xây dựng để đưa ra dự đoán trên tập huấn luyện và tập kiểm tra như sau:

import pandas as pddf = pd.read_csv('data.csv')

Theo cách tương tự như được sử dụng trong mô hình

y = df.logS

2, mô hình

y = df.iloc[:,-1]

28 cũng được áp dụng để đưa ra dự đoán thông qua hàm

y = df.iloc[:,-1]

29 trên tập huấn luyện và tập kiểm tra.

4.2.2. Hiệu suất mô hình

Bây giờ, hãy tính toán các số liệu hiệu suất cho mô hình rừng ngẫu nhiên được xây dựng như sau:

import pandas as pddf = pd.read_csv('data.csv')

Để hợp nhất kết quả, chúng tôi sử dụng mã sau:

import pandas as pddf = pd.read_csv('data.csv')

sản xuất:

4.3. Các thuật toán học máy khác

Để xây dựng các mô hình sử dụng các thuật toán học máy khác (ngoài

X = df.drop(['logS'], axis=1)

00 mà chúng tôi đã sử dụng ở trên), chúng tôi chỉ cần quyết định sử dụng thuật toán nào từ các hồi quy có sẵn (nghĩa là vì biến bộ dữ liệu của bộ dữ liệu có chứa các giá trị phân loại).

4.3.1. Danh sách các hồi quy

Hãy cùng xem một số hồi quy ví dụ mà chúng ta có thể chọn từ:

```
X = df.drop(['logS'], axis=1)
```
01
```
X = df.drop(['logS'], axis=1)
```
02
```
X = df.drop(['logS'], axis=1)
```
03
```
X = df.drop(['logS'], axis=1)
```
04
```
X = df.drop(['logS'], axis=1)
```
05
```
X = df.drop(['logS'], axis=1)
```
06
```
X = df.drop(['logS'], axis=1)
```
07
```
X = df.drop(['logS'], axis=1)
```
08
```
X = df.drop(['logS'], axis=1)
```
09

import pandas as pddf = pd.read_csv('data.csv')

Để biết danh sách các hồi quy rộng rãi hơn, vui lòng tham khảo tham chiếu API ____ 101.

4.3.2. Sử dụng một bộ hồi quy

Hãy nói rằng chúng tôi muốn sử dụng

X = df.drop(['logS'], axis=1)

08 mà chúng tôi sẽ sử dụng như sau:

import pandas as pddf = pd.read_csv('data.csv')

Lưu ý cách chúng tôi nhập chức năng hồi quy cho

X = df.drop(['logS'], axis=1)

08 như sau:

import pandas as pddf = pd.read_csv('data.csv')

import pandas as pddf = pd.read_csv('data.csv')

import pandas as pddf = pd.read_csv('data.csv')

Sau đó, hàm hồi quy sau đó được gán cho một biến (nghĩa là

import pandas as pddf = pd.read_csv('data.csv')

05 trong ví dụ này) và được đào tạo mô hình thông qua hàm

y = df.logS

3 như trong

import pandas as pddf = pd.read_csv('data.csv')

07.

4.4. Kết hợp kết quả

Hãy để nhớ lại rằng các số liệu hiệu suất mô hình mà trước đây chúng tôi đã tạo ở trên cho hồi quy tuyến tính và các mô hình rừng ngẫu nhiên được lưu trữ trong các biến

import pandas as pddf = pd.read_csv('data.csv')

08 và

import pandas as pddf = pd.read_csv('data.csv')

09.

Vì cả hai biến là DataFrames, chúng tôi sẽ kết hợp chúng bằng hàm

import pandas as pddf = pd.read_csv('data.csv')

10 như hình dưới đây:

import pandas as pddf = pd.read_csv('data.csv')

Điều này tạo ra các dữ liệu sau:

Cần lưu ý rằng các số liệu hiệu suất cho các phương pháp học tập bổ sung cũng có thể được thêm vào bằng cách nối vào danh sách

import pandas as pddf = pd.read_csv('data.csv')

11.

Ví dụ,

import pandas as pddf = pd.read_csv('data.csv')

12 có thể được thêm vào danh sách, sau đó sẽ trở thành

import pandas as pddf = pd.read_csv('data.csv')

13.

5. Trực quan hóa dữ liệu kết quả dự đoán

Bây giờ, chúng ta hãy hình dung mối quan hệ của các giá trị y thực tế với các giá trị y dự đoán của chúng là nhật ký thử nghiệm so với các giá trị nhật ký dự đoán.

import pandas as pddf = pd.read_csv('data.csv')

Như đã hiển thị ở trên, chúng tôi sẽ sử dụng thư viện

import pandas as pddf = pd.read_csv('data.csv')

14 để tạo biểu đồ phân tán trong khi

import pandas as pddf = pd.read_csv('data.csv')

15 được sử dụng để tạo dòng xu hướng của dữ liệu. Ở đây, chúng tôi đặt kích thước hình là 5 × 5 thông qua tham số

import pandas as pddf = pd.read_csv('data.csv')

16 của hàm

import pandas as pddf = pd.read_csv('data.csv')

17.

Hàm

import pandas as pddf = pd.read_csv('data.csv')

18 được sử dụng để tạo biểu đồ phân tán trong đó

y = df[‘logS’]

6 và

import pandas as pddf = pd.read_csv('data.csv')

22 (nghĩa là các dự đoán tập huấn luyện được thực hiện bởi hồi quy tuyến tính) được sử dụng làm dữ liệu đầu vào. Màu được đặt thành màu xanh lá cây bằng mã màu HTML (mã HEX) là

import pandas as pddf = pd.read_csv('data.csv')

21.

Một dòng xu hướng cho sơ đồ thông qua hàm

import pandas as pddf = pd.read_csv('data.csv')

22 và được hiển thị thông qua hàm

import pandas as pddf = pd.read_csv('data.csv')

23 như được hiển thị ở trên. Cuối cùng, nhãn trục x và trục Y được thêm vào thông qua các hàm

import pandas as pddf = pd.read_csv('data.csv')

24 và

import pandas as pddf = pd.read_csv('data.csv')

25, tương ứng.

Biểu đồ phân tán kết xuất được hiển thị bên trái.

Cái gì tiếp theo?

Chúc mừng bạn đã xây dựng mô hình học máy đầu tiên của bạn!

Những gì tiếp theo, bạn có thể hỏi. Câu trả lời khá đơn giản, xây dựng nhiều mô hình hơn! Điều chỉnh các tham số, thử các thuật toán mới, tinker với việc bổ sung các tính năng mới vào đường ống học máy và quan trọng nhất là tất cả don don sợ mắc lỗi. Trên thực tế, con đường nhanh nhất đến Turbo tính phí học tập của bạn là thất bại thường xuyên, hãy trở lại và thử lại. Học tập là tận hưởng quá trình và nếu bạn kiên trì đủ lâu, bạn sẽ tự tin hơn vào con đường trở thành một chuyên gia dữ liệu cho dù đó là khoa học dữ liệu, nhà phân tích dữ liệu hoặc kỹ sư dữ liệu. Nhưng quan trọng nhất là trong tất cả, như tôi luôn muốn nói:

Cách tốt nhất để học khoa học dữ liệu là làm khoa học dữ liệu ”

Đăng ký danh sách gửi thư của tôi để cập nhật tốt nhất (và đôi khi miễn phí) trong Khoa học dữ liệu!

Làm thế nào để bạn phù hợp với một mô hình trong Python?

Nếu bạn muốn phù hợp với một mô hình có mức độ cao hơn, bạn có thể xây dựng các tính năng đa thức ra khỏi dữ liệu tính năng tuyến tính và cũng phù hợp với mô hình ....

Phương pháp: Số liệu thống kê. linreatic () ....

Phương pháp: Tối ưu hóa. curve_fit () ....

Phương pháp: Numpy. Linalg. ....

Phương pháp: StatSmodels. ....

Phương pháp: Giải pháp phân tích sử dụng phương pháp nghịch đảo ma trận. ....

Phương pháp: Sklearn ..

Nó có nghĩa là gì để phù hợp với một python mô hình?

Phù hợp với mô hình là thước đo mô hình học máy nói chung là dữ liệu tương tự như thế nào mà nó được đào tạo.a measure of how well a machine learning model generalizes to similar data to that on which it was trained.a measure of how well a machine learning model generalizes to similar data to that on which it was trained.

Làm thế nào để phù hợp () hoạt động trong Python?

Phương pháp Fit () lấy dữ liệu đào tạo làm đối số, có thể là một mảng trong trường hợp học tập không giám sát, hoặc hai mảng trong trường hợp học tập có giám sát. Lưu ý rằng mô hình được trang bị bằng X và Y, nhưng đối tượng không có tham chiếu đến X và Y.takes the training data as arguments, which can be one array in the case of unsupervised learning, or two arrays in the case of supervised learning. Note that the model is fitted using X and y , but the object holds no reference to X and y .takes the training data as arguments, which can be one array in the case of unsupervised learning, or two arrays in the case of supervised learning. Note that the model is fitted using X and y , but the object holds no reference to X and y .