Hồi quy tuyến tính bằng excel

Question

Trong bài viết, mình sẽ giới thiệu một trong những thuật toán cơ bản nhất của Machine Learning. Đây là thuật toán Linear Regression (Hội Quy Tuyến Tính) thuộc nhóm Supervised learning ( Học có giám sát ). Hồi quy tuyến tính là một phương pháp rất đơn giản nhưng đã được chứng minh là hữu ích cho một số lượng lớn các vấn đề. Trong bài viết này, bạn sẽ khám phá ra chính xác cách thức tuyến tính làm việc như thế nào. Trong quá trình phân tích dữ liệu, bạn sẽ tiếp xúc với thuật ngữ "Regression" ( Hồi quy ) rất thường xuyên. Trước khi đi sâu vào Hồi quy tuyến tính, hãy tìm hiểu khái niệm Hồi quy trước. Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập. Ví dụ

Nội dung chính Show

Đơn giản quy tắc tuyến tính
Hồi quy tuyến tính đa biến
Chạy hồi quy tuyến tính bằng Python scikit-Learn
Tham khảo và dịch

Tuổi = 5 + Chiều cao * 10 + Trọng lượng * 13

Ở đây chính ta đang thiết lập mối quan hệ giữa Chiều cao & Trọng lượng của một người với Tuổi của anh/cô ta. Đây là một ví dụ rất cơ bản của Hồi quy

Đơn giản quy tắc tuyến tính

Giới thiệu

"Hồi quy tuyến tính" là một phương pháp thống kê để phục hồi quy định dữ liệu với các biến phụ thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị liên tục hoặc là giá trị phân loại. Nói cách khác "Hội quy tuyến tính" là một phương pháp để dự đoán các biến phụ thuộc

Y = -2,2 + 2,64 * x

4 dựa trên giá trị của biến độc lập

Y = -2,2 + 2,64 * x

5. Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục. Ví dụ, dự đoán giao thông tại một cửa hàng bán lẻ, dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số trang đã truy cập vào một trang web nào đó v. v

Chuẩn bị

Để bắt đầu với Hồi quy tuyến tính, chúng ta hãy lướt qua một số khái niệm toán học về thống kê

Tương quan (r) - Giải thích mối quan hệ giữa hai biến, giá trị có thể chạy từ -1 đến +1
Phương pháp sai (σ2) - Đánh giá phân tán tốc độ trong dữ liệu của bạn
Độ lệch chuẩn (σ) - Đánh giá độ phân tán trong dữ liệu của bạn (căn bậc hai của phương sai)
Phân vùng tiêu chuẩn
Sai số (lỗi) - {giá trị thực tế - giá trị dự đoán}

Giả định

Không có kích thước nào phù hợp với tất cả, điều này cũng phù hợp với Hồi quy tuyến tính. Để phục hồi quy định tuyến tính, dữ liệu phải đối mặt với một vài giả định quan trọng. Nếu dữ liệu của bạn không làm theo các giả định, kết quả của bạn có thể sai cũng như gây hiểu lầm

Định tuyến tính và Thêm vào. Nên có một mối quan hệ tuyến tính giữa biến độc lập và biến không độc lập và ảnh hưởng của sự thay đổi trong giá trị của biến độc lập nên ảnh hưởng thêm vào các biến phụ thuộc
Tính bình thường của các lỗi phân bổ. Sự phân bổ sai khác giữa giá trị thực và giá trị dự đoán (sai số) nên được phân bổ một cách bình thường
Sự tương đồng. Sai lầm của các lỗi phải là một giá trị không thay đổi so với ,

time time
Dự đoán
Giá trị của các biến độc lập

Sự độc lập về thống kê của các lỗi. Các sai số (dư) không nên có bất kỳ mối tương quan nào giữa chúng ta. Ví dụ. Trong trường hợp dữ liệu theo chuỗi thời gian, không nên có sự tương quan giữa các sai số liên tiếp

Đường hồi quy tuyến tính

Trong khi sử dụng hồi quy tuyến tính, mục tiêu của chúng ta là để làm sao một đường thẳng có thể tạo ra sự phân bố gần nhất với hầu hết các điểm. Làm giảm khoảng cách (sai số) của các điểm dữ liệu cho đến đường đó

Ví dụ, tại các điểm ở hình trên (trái) biểu diễn các điểm dữ liệu khác nhau và đường thẳng (bên phải) đại diện cho một đường gần đúng có thể giải thích mối quan hệ giữa các trục

Y = -2,2 + 2,64 * x

6 &

Y = -2,2 + 2,64 * x

7. Thông qua, hồi quy tuyến tính chúng ta cố gắng tìm ra một con đường như vậy. Ví dụ, nếu chúng ta có một biến phụ thuộc

Y = -2,2 + 2,64 * x

8 và một biến độc lập

Y = -2,2 + 2,64 * x

9 - mối quan hệ giữa

Y = -2,2 + 2,64 * x

9 và

Y = -2,2 + 2,64 * x

8 có thể được biểu diễn dưới dạng phương trình sau

Y = Β0 + Β1*X

at here,

```
Y = -2,2 + 2,64 * x
```
8 = Biến phụ thuộc
```
Y = -2,2 + 2,64 * x
```
9 = biến độc lập
```
Y = -2,2 + 2,64 * x
```
24 = Hằng số

Y = -2,2 + 2,64 * x

25 = Hệ số mối quan hệ giữa

Y = -2,2 + 2,64 * x

9 và

Y = -2,2 + 2,64 * x

8

Một vài tính chất của hồi quy tuyến tính

Đường hồi quy luôn luôn đi qua trung bình của biến độc lập
```
Y = -2,2 + 2,64 * x
```
28 cũng như trung bình của biến phụ thuộc
```
Y = -2,2 + 2,64 * x
```
29
Đường hồi quy tối thiểu hóa tổng hợp của "Diện tích các số sai". Đó là lý do tại sao phương pháp hồi quy tuyến tính được gọi là "Bình phương nhỏ nhất thông thường (OLS)"
```
Y = -2,2 + 2,64 * x
```
25 giải thích sự thay đổi trong
```
Y = -2,2 + 2,64 * x
```
8 với sự thay đổi
```
Y = -2,2 + 2,64 * x
```
9 bằng một đơn vị. Nói cách khác, nếu chúng ta tăng giá trị của
```
Y = -2,2 + 2,64 * x
```
9 bởi một đơn vị, thì nó sẽ là sự thay đổi giá trị của
```
Y = -2,2 + 2,64 * x
```
8

Tìm đường hồi quy tuyến tính

Sử dụng công cụ thống kê ví dụ như Excel, R, SAS. bạn sẽ trực tiếp tìm hằng số (

Y = -2,2 + 2,64 * x

35 và

Y = -2,2 + 2,64 * x

36) như là kết quả của hàm hồi quy tuyến tính. Như lý thuyết ở trên, nó hoạt động trên khái niệm OLS và cố gắng giảm thiểu số lượng sai số, các công cụ này sử dụng các gói phần mềm tính toán hằng số này

Ví dụ, giả sử chúng ta muốn dự đoán

Y = -2,2 + 2,64 * x

7 từ

Y = -2,2 + 2,64 * x

6 trong bảng sau và giả sử rằng phương trình hồi quy của chúng ta sẽ giống như

Y = -2,2 + 2,64 * x

39

xyPredict 'y'12____28021

Y = -2,2 + 2,64 * x

8133

Y = -2,2 + 2,64 * x

8246

Y = -2,2 + 2,64 * x

8359

Y = -2,2 + 2,64 * x

84611

Y = -2,2 + 2,64 * x

85713

Y = -2,2 + 2,64 * x

86815

Y = -2,2 + 2,64 * x

87917

Y = -2,2 + 2,64 * x

881020

Y = -2,2 + 2,64 * x

89

at here,

Độ lệch chuẩn x3. 02765Độ lệch chuẩn y6. 617317Trung bình x5. 5Trung bình y9. 7Tương quan x và y. 989938

Nếu chúng ta phân biệt các Tổng còn lại của diện phân tích sai số (RSS) tương ứng với

Y = -2,2 + 2,64 * x

35 &

Y = -2,2 + 2,64 * x

36 và tương đương với các kết quả bằng không, thì chúng ta có các phương pháp sau đây như một kết quả

Y = -2,2 + 2,64 * x

0

write value from the table 1 to the on the program,

Y = -2,2 + 2,64 * x

1

Do đó, phương trình hồi quy nhất sẽ trở thành -

Y = -2,2 + 2,64 * x

Hãy xem, dự đoán của họ là như thế nào bằng cách sử dụng phương pháp này

xY -giá trị thựcY - Dự đoán120. 44213. 08335. 72468. 36591161113. 6471316. 2881518. 9291721. 56102024. 2

Chỉ với 10 điểm dữ liệu để phù hợp với một đường thẳng thì dự đoán của chúng ta sẽ chính xác lắm, nhưng nếu chúng ta thấy sự tương quan giữa 'Y-Thưc tế' và 'Y - Dự đoán' thì triển vọng sẽ

Hiệu suất của mô hình

Một khi bạn xây dựng mô hình, câu hỏi tiếp theo xuất hiện trong đầu là để biết liệu mô hình của bạn có đủ để dự đoán trong tương lai hay mối quan hệ mà bạn đã xây dựng giữa các biến phụ thuộc và độc lập là

Vì mục đích này có nhiều chỉ số mà chúng ta cần tham khảo

Y = -2,2 + 2,64 * x

2

Công thức tính toán

Y = -2,2 + 2,64 * x

42 sẽ bằng

Tổng diện tích (TSS). TSS là một phép đo tổng biến thiên trong Tỷ lệ đáp ứng / biến phụ thuộc
```
Y = -2,2 + 2,64 * x
```
8 và có thể được coi là lượng biến thiên vốn có trong câu trả lời trước khi quy định được thực hiện
Tổng bình phương (RSS). RSS đo lượng biến còn lại không giải thích được sau khi thực hiện quy định
(TSS - RSS) đo lường mức độ thay đổi trong câu trả lời được giải thích (hoặc loại bỏ) bằng cách thực hiện quy định

Trong đó

Y = -2,2 + 2,64 * x

44 là số liệu quan sát được sử dụng để phù hợp với mô hình,

Y = -2,2 + 2,64 * x

45 là độ lệch tâm của

Y = -2,2 + 2,64 * x

6, và

Y = -2,2 + 2,64 * x

47 là độ lệch tâm của

Y = -2,2 + 2,64 * x

7

```
Y = -2,2 + 2,64 * x
```
49 giao động từ 0 đến 1
```
Y = -2,2 + 2,64 * x
```
49 của 0 có nghĩa là biến phụ thuộc không thể dự đoán được từ biến độc lập
```
Y = -2,2 + 2,64 * x
```
49 của 1 có nghĩa là biến phụ thuộc có thể được dự đoán mà không có sai số từ biến độc lập
Một
```
Y = -2,2 + 2,64 * x
```
49 giữa 0 và 1 chỉ mức độ mà các biến phụ thuộc có thể dự đoán được. MỘT
```
Y = -2,2 + 2,64 * x
```
49 of 0. 20 có nghĩa là 20 phần trăm của phương pháp sai trong
```
Y = -2,2 + 2,64 * x
```
8 có thể dự đoán được từ
```
Y = -2,2 + 2,64 * x
```
9; . 40 có nghĩa là 40 phần trăm có thể dự đoán v. v

Root Mean Square Error (RMSE) RMSE cho biết mức phân chia các giá trị dự đoán từ các giá trị thực tế. Công thức tính RMSE là

Y = -2,2 + 2,64 * x

44. Tổng số quan sát

Mặc dù RMSE là một đánh giá tốt cho các số sai nhưng vấn đề là nó rất dễ bị ảnh hưởng bởi phạm vi của các biến phụ thuộc của bạn. Nếu biến phụ thuộc của bạn có dải biến thiên cơ, RMSE của bạn sẽ thấp và nếu biến phụ thuộc có phạm vi rộng thì RMSE sẽ cao. Do đó, RMSE là một số liệu tốt để so sánh giữa các lần lặp lại khác nhau của mô hình

Lỗi tỷ lệ phần trăm tuyệt đối trung bình (MAPE)

Để giải quyết các hạn chế của RMSE, các nhà phân tích thích sử dụng MAPE so với RMSE. MAPE cho sai số trong Tỷ lệ phần trăm phần trăm và do đó so sánh được giữa các mô hình. Công thức tính MAPE có thể được viết như sau.

Y = -2,2 + 2,64 * x

44. Tổng số quan sát

Hồi quy tuyến tính đa biến

Cho đến hiện tại, chúng ta đã thảo luận về kịch bản mà chúng ta chỉ có một biến độc lập. Nếu chúng ta có nhiều hơn một biến độc lập, thì phương pháp phù hợp nhất là "Multiple Regression Linear" - Hồi quy tuyến tính đa biến

Sự khác biệt

Về cơ bản không có sự khác biệt giữa hồi quy tuyến tính 'giả đơn' và 'đa biến'. Cả hai đều làm việc tuân theo nguyên tắc OLS và thuật toán để có được đường hồi quy tối ưu nhất cũng tương tự. Trong trường hợp sau, quy trình hồi quy sẽ có dạng như sau

Y = -2,2 + 2,64 * x

3

at here,

Y = -2,2 + 2,64 * x

29. Các số khác nhau

Y = Β0 + Β1*X

00. Các biến độc lập khác nhau

Chạy hồi quy tuyến tính bằng Python scikit-Learn

Ở trên, bạn đã biết rằng hồi quy tuyến tính là một kỹ thuật phổ biến và bạn cũng có thể thấy các phương pháp toán học của hồi quy tuyến tính. Nhưng bạn có biết làm thế nào để thực hiện một quy tắc tuyến tính trong Python ?? . Nhưng trong bài này chúng ta sẽ sử dụng scikit learn để thực hiện hồi quy tuyến tính

Scikit-learning là một mô-đun Python mạnh mẽ cho việc học máy. Nó chứa hàm hồi quy, phân loại, phân cụm, lựa chọn mô hình và giảm kích thước. Chúng ta sẽ khám phá mô-đun

Y = Β0 + Β1*X

01 có chứa "các phương thức để thực hiện các quy định hồi quy, trong đó giá trị mục tiêu sẽ là sự kết hợp tính toán tuyến tính của các biến đầu vào"

Trong bài đăng này, chúng tôi sẽ sử dụng bộ dữ liệu Nhà ở Boston, bộ dữ liệu chứa thông tin về giá trị nhà cửa ở ngoại ô thành phố Boston. Ban đầu tập dữ liệu này được lấy từ thư viện StatLib được duy trì tại Đại học Carnegie Mellon và hiện đã có trên UCI Machine Learning Repository

Khám phá bộ dữ liệu nhà Boston

Bộ dữ liệu Nhà ở Boston bao gồm giá nhà ở những nơi khác nhau ở Boston. Cùng với giá cả, tập dữ liệu cũng cung cấp thông tin như Tội phạm (CRIM), các khu vực kinh doanh không-bán-lẻ ở thị trấn (INDUS), tuổi chủ sở hữu nhà (AGE) và có nhiều thuộc tính . Bộ dữ liệu chính nó có thể được tải xuống từ đây. Tuy nhiên, vì chúng ta sử dụng

Y = Β0 + Β1*X

02, nên chúng ta có thể nhập nó từ

Y = Β0 + Β1*X

02

Y = -2,2 + 2,64 * x

8

Trước hết, chúng ta sẽ nhập dữ liệu Boston Housing và lưu trữ nó trong một biến gọi là boston. To import it from

Y = Β0 + Β1*X

02, we will must run this đoạn mã

Y = -2,2 + 2,64 * x

4

Biến

Y = Β0 + Β1*X

05 là một dạng từ điển, vì vậy chúng ta có thể kiểm tra

Y = Β0 + Β1*X

06 của nó bằng cách sử dụng đoạn mã bên dưới

Y = -2,2 + 2,64 * x

2

It will return as after

Tiếp,

Y = Β0 + Β1*X

0

Đầu tiên, chúng ta có thể dễ dàng kiểm tra

Y = Β0 + Β1*X

07 của nó bằng cách gọi

Y = Β0 + Β1*X

08 và nó sẽ trả lại kích thước của tệp dữ liệu với cột kích thước

Như chúng ta có thể thấy nó trả về

Y = Β0 + Β1*X

09, có nghĩa là có 506 hàng dữ liệu với 13 cột. Bây giờ chúng ta muốn biết 13 cột là gì. Chúng ta sẽ chạy đoạn mã sau

Y = Β0 + Β1*X

1

Bạn có thể sử dụng lệnh

Y = Β0 + Β1*X

10 để kiểm tra mô tả của dữ liệu thay vì mở web để đọc

Next, convert data about pandas format. Rất đơn giản, gọi hàm

Y = Β0 + Β1*X

11 và truyền tải

Y = Β0 + Β1*X

12. Chúng ta có thể kiểm tra 5 dữ liệu đầu tiên bằng

Y = Β0 + Β1*X

13

Y = Β0 + Β1*X

2

Hoặc bạn có thể sử dụng đoạn lệnh sau để hiển thị cột được đặt tên

Y = Β0 + Β1*X

3

Có vẻ như vẫn chưa có cột tên là

Y = Β0 + Β1*X

14

Y = Β0 + Β1*X

4

Ta sẽ thêm nó vào đoạn mã sử dụng trên

Nếu bạn muốn xem các số liệu tổng hợp, hãy chạy đoạn mã sau

Y = Β0 + Β1*X

5

Tách dữ liệu để huấn luyện-kiểm tra

Về cơ bản, trước khi chia dữ liệu thành tập dữ liệu để huấn luyện - kiểm tra, chúng ta cần chia dữ liệu thành hai giá trị. giá trị đích và giá trị dự báo. Vui lòng gọi giá trị đích

Y = -2,2 + 2,64 * x

8 và giá trị dự báo

Y = -2,2 + 2,64 * x

9. Such,

Y = Β0 + Β1*X

6

Y = Β0 + Β1*X

7

Bây giờ chúng ta có thể chia nhỏ dữ liệu để huấn luyện và kiểm tra với đoạn trích như sau

Y = Β0 + Β1*X

8

Nếu chúng ta kiểm tra hình dạng của từng biến, thì chúng ta đã có bộ dữ liệu với dữ liệu thử nghiệm tập tin có tỷ lệ 66,66% đối với tập dữ liệu và 33,33% đối với thử nghiệm dữ liệu

hồi quy tuyến tính

Tiếp theo, chúng ta sẽ chạy hồi quy tuyến tính

Y = Β0 + Β1*X

9

Đoạn mã trên sẽ phù hợp với một mô hình dựa trên

Y = Β0 + Β1*X

17 và

Y = Β0 + Β1*X

18. Bây giờ chúng tôi đã có mô hình tuyến tính, chúng tôi sẽ cố gắng dự đoán nó cho

Y = Β0 + Β1*X

19 và các giá trị dự đoán sẽ được lưu trong

Y = Β0 + Β1*X

20. Để hình dung sự khác biệt giữa giá thực tế và giá trị dự đoán, chúng tôi cũng tạo ra một bảng biểu

Thực tế thì đáng lẽ đồ thị ở trên phải tạo ra một lộ trình tính toán như chúng ta đã thảo luận lý thuyết ở trên. Tuy nhiên, mô hình không thích hợp 100%, cho nên nó không thể tạo ra được đường tính

Trung bình diện phân số

Để kiểm tra mức độ lỗi của một mô hình, chúng ta có thể sử dụng

Y = Β0 + Β1*X

21. Đây là một trong các phương pháp để đo trung bình của ô vuông của sai số. Về cơ bản, nó sẽ kiểm tra sự khác biệt giữa giá trị thực tế và giá trị dự đoán. Để sử dụng nó, chúng ta có thể sử dụng hàm bình phương trung bình sai số của