Xảy dụng mô hình Hồi quy tuyến tính Python

Nếu bạn muốn trở thành một nhà thống kê giỏi hơn, một nhà khoa học dữ liệu hoặc một kỹ sư máy học, thì việc xem qua một số ví dụ về hồi quy tuyến tính là điều không thể tránh khỏi

Nội dung chính Show

Chúng sẽ giúp bạn tìm hiểu toàn bộ chủ đề phân tích hồi quy

Vì vậy, để giúp bạn hiểu cách hoạt động của hồi quy tuyến tính, ngoài hướng dẫn này, chúng tôi cũng đã tạo một video về chủ đề này. Bạn có thể xem nó bên dưới hoặc chỉ cần cuộn xuống nếu bạn thích đọc

Phân tích hồi quy là một trong những phương pháp được sử dụng rộng rãi nhất để dự báo

Nó được áp dụng bất cứ khi nào chúng ta có mối quan hệ nhân quả giữa các biến

Một phần lớn của mô hình dự đoán xảy ra trong thực tế được thực hiện thông qua phân tích hồi quy. Ngoài ra còn có nhiều bài báo học thuật dựa trên nó. Và nó trở nên cực kỳ mạnh mẽ khi được kết hợp với các kỹ thuật như phân tích nhân tố. Hơn nữa, các nguyên tắc cơ bản của phân tích hồi quy được sử dụng trong học máy

Do đó, thật dễ hiểu tại sao hồi quy là điều bắt buộc đối với khoa học dữ liệu. Điểm chung là như sau

“Số tiền bạn chi tiêu phụ thuộc vào số tiền bạn kiếm được. ”

Theo cách tương tự, lượng thời gian bạn dành để đọc các hướng dẫn của chúng tôi bị ảnh hưởng bởi động lực học các phương pháp thống kê bổ sung của bạn

Bạn có thể định lượng các mối quan hệ này và nhiều mối quan hệ khác bằng cách sử dụng phân tích hồi quy

Phân tích hồi quy

Chúng tôi sẽ sử dụng cách tiếp cận từng bước điển hình của chúng tôi. Chúng ta sẽ bắt đầu với mô hình hồi quy tuyến tính đơn giản và không lâu sau đó, chúng ta sẽ xử lý mô hình hồi quy bội. Đồng thời, chúng ta sẽ tìm hiểu cách xây dựng hồi quy, cách diễn giải nó và cách so sánh các mô hình khác nhau

Chúng tôi cũng sẽ phát triển sự hiểu biết sâu sắc về các nguyên tắc cơ bản bằng cách xem qua một số ví dụ về hồi quy tuyến tính

Một ghi chú bên lề nhanh chóng. Bạn có thể tìm hiểu thêm về biểu diễn hình học của mô hình hồi quy tuyến tính đơn giản trong hướng dẫn được liên kết.  

Hồi quy tuyến tính là gì

Hãy bắt đầu với một số lý thuyết khô khan. Hồi quy tuyến tính là một xấp xỉ tuyến tính của mối quan hệ nhân quả giữa hai hoặc nhiều biến

Các mô hình hồi quy rất có giá trị vì chúng là một trong những cách phổ biến nhất để đưa ra các suy luận và dự đoán

Quá trình tạo hồi quy tuyến tính

Quá trình diễn ra như thế này

  1. Đầu tiên, bạn lấy dữ liệu mẫu;
  2. Sau đó, bạn có thể thiết kế một mô hình giải thích dữ liệu;
  3. Cuối cùng, bạn sử dụng mô hình mà bạn đã phát triển để đưa ra dự đoán cho toàn bộ dân số

Có một biến phụ thuộc, được gắn nhãn Y, được dự đoán và các biến độc lập, được gắn nhãn x1, x2, v.v. Đây là những yếu tố dự báo. Y là một hàm của các biến X và mô hình hồi quy là một xấp xỉ tuyến tính của hàm này

Hồi quy tuyến tính đơn giản

Mô hình hồi quy đơn giản nhất là hồi quy tuyến tính đơn giản

Y = β0 + β1 * x1 + ε

Hãy xem những giá trị này có ý nghĩa gì. Y là biến chúng tôi đang cố gắng dự đoán và được gọi là biến phụ thuộc. X là một biến độc lập

Khi sử dụng phân tích hồi quy, chúng ta muốn dự đoán giá trị của Y, miễn là chúng ta có giá trị của X

Nhưng để có hồi quy, Y phải phụ thuộc vào X theo một cách nào đó. Bất cứ khi nào có sự thay đổi trong X, sự thay đổi đó phải chuyển thành sự thay đổi trong Y

Cung cấp một ví dụ hồi quy tuyến tính

Hãy nghĩ về phương trình sau. thu nhập mà một người nhận được phụ thuộc vào số năm giáo dục mà người đó đã nhận được. Biến phụ thuộc là thu nhập, còn biến độc lập là số năm học

Có mối quan hệ nhân quả giữa hai. Bạn càng học nhiều, bạn càng có khả năng nhận được thu nhập cao hơn. Mối quan hệ này tầm thường đến mức nó có thể là lý do bạn đang đọc hướng dẫn này, ngay bây giờ. Bạn muốn có thu nhập cao hơn, vì vậy bạn đang tăng cường học vấn

Là mối quan hệ ngược lại có thể?

Bây giờ, hãy tạm dừng một giây và suy nghĩ về mối quan hệ ngược lại. Điều gì sẽ xảy ra nếu giáo dục phụ thuộc vào thu nhập

Điều này có nghĩa là thu nhập của bạn càng cao, bạn càng dành nhiều năm để giáo dục bản thân

Đặt học phí cao sang một bên, những người giàu có không dành nhiều năm hơn ở trường. Hơn nữa, trường trung học và đại học có cùng số năm, bất kể khung thuế của bạn là bao nhiêu. Do đó, một mối quan hệ nhân quả như thế này là sai, nếu không muốn nói là sai hoàn toàn. Do đó, nó không phù hợp để phân tích hồi quy

Hãy quay lại ví dụ hồi quy tuyến tính ban đầu. Thu nhập là một chức năng của giáo dục. Càng học nhiều năm, thu nhập nhận được càng cao. Điều này nghe có vẻ đúng

các hệ số

Điều mà chúng ta chưa đề cập đến, cho đến nay, là trong mô hình của chúng ta, có các hệ số. β1 là hệ số đứng trước biến độc lập. Nó định lượng ảnh hưởng của giáo dục đến thu nhập

Nếu β1 là 50, thì cứ mỗi năm học thêm, thu nhập của bạn sẽ tăng thêm 50 đô la. Ở Mỹ, con số lớn hơn nhiều, đâu đó khoảng 3 đến 5 nghìn đô la

hằng số

Hai thành phần còn lại là hằng số β0 và sai số – epsilon(ε)

Trong ví dụ hồi quy tuyến tính này, bạn có thể coi hằng số β0 là mức lương tối thiểu. Bất kể trình độ học vấn của bạn, nếu bạn có việc làm, bạn sẽ nhận được mức lương tối thiểu. Đây là số tiền đảm bảo

Vì vậy, nếu bạn chưa bao giờ đi học và đưa giá trị giáo dục là 0 năm vào công thức, điều gì có thể xảy ra?

Epsilon

Thuật ngữ cuối cùng là epsilon(ε). Điều này thể hiện lỗi đánh giá. Lỗi là sự khác biệt thực tế giữa thu nhập được quan sát và thu nhập mà hồi quy dự đoán. Trung bình, trên tất cả các quan sát, sai số là 0

Nếu bạn kiếm được nhiều tiền hơn những gì hồi quy đã dự đoán, thì ai đó sẽ kiếm được ít hơn những gì mà hồi quy dự đoán. Mọi thứ cân bằng

Phương trình hồi quy tuyến tính

Công thức ban đầu được viết bằng các chữ cái Hy Lạp. Điều này cho chúng ta biết rằng đó là công thức dân số. Nhưng đừng quên rằng thống kê (và khoa học dữ liệu) là tất cả về dữ liệu mẫu. Trong thực tế, chúng ta có xu hướng sử dụng phương trình hồi quy tuyến tính

Nó chỉ đơn giản là ŷ = β0+ β1* x

ŷ ở đây được gọi là mũ y. Bất cứ khi nào chúng ta có biểu tượng mũ, đó là giá trị ước tính hoặc dự đoán

B0 là ước tính của hằng số hồi quy β0. Trong khi đó, b1 là ước tính của β1 và x là dữ liệu mẫu cho biến độc lập

Đường hồi quy

Bạn cũng có thể đã nghe nói về đường hồi quy. Khi chúng ta vẽ các điểm dữ liệu trên mặt phẳng x-y, đường hồi quy là đường phù hợp nhất thông qua các điểm dữ liệu

Bạn có thể xem một biểu đồ với một số điểm dữ liệu trong hình trên. Chúng tôi vẽ đường dựa trên phương trình hồi quy

Các điểm màu xám nằm rải rác là các giá trị được quan sát. B0, như chúng ta đã nói trước đó, là một hằng số và là giao điểm của đường hồi quy với trục y

B1 là độ dốc của đường hồi quy. Nó cho thấy y thay đổi bao nhiêu cho mỗi lần thay đổi đơn vị của x.

Công cụ ước tính lỗi

Khoảng cách giữa các giá trị được quan sát và đường hồi quy là công cụ ước tính của thuật ngữ lỗi epsilon. Ước lượng điểm của nó được gọi là phần dư

Bây giờ, giả sử chúng ta vẽ một đường vuông góc từ một điểm quan sát đến đường hồi quy. Giao điểm giữa đường vuông góc đó và đường hồi quy sẽ là một điểm có giá trị y bằng ŷ

Như chúng ta đã nói trước đó, cho trước một x, ŷ là giá trị được dự đoán bởi đường hồi quy

Hồi quy tuyến tính trong ví dụ Python

Chúng tôi tin rằng đã đến lúc chúng tôi thực sự bắt tay vào làm và viết một số mã. Vì vậy, hãy làm bẩn tay với ví dụ hồi quy tuyến tính đầu tiên của chúng tôi trong Python. Nếu đây là lần đầu tiên bạn nghe về Python, đừng lo lắng. Chúng tôi có rất nhiều hướng dẫn sẽ cung cấp cho bạn cơ sở bạn cần để sử dụng nó cho khoa học dữ liệu và máy học

Bây giờ, làm thế nào về chúng ta viết một số mã? .  

Nhập các thư viện liên quan

Hãy nhập các thư viện sau

Ba cái đầu tiên khá thông thường. Chúng tôi thậm chí sẽ không cần đến numpy, nhưng thật tốt khi có nó ở đó – sẵn sàng giúp một tay trong một số hoạt động. Ngoài ra, thư viện máy học mà chúng tôi sẽ sử dụng cho ví dụ hồi quy tuyến tính này là. mô hình thống kê. Vì vậy, về cơ bản chúng ta có thể viết đoạn mã sau

import numpy as np import pandas as pd import matplotlib.pyplot as plt import statsmodels.api as sm

Đang tải dữ liệu

Dữ liệu mà chúng tôi sẽ sử dụng cho ví dụ hồi quy tuyến tính của chúng tôi nằm trong một. tệp csv được gọi là. ‘1. 01. Hồi quy tuyến tính cơ bản. csv'. Bạn có thể tải về từ đây. Hãy chắc chắn rằng bạn lưu nó trong thư mục của người dùng

Bây giờ, hãy nạp nó vào một biến mới gọi là. dữ liệu bằng phương pháp gấu trúc. 'read_csv'. Chúng ta có thể viết đoạn mã sau

data = pd.read_csv(‘1.01. Simple linear regression.csv’)

Sau khi chạy nó, dữ liệu từ. tệp csv sẽ được tải trong biến dữ liệu. Vì chúng tôi đang sử dụng gấu trúc, biến dữ liệu sẽ được tự động chuyển đổi thành khung dữ liệu

Trực quan hóa khung dữ liệu

Hãy xem điều đó có đúng không. Chúng ta có thể ghi dữ liệu và chạy dòng. Như bạn có thể thấy bên dưới, chúng tôi thực sự đã hiển thị khung dữ liệu

Có hai cột - SAT và GPA. Và đó là tất cả những gì về ví dụ hồi quy tuyến tính của chúng ta. Hãy kiểm tra thêm

data.describe()

Đây là phương pháp pandas sẽ cung cấp cho chúng tôi số liệu thống kê mô tả hữu ích nhất cho từng cột trong khung dữ liệu – số lượng quan sát, giá trị trung bình, độ lệch chuẩn, v.v.

Trong ví dụ về hồi quy tuyến tính này, chúng tôi sẽ chưa đưa nó vào hoạt động. Tuy nhiên, nên sử dụng nó

Vấn đề

Hãy khám phá vấn đề với ví dụ hồi quy tuyến tính của chúng tôi

Vì vậy, chúng tôi có một mẫu gồm 84 sinh viên đã học đại học

Tổng điểm SAT của họ bao gồm đọc quan trọng, toán học và viết. Trong khi đó, GPA là Điểm trung bình của họ khi tốt nghiệp

Đó là một mối quan hệ rất nổi tiếng. Chúng tôi sẽ tạo một hồi quy tuyến tính dự đoán điểm trung bình của học sinh dựa trên điểm SAT của họ

Khi bạn nghĩ về nó, nó hoàn toàn có ý nghĩa

  1. Bạn dự thi SAT và ghi điểm
  2. Với số điểm này, bạn đăng ký vào đại học
  3. 4 năm tiếp theo, bạn học đại học và tốt nghiệp nhận được nhiều điểm, tạo thành điểm trung bình của bạn

Bạn có thể xem mốc thời gian bên dưới

hồi quy có ý nghĩa

Trước khi chúng tôi kết thúc phần giới thiệu này, chúng tôi muốn giải quyết vấn đề này. Mỗi lần chúng ta tạo hồi quy, nó phải có ý nghĩa. Tại sao chúng ta dự đoán GPA với SAT?

Trung bình, nếu bạn làm tốt bài thi SAT, bạn sẽ thành công ở trường đại học và tại nơi làm việc. Hơn nữa, hầu hết tất cả các trường đại học trên khắp Hoa Kỳ đang sử dụng SAT như một đại diện để nhập học

Và cuối cùng nhưng không kém phần quan trọng, SAT đã vượt qua thử thách của thời gian và khẳng định mình là kỳ thi hàng đầu để tuyển sinh đại học

Thật an toàn khi nói hồi quy của chúng tôi có ý nghĩa

Tạo hồi quy đầu tiên của chúng tôi bằng Python

Sau khi chúng tôi xóa mọi thứ, chúng tôi có thể bắt đầu tạo hồi quy đầu tiên của mình trong Python. Chúng tôi sẽ xem qua mã và trong các hướng dẫn tiếp theo, chúng tôi sẽ làm rõ từng điểm

Quan trọng. Hãy nhớ rằng, phương trình là

Biến phụ thuộc của chúng ta là GPA, vì vậy hãy tạo một biến có tên y sẽ chứa GPA

Xin nhắc lại - cú pháp của gấu trúc khá đơn giản

Đây là tất cả những gì chúng ta cần để viết mã

y = data[‘GPA’] x1 = data[‘SAT’]
  1. Đầu tiên, chúng tôi viết tên của khung dữ liệu, trong trường hợp này là dữ liệu
  2. Sau đó, chúng tôi thêm vào dấu ngoặc vuông tên cột có liên quan, đó là GPA trong trường hợp của chúng tôi

Tương tự, biến độc lập của chúng tôi là SAT và chúng tôi có thể tải nó vào một biến x1

Khám phá dữ liệu

Việc vẽ biểu đồ dữ liệu của chúng tôi luôn hữu ích để hiểu rõ hơn về dữ liệu đó và xem liệu có mối quan hệ nào được tìm thấy hay không

Chúng tôi sẽ sử dụng một số mã matplotlib thông thường

plt.scatter(x1,y) plt.xlabel(‘SAT’, fontsize = 20) plt.ylabel(‘GPA’, fontsize = 20) plt.show()

Bạn có thể xem kết quả mà chúng ta nhận được sau khi chạy nó ở hình bên dưới

Mỗi điểm trên biểu đồ đại diện cho một sinh viên khác nhau. Chẳng hạn, điểm được đánh dấu bên dưới là một học sinh đạt điểm SAT khoảng 1900 và tốt nghiệp với điểm 3. điểm trung bình 4

Quan sát tất cả các điểm dữ liệu, chúng ta có thể thấy rằng có một mối quan hệ chặt chẽ giữa SAT và GPA. Nói chung, điểm SAT của học sinh càng cao thì điểm trung bình của họ càng cao

Thêm một hằng số

Tiếp theo, chúng ta cần tạo một biến mới, mà chúng ta sẽ gọi là x

Chúng tôi có x1, nhưng chúng tôi không có x0. Thực tế trong phương trình hồi quy không có ẩn x0. Riêng hệ số b0

Điều đó có thể được đại diện như. b0 * 1. Vì vậy, nếu có x0, nó sẽ luôn là 1

Nó thực sự thiết thực cho các mục đích tính toán để kết hợp khái niệm này vào phương trình. Và đó là cách chúng tôi ước tính hệ số chặn b0. Về mã, statsmodels sử dụng phương thức. . add_constant()

Vì vậy, hãy khai báo một biến mới

x = sm.add_constant(x1)

Biến kết quả

Ngay sau khi chúng tôi làm điều đó, chúng tôi sẽ tạo một biến khác có tên là kết quả. Nó sẽ chứa đầu ra của hồi quy bình phương nhỏ nhất thông thường, hoặc OLS. Là đối số, chúng ta phải thêm biến phụ thuộc y và x mới được xác định. Cuối cùng, chúng ta sẽ cần. phương thức phù hợp (). Đó là một phương pháp áp dụng một kỹ thuật ước tính cụ thể để có được sự phù hợp của mô hình.

Điều đó là đủ để thực hiện hồi quy

Hiển thị kết quả hồi quy

Trong mọi trường hợp, kết quả. summary() sẽ hiển thị kết quả hồi quy và sắp xếp chúng thành ba bảng

Vì vậy, đây là tất cả mã chúng ta cần để chạy

x = sm.add_constant(x1) results = sm.OLS(y,x).fit() results.summary()

Và đây là những gì chúng tôi nhận được sau khi chạy nó

Như bạn có thể thấy, chúng tôi có rất nhiều số liệu thống kê trước mắt. Và chúng tôi sẽ kiểm tra nó chi tiết hơn trong các hướng dẫn tiếp theo

Vẽ đường hồi quy

Hãy vẽ đường hồi quy trên cùng một biểu đồ phân tán. Chúng ta có thể đạt được điều đó bằng cách viết như sau

plt.scatter(x1,y) yhat = 0.0017*x1 + 0.275 fig = plt.plot(x1,yhat, lw=4, c=’orange’, label = ‘regression line’) plt.xlabel(‘SAT’, fontsize = 20) plt.ylabel(‘GPA’, fontsize = 20) plt.show()

Như bạn có thể thấy bên dưới, đó là đường phù hợp nhất, hay nói cách khác – đường đồng thời gần nhất với tất cả các quan sát.

Vì vậy, đó là cách bạn tạo một hồi quy tuyến tính đơn giản trong Python

Cách diễn giải bảng hồi quy

Bây giờ, hãy tìm hiểu cách diễn giải bảng hồi quy mà chúng ta đã thấy trước đó trong ví dụ về hồi quy tuyến tính

Mặc dù các biểu đồ chúng ta đã thấy cho đến nay rất đẹp và dễ hiểu. Khi bạn thực hiện phân tích hồi quy, bạn sẽ tìm thấy điều gì đó khác với biểu đồ phân tán có đường hồi quy. Biểu đồ là một biểu diễn trực quan và điều chúng ta thực sự muốn là phương trình của mô hình và thước đo tầm quan trọng cũng như khả năng giải thích của nó. Đây là lý do tại sao tóm tắt hồi quy bao gồm một vài bảng, thay vì biểu đồ

Hãy cùng tìm hiểu cách đọc và hiểu các bảng này

3 bảng chính

Thông thường, khi sử dụng mô hình thống kê, chúng ta sẽ có ba bảng chính – tóm tắt mô hình

bảng hệ số

và một số bài kiểm tra bổ sung

Chắc chắn, những bảng này chứa rất nhiều thông tin, nhưng chúng tôi sẽ tập trung vào những phần quan trọng nhất

Chúng ta sẽ bắt đầu với bảng hệ số

Bảng hệ số

Chúng ta có thể thấy hệ số của phần chặn hoặc hằng số như họ đã đặt tên cho nó trong trường hợp của chúng ta

Cả hai thuật ngữ được sử dụng thay thế cho nhau. Trong mọi trường hợp, nó là 0. 275, nghĩa là b0 bằng 0. 275

Nhìn bên dưới nó, chúng tôi nhận thấy hệ số khác là 0. 0017. Đây là b1 của chúng tôi. Đây là hai số duy nhất chúng ta cần để xác định phương trình hồi quy

Vì vậy,

ŷ= 0. 275 + 0. 0017 * x1

Hoặc GPA bằng 0. 275 cộng với 0. 0017 lần điểm SAT

Vì vậy, đây là cách chúng ta có được phương trình hồi quy

Tóm tắt nhanh

Hãy lùi lại một bước và xem đoạn mã mà chúng ta đã vẽ đường hồi quy. Chúng tôi đã vẽ biểu đồ phân tán của SAT và GPA. Điều đó rõ ràng. Sau đó, chúng tôi đã tạo một biến gọi là. mũ y(ŷ). Hơn nữa, chúng tôi đã nhập thư viện seaborn dưới dạng 'giao diện' cho matplotlib. Chúng tôi đã làm điều đó để hiển thị hồi quy theo cách đẹp hơn

Đó chính là đường hồi quy - các biến dự đoán dựa trên dữ liệu

Cuối cùng, chúng tôi vẽ đường thẳng đó bằng phương pháp vẽ đồ thị

Đương nhiên, chúng tôi đã chọn các hệ số từ bảng hệ số – chúng tôi không tạo ra chúng

Sức mạnh dự đoán của hồi quy tuyến tính

Bạn có thể tự hỏi nếu dự đoán đó là hữu ích. Chà, biết rằng một người đã đạt 1700 điểm trong kỳ thi SAT, chúng ta có thể thay thế vào phương trình và thu được kết quả sau

0. 275 + 0. 0017 * 1700, bằng 3. 165. Vì vậy, điểm trung bình dự kiến ​​cho sinh viên này, theo mô hình của chúng tôi là 3. 165

Và đó là sức mạnh dự đoán của hồi quy tuyến tính một cách ngắn gọn

Các lỗi tiêu chuẩn

Còn các ô khác trong bảng thì sao?

Các lỗi tiêu chuẩn cho thấy độ chính xác của dự đoán cho từng biến

Sai số chuẩn càng thấp thì ước lượng càng tốt

Thống kê T

Hai giá trị tiếp theo là thống kê T và giá trị P của nó

Nếu bạn đã xem qua các hướng dẫn khác của chúng tôi, bạn có thể biết rằng có một giả thuyết liên quan ở đây. Giả thuyết khống của thử nghiệm này là. = 0. Nói cách khác, hệ số có bằng 0 không?

Giả thuyết Null

Nếu một hệ số bằng 0 cho phần chặn (b0), thì đường thẳng cắt trục y tại gốc. Bạn có thể hiểu rõ hơn về những gì chúng ta đang nói đến, từ hình ảnh bên dưới

Nếu β1 bằng 0, thì 0 * x sẽ luôn bằng 0 với mọi x, vì vậy biến này sẽ không được xem xét cho mô hình. Về mặt đồ thị, điều đó có nghĩa là đường hồi quy nằm ngang - luôn đi qua giá trị chặn

Giá trị P

Hãy diễn giải bài kiểm tra này. Về cơ bản, nó hỏi, đây có phải là một biến hữu ích không?

Như bạn có thể biết, giá trị P dưới 0. 05 có nghĩa là biến có ý nghĩa. Do đó, hệ số rất có thể khác 0. Hơn nữa, chúng tôi đang khao khát được nhìn thấy ba con số không đó

Điều này có ý nghĩa gì đối với ví dụ hồi quy tuyến tính của chúng ta?

Chà, nó chỉ đơn giản cho chúng ta biết rằng điểm SAT là một biến số quan trọng khi dự đoán điểm trung bình đại học

Những gì bạn có thể nhận thấy là giá trị p chặn không phải là số không

Hãy nghĩ về điều này. Nó có quan trọng đến thế không? . Về mặt đồ thị, điều đó có nghĩa là đường hồi quy đi qua gốc của đồ thị

Thông thường, điều này không cần thiết, vì nó là mối quan hệ nhân quả của các X mà chúng ta quan tâm.

thống kê F

Biện pháp cuối cùng chúng ta sẽ thảo luận là F-statistic. Chúng tôi sẽ giải thích bản chất của nó và xem nó có thể hữu ích như thế nào đối với chúng tôi

Giống như thống kê Z tuân theo phân phối chuẩn và thống kê T tuân theo phân phối T của Student, thống kê F tuân theo phân phối F

Chúng tôi gọi nó là một thống kê, có nghĩa là nó được sử dụng để kiểm tra. Kiểm định được gọi là kiểm định ý nghĩa tổng thể của mô hình

Giả thuyết Null và Giả thuyết thay thế

giả thuyết khống là. tất cả các β đều đồng thời bằng 0

Giả thuyết thay thế là. ít nhất một β khác 0

Đây là cách hiểu. nếu tất cả các β đều bằng 0, thì không có biến độc lập nào quan trọng. Do đó, mô hình của chúng tôi không có giá trị

Trong trường hợp của chúng tôi, thống kê F là 56. 05

Ô bên dưới là giá trị P của nó

Như bạn có thể thấy, con số thực sự rất thấp – gần như bằng 0. 000. Chúng tôi nói rằng mô hình tổng thể là đáng kể

Quan trọng. Lưu ý cách giá trị P là thước đo chung cho tất cả các thử nghiệm. Có một bảng F được sử dụng cho thống kê F, nhưng chúng tôi không cần nó, vì khái niệm giá trị P quá mạnh

Phép thử F rất quan trọng đối với hồi quy, vì nó cung cấp cho chúng ta một số hiểu biết quan trọng. Hãy nhớ rằng, thống kê F càng thấp, càng gần với mô hình không có ý nghĩa

Hơn nữa, đừng quên tìm ba số 0 sau dấu chấm

Tạo hồi quy tuyến tính của riêng bạn

Chà, đó là một hành trình dài, phải không? . Sau đó, chúng tôi tiến hành quá trình tạo một. Chúng tôi cũng đã xem xét một ví dụ hồi quy tuyến tính. Sau đó, chúng tôi đã nói về hồi quy tuyến tính đơn giản, nơi chúng tôi giới thiệu phương trình hồi quy tuyến tính. Đến lúc đó, chúng tôi đã hoàn thành lý thuyết và bắt tay vào bàn phím và khám phá một ví dụ hồi quy tuyến tính khác trong Python. Chúng tôi đã nhập các thư viện có liên quan và tải dữ liệu. Chúng tôi đã xác định chính xác thời điểm chúng tôi cần tạo hồi quy và bắt đầu tạo hồi quy của riêng mình. Quá trình này bao gồm một số bước mà bây giờ, bạn có thể thực hiện một cách dễ dàng. Sau đó, chúng tôi bắt đầu diễn giải bảng hồi quy. Chúng tôi chủ yếu thảo luận về bảng hệ số. Cuối cùng, chúng tôi đã giải thích lý do tại sao thống kê F lại quan trọng đối với hồi quy

Bước tiếp theo. tương quan

Bạn nghĩ rằng đó là tất cả những gì bạn cần biết về hồi quy? . Có nhiều kỹ năng khác mà bạn cần có để thực sự hiểu cách làm việc với hồi quy tuyến tính. Điều đầu tiên mà bạn có thể làm rõ là quan niệm sai lầm rằng hồi quy và tương quan đang đề cập đến cùng một khái niệm

Chủ đề