Mô hình tuyến tính tổng quát trong python là gì?

Bài viết sau đây thảo luận về các Mô hình tuyến tính tổng quát (GLM) giải thích cách hồi quy Tuyến tính và hồi quy Logistic là thành viên của một lớp mô hình rộng hơn nhiều. GLM có thể được sử dụng để xây dựng các mô hình cho các vấn đề hồi quy và phân loại bằng cách sử dụng loại phân phối mô tả đúng nhất dữ liệu hoặc nhãn được cung cấp để đào tạo mô hình. Dưới đây là một số loại tập dữ liệu và phân phối tương ứng sẽ giúp chúng tôi xây dựng mô hình cho một loại dữ liệu cụ thể (Thuật ngữ dữ liệu được chỉ định ở đây đề cập đến dữ liệu đầu ra hoặc nhãn của tập dữ liệu).  

Mô hình tuyến tính tổng quát (GLiM hoặc GLM) là một kỹ thuật mô hình thống kê tiên tiến được John Nelder và Robert Wedderburn xây dựng vào năm 1972. Nó là một thuật ngữ chung bao gồm nhiều mô hình khác, cho phép biến phản hồi y có phân phối lỗi khác với phân phối bình thường. Các mô hình bao gồm Hồi quy tuyến tính, Hồi quy logistic và Hồi quy Poisson

Trong Mô hình hồi quy tuyến tính, biến phản hồi (còn gọi là phụ thuộc/mục tiêu) 'y' được biểu thị dưới dạng hàm tuyến tính/tổ hợp tuyến tính của tất cả các yếu tố dự đoán 'X' (còn gọi là biến độc lập/hồi quy/giải thích/quan sát). Mối quan hệ cơ bản giữa phản hồi và các yếu tố dự đoán là tuyến tính (i. e. chúng ta chỉ có thể hình dung mối quan hệ dưới dạng một đường thẳng). Ngoài ra, phân phối lỗi của biến phản hồi phải được phân phối bình thường. Vì vậy, chúng tôi đang xây dựng một mô hình tuyến tính

Các mô hình GLM cho phép chúng tôi xây dựng mối quan hệ tuyến tính giữa phản hồi và yếu tố dự đoán, mặc dù mối quan hệ cơ bản của chúng không phải là tuyến tính. Điều này có thể thực hiện được bằng cách sử dụng hàm liên kết, liên kết biến phản hồi với mô hình tuyến tính. Không giống như các mô hình Hồi quy tuyến tính, phân phối lỗi của biến phản hồi không cần phải phân phối bình thường. Các lỗi trong biến trả lời được giả định tuân theo một họ phân phối hàm mũ (i. e. phân phối bình thường, nhị thức, Poisson hoặc gamma). Vì chúng tôi đang cố gắng khái quát hóa một mô hình hồi quy tuyến tính cũng có thể được áp dụng trong những trường hợp này, nên tên Mô hình tuyến tính tổng quát hóa

Tại sao GLM?

Mô hình hồi quy tuyến tính không phù hợp nếu,

  • Mối quan hệ giữa X và y không phải là tuyến tính. Tồn tại một số mối quan hệ phi tuyến tính giữa chúng. Ví dụ: y tăng theo cấp số nhân khi X tăng
  • Phương sai của sai số trong y (thường được gọi là Phương sai đồng nhất trong hồi quy tuyến tính), không phải là hằng số và thay đổi theo X
  • Biến phản hồi không liên tục, nhưng rời rạc/phân loại. Hồi quy tuyến tính giả định phân phối bình thường của biến trả lời, chỉ có thể được áp dụng trên dữ liệu liên tục. Nếu chúng ta cố gắng xây dựng một mô hình hồi quy tuyến tính trên một biến y rời rạc/nhị phân, thì mô hình hồi quy tuyến tính dự đoán các giá trị âm cho biến phản hồi tương ứng, điều này là không phù hợp

Trong biểu đồ bên dưới, chúng ta có thể thấy phản hồi là 0 hoặc 1. Khi X < 5000 thì y bằng 0 và khi X >=5000 thì y bằng 1

Ví dụ: Hãy xem xét một mô hình tuyến tính như sau

Một ví dụ đơn giản về giá di động trong nền tảng thương mại điện tử

Giá = 12500 + 1. 5*Kích thước màn hình – 3*Pin dự phòng (dưới 4 giờ)

Dữ liệu có sẵn cho,

  • Giá di động
  • Kích thước màn hình (tính bằng inch)
  • Pin dự phòng có dưới 4 giờ không – với các giá trị là 'có' hoặc 'không'

Trong ví dụ này, nếu kích thước màn hình tăng 1 đơn vị, thì giá của điện thoại di động tăng 1. Gấp 5 lần giá mặc định, giữ nguyên giá trị chặn (12500) và Pin dự phòng. Tương tự như vậy, nếu Pin dự phòng dưới 4 giờ là 'có, thì giá di động sẽ giảm ba lần so với giá mặc định. Nếu Pin dự phòng dưới 4 giờ là 'không', thì giá điện thoại di động không bị ảnh hưởng, vì thuật ngữ (3*Pin dự phòng) trở thành 0 trong mô hình tuyến tính. Chặn 12500 cho biết giá mặc định cho giá trị tiêu chuẩn của kích thước màn hình. Đây là một mô hình hợp lệ

Tuy nhiên, nếu chúng ta có được một mô hình như dưới đây

Giá = 12500 +1. 5*Kích thước màn hình + 3*Pin dự phòng (dưới 4 giờ)

Ở đây, nếu pin dự phòng dưới 4h là ‘có’ thì người mẫu đang nói giá điện thoại tăng gấp ba lần. Rõ ràng, từ kiến ​​thức thực tế, chúng tôi biết điều này là không chính xác. Sẽ có ít nhu cầu hơn cho những chiếc điện thoại di động như vậy. Đây sẽ là những điện thoại di động rất cũ, khi so sánh với các loại điện thoại di động hiện tại với các tính năng mới nhất, sẽ có giá rất thấp. Điều này là do mối quan hệ giữa hai biến không phải là tuyến tính, nhưng chúng tôi đang cố gắng biểu thị nó dưới dạng mối quan hệ tuyến tính. Do đó, một mô hình không hợp lệ được xây dựng

Tương tự, nếu chúng ta đang cố dự đoán xem một chiếc điện thoại cụ thể có được bán hay không, sử dụng cùng các biến độc lập, nhưng mục tiêu là chúng ta đang cố dự đoán xem điện thoại có bán được hay không, vì vậy nó chỉ có kết quả nhị phân.  

Sử dụng Hồi quy tuyến tính, chúng ta có được một mô hình như,

Doanh số = 12500 +1. 5*Kích thước màn hình – 3*Pin dự phòng (dưới 4 giờ)

Mô hình này không cho chúng tôi biết điện thoại di động có được bán hay không, bởi vì đầu ra của mô hình hồi quy tuyến tính là giá trị liên tục. Có thể nhận giá trị âm cũng như đầu ra. Nó không chuyển thành mục tiêu thực tế của chúng tôi là liệu điện thoại có một số thông số kỹ thuật dựa trên các yếu tố dự đoán sẽ bán được hay không (kết quả nhị phân)

Tương tự, nếu chúng tôi cũng đang cố gắng xem số lượng bán điện thoại di động này sẽ xảy ra trong tháng tới là bao nhiêu, giá trị âm có nghĩa là không có gì. Ở đây, giá trị tối thiểu là 0 (không có giao dịch bán hàng nào xảy ra) hoặc giá trị dương tương ứng với số lần bán hàng. Có số lượng là một giá trị âm không có ý nghĩa đối với chúng tôi

Giả định của GLM

Tương tự như Mô hình hồi quy tuyến tính, cũng có một số giả định cơ bản cho Mô hình tuyến tính tổng quát. Hầu hết các giả định tương tự như mô hình Hồi quy tuyến tính, trong khi một số giả định của Hồi quy tuyến tính được sửa đổi

  • Dữ liệu phải độc lập và ngẫu nhiên (Mỗi biến ngẫu nhiên có cùng phân phối xác suất)
  • Biến phản hồi y không cần có phân phối chuẩn, nhưng phân phối thuộc họ hàm mũ (e. g. nhị thức, Poisson, đa thức, bình thường)
  • Biến phản hồi ban đầu không nhất thiết phải có mối quan hệ tuyến tính với các biến độc lập, nhưng biến phản hồi được chuyển đổi (thông qua hàm liên kết) phụ thuộc tuyến tính vào các biến độc lập

Bán tại. , Phương trình hồi quy logistic, Tỷ lệ log = β0+β1X1+β2X2 ,

trong đó β0,β1,β2 là hệ số hồi quy và X1,X2 là các biến độc lập

  • Kỹ thuật tính năng trên Biến độc lập có thể được áp dụng i. e thay vì lấy các biến độc lập thô ban đầu, có thể thực hiện chuyển đổi biến và các biến độc lập đã chuyển đổi, chẳng hạn như thực hiện chuyển đổi nhật ký, bình phương các biến, nghịch đảo của các biến, cũng có thể được sử dụng để xây dựng mô hình GLM
  • phương sai đồng nhất (i. phương sai không đổi) không cần thỏa mãn. Biến phản hồi Phương sai sai số có thể tăng hoặc giảm theo các biến độc lập
  • Lỗi là độc lập nhưng không cần phân phối bình thường

Các thành phần của GLM

Có 3 thành phần trong GLM

  • Thành phần hệ thống/Dự đoán tuyến tính

Nó chỉ là sự kết hợp tuyến tính của Dự đoán và hệ số hồi quy

β0+β1X1+β2X2

  • chức năng liên kết

Được biểu thị dưới dạng η hoặc g(μ), nó chỉ định mối liên hệ giữa các thành phần ngẫu nhiên và có hệ thống. Nó chỉ ra cách giá trị mong đợi/dự đoán của phản hồi liên quan đến sự kết hợp tuyến tính của các biến dự báo

  • Thành phần ngẫu nhiên/Phân phối xác suất

Nó đề cập đến phân phối xác suất, từ họ phân phối, của biến phản hồi

Họ các phân phối, được gọi là họ hàm mũ, bao gồm phân phối chuẩn, phân phối nhị thức hoặc phân phối poisson

Dưới đây tóm tắt bảng Phân phối xác suất và hàm Liên kết tương ứng của chúng

Hàm Phân phối Xác suất Hàm Liên kết Phân phối Chuẩn Hàm Định danh Phân phối Nhị thức Hàm Logit/Sigmoid Hàm Phân phối Poisson Hàm Nhật ký (còn gọi là log-linear, log-link)

Các mô hình tuyến tính tổng quát khác nhau

Các mô hình thường được sử dụng trong gia đình GLiM bao gồm

  • Hồi quy tuyến tính, cho kết quả liên tục với phân phối bình thường

Ở đây chúng tôi lập mô hình giá trị kỳ vọng trung bình của một biến phản hồi liên tục như là một hàm của các biến giải thích. Chức năng liên kết nhận dạng được sử dụng, đây là chức năng liên kết đơn giản nhất

Nếu chỉ có 1 biến dự đoán thì mô hình được gọi là Hồi quy tuyến tính đơn giản. Nếu có từ 2 biến giải thích trở lên thì mô hình được gọi là Hồi quy tuyến tính bội

Hồi quy tuyến tính đơn giản, y= β0+β1X1

Hồi quy tuyến tính bội, y = β0+β1X1+β2X2

Đáp ứng liên tục

Dự đoán có thể liên tục hoặc phân loại và cũng có thể được chuyển đổi

Lỗi được phân phối bình thường và phương sai là không đổi

  • Hồi quy logistic nhị phân, cho kết quả nhị phân hoặc nhị phân với phân phối nhị thức

Ở đây, tỷ lệ cược của Log được thể hiện dưới dạng tổ hợp tuyến tính của các biến giải thích. Logit là chức năng liên kết. Hàm Logistic hoặc Sigmoid, trả về xác suất dưới dạng đầu ra, thay đổi trong khoảng từ 0 đến 1

Tỷ lệ log=  β0+β1X1+β2X2

Biến phản hồi chỉ có 2 kết quả

Dự đoán có thể liên tục hoặc phân loại và cũng có thể được chuyển đổi

nguồn hình ảnh. https. // vi. wikipedia. org/wiki/Sigmoid_function

  • Hồi quy Poisson, cho các kết quả dựa trên số lượng với phân phối poisson

Ở đây, các giá trị đếm được biểu thị dưới dạng tổ hợp tuyến tính của các biến giải thích. Liên kết nhật ký là chức năng liên kết

log(λ)=β0+β1×1+β2×2,

trong đó λ là giá trị trung bình của biến đếm

Biến phản hồi là một giá trị đếm trên một đơn vị thời gian và không gian

Dự đoán có thể liên tục hoặc phân loại và cũng có thể được chuyển đổi

Sự khác biệt giữa Mô hình tuyến tính tổng quát và Mô hình tuyến tính tổng quát

Mô hình tuyến tính tổng quát, còn được biểu diễn dưới dạng GLM, là trường hợp đặc biệt của Mô hình tuyến tính tổng quát (GLiM). Mô hình tuyến tính chung đề cập đến các mô hình hồi quy tuyến tính thông thường với một biến đáp ứng liên tục. Nó bao gồm nhiều mô hình thống kê như Single Linear Regression, Multiple Linear Regression, Anova, Ancova, Manova, Mancova, t-test và F-test. Mô hình tuyến tính chung giả định phần dư/lỗi tuân theo phân phối chuẩn. Mặt khác, Mô hình tuyến tính tổng quát cho phép phần dư có các phân phối khác từ họ phân phối hàm mũ.  

Các mô hình tuyến tính tổng quát có thể có dữ liệu tương quan không?

Đối với Mô hình Tuyến tính Tổng quát, dữ liệu không được tương quan với nhau. Nếu dữ liệu tương quan thì hiệu suất mô hình sẽ không đáng tin cậy. Vì lý do này, GLM không phù hợp với dữ liệu chuỗi thời gian, trong đó thông thường dữ liệu sẽ có một số mối tương quan tự động trong đó. Tuy nhiên, một số biến thể của GLM cũng đã được phát triển để xem xét mối tương quan trong dữ liệu, chẳng hạn như mô hình Phương trình ước lượng tổng quát (GEEs) và mô hình Mô hình hỗn hợp tuyến tính tổng quát (GLMMs)

Điều này đưa chúng ta đến cuối blog. Nếu bạn đang dự định xây dựng sự nghiệp trong lĩnh vực Máy học, thì đây là một số câu hỏi phỏng vấn phổ biến nhất cần chuẩn bị. Bạn cũng có thể xem nhóm Khóa học trực tuyến miễn phí trên Great Learning Academy và nâng cao kỹ năng ngay hôm nay

GLM trong Python là gì?

Hàm glm() phù hợp với các mô hình tuyến tính tổng quát, một loại mô hình bao gồm hồi quy logistic . Cú pháp của hàm glm() tương tự như cú pháp của lm() , ngoại trừ việc chúng ta phải truyền vào đối số family=sm.

mô hình tuyến tính tổng quát trong thuật ngữ đơn giản là gì?

Thuật ngữ mô hình tuyến tính "tổng quát" (GLM) thường dùng để chỉ các mô hình hồi quy tuyến tính thông thường cho một biến phản hồi liên tục với các yếu tố dự báo liên tục và/hoặc phân loại. It includes multiple linear regression, as well as ANOVA and ANCOVA (with fixed effects only).

Một ví dụ về mô hình tuyến tính tổng quát là gì?

Hồi quy Poisson là một ví dụ về mô hình tuyến tính tổng quát (GLM). Có ba thành phần trong các mô hình tuyến tính tổng quát. Trong trường hợp hồi quy Poisson, nó được xây dựng như thế này. Dự đoán tuyến tính chỉ là sự kết hợp tuyến tính của tham số (b) và biến giải thích (x).

Sự khác biệt giữa GLM và hồi quy là gì?

Như tên gọi, GLM là một dạng hồi quy tuyến tính tổng quát . Nó linh hoạt hơn hồi quy tuyến tính vì. GLM hoạt động khi các biến đầu ra không liên tục hoặc không bị chặn. GLM cho phép những thay đổi trong đầu vào không bị ràng buộc ảnh hưởng đến biến đầu ra trên một thang đo có giới hạn thích hợp.