Ý nghĩa của phương sai trong nghiên cứu thu nhập

Phân tích phương sai hay phân tích ANOVA là một phương pháp thử nghiệm hữu ích và quan trọng. Nó được sử dụng nhiều trong nghiên cứu - phân tích định lượng đặc biệt là trong các lĩnh vực nghiên cứu bao gồm sinh học, kinh tế và tâm lý học,.. Trong bài viết này, Luận Văn 2S sẽ cùng bạn tìm hiểu khái niệm phân tích ANOVA là gì? Các bước phân tích ANOVA một yếu tố và thực hành kiểm định ANOVA trong SPSS.

Nội dung chính Show

Phân tích phương sai - ANOVA là gì?
Hai loại phân tích ANOVA
1/ Phân tích phương sai một yếu tố (one-way ANOVA)
2/ Phân tích ANOVA hai yếu tố (two-way ANOVA)
Thực hành phân tích ANOVA trong SPSS
Các bước thực hiện kiểm định ANOVA trong SPSS
Cách phân tích kết quả
1. ANOVA và Mô hình tuyến tính chung (General Linear Model)
2. So sánh mô hình ANOVA và mô hình hồi quy
3. Kiểm tra ý nghĩa và ước lượng trong ANOVA
4. Các giả định cho ANOVA
Tài liệu tham khảo

Phân tích phương sai - ANOVA là gì?

Phân tích phương sai (Analysis of Variance) hay còn gọi là kiểm định ANOVA là một kỹ thuật thống kê tham số được sử dụng để so sánh các bộ dữ liệu. Nói một cách dễ hiểu, phân tích ANOVA có chức năng đánh giá sự khác biệt tiềm năng trong một biến phụ thuộc mức quy mô bằng một biến mức danh nghĩa có từ 2 loại trở lên. Các nhà phân tích sử dụng thử nghiệm ANOVA để xác định ảnh hưởng của các biến độc lập đối với biến phụ thuộc trong nghiên cứu hồi quy. Kỹ thuật kiểm định ANOVA này được phát triển bởi Ronald Fisher năm 1918.

Ví dụ về phân tích phương sai:

Một nhóm bệnh nhân tâm thần đang thử ba liệu pháp khác nhau: tư vấn, dùng thuốc và phản hồi sinh học. Bạn muốn xem liệu một liệu pháp tốt hơn những liệu pháp khác.

Hay:

Một nhà nghiên cứu quan tâm đến việc xác định liệu có sự khác biệt về sức mạnh đôi chân chân giữa những người chơi bóng bầu dục nghiệp dư, bán chuyên nghiệp và chuyên nghiệp hay không. Lực/cường độ đo được trên máy isokinetic là biến phụ thuộc. Kiểu thiết kế nghiên cứu được minh họa dưới dạng sơ đồ trong hình dưới đây:

Ví dụ về phân tích phương sai ANOVA

>>>Xem thêm: Kiểm định T-Test trong SPSS và tất cả những gì bạn cần biết

Hai loại phân tích ANOVA

Có nhiều hơn 2 loại phân tích phương sai, tuy nhiên trong khuôn khổ nội dung bài viết này, chúng ta sẽ chỉ tìm hiểu hai loại thông dụng nhất là phân tích phương sai một yếu tố và hai yếu tố.

1/ Phân tích phương sai một yếu tố (one-way ANOVA)

One-way ANOVA là một loại thử nghiệm thống kê so sánh phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét một yếu tố hoặc một biến độc lập. Phương sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm phân loại để xác định xem có sự khác biệt giữa chúng hay không. Trong mỗi nhóm nên có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh.

Ví dụ như:

Bạn có thể sử dụng phân tích phương sai một yếu tố để tìm hiểu liệu hiệu suất kiểm tra có khác nhau hay không dựa trên mức độ lo lắng giữa các học sinh (chia học sinh thành ba nhóm độc lập: học sinh thấp, trung bình và cao bị căng thẳng).

2/ Phân tích ANOVA hai yếu tố (two-way ANOVA)

ANOVA hai yếu tố là một phần mở rộng của phân tích phương sai một yếu tố. Với One Way, bạn có một biến độc lập ảnh hưởng đến biến phụ thuộc. Còn với two-way ANOVA, sẽ có 2 biến độc lập.

Ví dụ: bạn có thể sử dụng phân tích ANOVA hai yếu tố để tìm hiểu liệu có sự tương tác giữa giới tính và trình độ học vấn đối với sự lo lắng kiểm tra giữa các sinh viên đại học. Trong đó giới tính (nam / nữ) và trình độ học vấn (đại học / sau đại học) là các biến độc lập của bạn, và kiểm tra lo lắng là biến phụ thuộc của bạn.

Thực hành phân tích ANOVA trong SPSS

Các bước thực hiện kiểm định ANOVA trong SPSS

Ví dụ: Một người quản lý muốn nâng cao năng suất tại công ty của mình bằng cách tăng tốc độ mà nhân viên của anh ta có thể sử dụng một chương trình bảng tính cụ thể. Vì anh ta không có các kỹ năng nội bộ, anh ta thuê một công ty bên ngoài cung cấp đào tạo trong chương trình bảng tính này. Họ cung cấp 3 khóa học: beginner, intermediate và advanced. Người quản lý này không chắc chắn khóa học nào sẽ cần thiết cho loại công việc mà nhân viên của mình cần. Vì vậy anh ta gửi 10 nhân viên vào khóa học beginner, 10 ở intermediate và 10 cho khóa học advanced. Khi tất cả họ trở về từ khóa đào tạo, anh ta đưa ra cho họ một vấn đề cần giải quyết bằng cách sử dụng chương trình bảng tính và thời gian họ mất bao lâu để hoàn thành vấn đề. Sau đó, so sánh ba khóa học để xem liệu có bất kỳ sự khác biệt nào trong thời gian trung bình để hoàn thành vấn đề.

Để phân tích phương sai một yếu tố ANOVA trong SPSS, ta thực hiện theo các bước sau:

Bước 1: Nhấp vào Analyze > Compare Means > One-Way ANOVA… trên menu

Bước 2: Hộp thoại One-Way ANOVA được mở ra:

Chuyển biến phụ thuộc Time vào box Dependent List và biến độc lập Course vào box Factor bằng cách sử dụng các nút mũi tên tương ứng hoặc kéo thả các biến vào ô trống, như hình dưới đây:

Bước 3: Nhấn vào button Post hoc... , tick chọn Tukey

Bước 4: Nhấn vào button Continue

Bước 5: Nhấn vào button Options... , tick chọn Descriptive trong khu vực –Statistics–

Bước 6: Nhấn vào button Continue

Bước 7: Nhấn vào button OK

Cách phân tích kết quả

Sau khi thực hiện xong 7 bước trên, ta được kết quả xuất ra bao gồm 2 bảng:

Bảng mô tả (Descriptives Table)

Bảng mô tả cung cấp một số thống kê mô tả rất hữu ích, bao gồm giá trị trung bình, độ lệch chuẩn, độ tin cậy 95% cho biến phụ thuộc Time.

Đây là bảng kết quả đầu ra của phân tích ANOVA. Từ kết quả này, chúng ta sẽ đánh giá được liệu có sự khác biệt có ý nghĩa thống kê giữa các nhóm hay không. Trong bảng ANOVA, ta thấy rằng giá trị hệ số Sig. = .021 < 0.05 => Có sự khác biệt có ý nghĩa thống kê về thời gian trung bình để hoàn thành bảng tính giữa các khóa học khác nhau. Tuy nhiên để biết nhóm nào khác với nhóm nào cần nhìn vào bảng tiếp theo.

Bảng Multiple Comparisons

Từ kết quả bảng ANOVA, ta đã biết được có sự khác biệt có ý nghĩa thống kê giữa các nhóm nói chung. Với bảng Multiple Comparisons này sẽ cho ta thấy rõ hơn về sự khác biệt này. Cụ thể, tại cột Sig. Ta sẽ xem xét giá trị nào bé hơn 0.05 Ta thấy có giá trị 0,046 đó là sig. khi so sánh sự hài lòng giữa hai nhóm beginner và intermediate; cũng như giá trị Sig. là 0,034 của hai nhóm beginner và advanced.

=> Có sự khác biệt có ý nghĩa thống kê về thời gian để hoàn thành bảng tính giữa hai nhóm tham gia khóa học beginner và intermediate cũng như hai nhóm beginner và advanced. Đồng thời không có sự khác biệt giữa các nhóm tham gia khóa học intermediate and advanced.

Trên đây Luận Văn 2s đã giới thiệu đến bạn khái niệm phân tích phương sai ANOVA cũng như cách thực hành kiểm định ANOVA trong SPSS. Tuy nhiên, trên thực tế, khi tiến hành thực hiện phân tích phương sai đối với các đề tài phức tạp như luận văn tốt nghiệp, luận văn thạc sĩ, tiến sĩ bạn rất có thể gặp phải những “sự cố” với dữ liệu của mình. Hãy liên hệ với Dịch vụ Phân tích định lượng - Hỗ trợ SPSS của chúng tôi nhé!

Phân tích phương sai (ANOVA) là một thủ tục kiểm tra giả thuyết thống kê cho phép nhà nghiên cứu đánh giá hiệu ứng nhân quả của hai hoặc nhiều biến số độc lập (phương pháp điều trị) và các tương tác có thể có của các điều trị này ảnh hưởng lên một biến số phản ứng (kết quả) duy nhất. Phân tích ANOVA cho phép các suy luận nhân quả được thực hiện trong các thiết kế thử nghiệm bằng cách phân chia sự biến động tổng thể giữa các cá thể (đơn vị thí nghiệm) thành các thành phần riêng biệt, mỗi thành phần đại diện cho một nguồn khác nhau của sự biến động hoặc hiệu quả điều trị. Sau đó, có thể xác định ảnh hưởng tương đối của các phương pháp điều trị khác nhau (các biến độc lập) và so sánh sự thay đổi giữa các phương pháp điều trị (sự khác biệt quan sát được) với sự khác biệt do cơ hội. Sự khác biệt về cơ hội là bất kỳ sự khác biệt nào giữa các cá nhân trong các nhóm điều trị khác nhau do các biến số không được kiểm soát hoặc chưa biết. Nguồn của biến đổi này được gọi là phương sai sai số (error variance). Tỷ lệ của sự biến động tổng thể quy cho các phương pháp điều trị khi so sánh với tỷ lệ quy cho sai số hình thành cơ sở của F-ratio hoặc F-statistic. Nếu các hiệu quả điều trị quan sát được, tức là sự khác biệt giữa các phương pháp điều trị khi tóm tắt theo các trung bình điều trị, chiếm tỷ lệ tương tự của sự thay đổi trong biến phản ứng như sự khác biệt về cơ hội, thì có thể giả định rằng sự khác biệt điều trị quan sát là xác suất vừa dao động ngẫu nhiên, và kết luận rằng không có sự khác biệt giữa các phương pháp điều trị (các biến độc lập). Nếu tỷ lệ của phương sai chiếm chỗ bởi các điều kiện điều trị lớn hơn so với phương sai sai số thì điều này cho thấy hiệu quả đáng kể đáng kể, cái mà có thể cần điều tra thêm để tìm ra (các) phương pháp điều trị nào có ảnh hưởng đáng kể đến biến phản ứng.

ANOVA cũng có thể được sử dụng với dữ liệu quan sát (observational data) bao gồm cả thiết kế so sánh và khảo sát. Trong các thiết kế so sánh, tác động lên biến phản ứng của các biến độc lập phân loại (categorical independent variables), đại diện cho các nhóm xuất hiện tự nhiên, được đánh giá. Nhà nghiên cứu đang tìm kiếm ảnh hưởng của tư cách thành viên của một nhóm cụ thể (biến độc lập) lên biến phản hồi. Các biến được sử dụng để xác định nhóm được gọi là các yếu tố (factors), ví dụ, giới tính và các chỉ báo khác nhau trong một yếu tố được gọi là mức độ (levels), ví dụ, nam hoặc nữ. Nhà nghiên cứu xem xét liệu có sự khác biệt giữa các trung bình của các nhóm điều trị. Nhà nghiên cứu đang thực sự kiểm tra sự khác biệt giữa các trung bình của các mức độ của một yếu tố, chẳng hạn như sự khác biệt giữa điểm trung bình của nam và nữ. Thiết kế so sánh khác với thiết kế thực nghiệm vì mức độ của các biến độc lập (thành viên nhóm – nam, nữ) không được gán ngẫu nhiên (chúng đã xảy ra hoặc là loại tự nhiên) trước khi ảnh hưởng của chúng lên biến phản ứng là được quan sát. Các thiết kế khảo sát tương tự như các thiết kế so sánh ngoại trừ trung bình của sự khác biệt cho các phân nhóm dân số (population subclasses) là được kiểm tra. Các lớp con được nhà nghiên cứu mô tả, ví dụ, một nhóm tuổi cụ thể là trẻ 5–7 tuổi hoặc một loại trường học cụ thể. Các đối tượng thậm chí có thể được phân loại theo phản hồi của họ sau khi dữ liệu được thu thập có thể được các nhà nghiên cứu xác định sau khi phân tích dữ liệu ban đầu. Các thiết kế đo lường lặp lại (Repeated measurement designs) cũng thường xuyên được phân tích bằng kỹ thuật ANOVA. Các phép đo hoặc quan sát lặp lại được coi là một yếu tố trong phân tích với các phép đo trên một biến ở các trường hợp khác nhau (chẳng hạn điểm số trước – sau điều trị) tương ứng với các mức của yếu tố. Các đối tượng tương tự có liên quan đến các biện pháp lặp lại.

1. ANOVA và Mô hình tuyến tính chung (General Linear Model)

Việc xem xét phân tích phương sai từ quan điểm của một mô hình tuyến tính tổng quát cơ bản có nghĩa là có thể dễ dàng nhận thấy mối quan hệ của nó với hồi quy; quan trọng hơn cách tiếp cận này sẽ tạo nền tảng cho việc sử dụng các kỹ thuật phức tạp hơn như phân tích phương sai đa biến (MANOVA — điều này được sử dụng khi có nhiều biến phản hồi thay vì một biến phản hồi đơn lẻ như trường hợp của ANOVA đơn biến), phân tích nhân tố (factor analysis) và phân tích phân biệt (discriminant analysis). Mô hình tuyến tính tổng quát cơ bản giúp tích hợp ANOVA và hồi quy. Thực tế, ANOVA là một trường hợp đặc biệt của hồi quy tuyến tính bội. Vì thế, chúng ta hiểu tại sao ANOVA và hồi quy lại có nhiều giả định cơ bản giống nhau. Hầu hết các chương trình máy tính về phân tích thống kê (chẳng hạn SPSS) trình bày dữ liệu ở dạng nhất quán với mô hình tuyến tính chung cơ bản (underlying general linear model) và trừ khi chúng ta hiểu những điểm chung và khác biệt giữa ANOVA và hồi quy, chúng ta sẽ không thể học thuộc lòng ý nghĩa của kết quả máy tính thay vì sự hiểu biết với cái nhìn sâu sắc.

Dạng chung của mô hình thống kê ANOVA cho thiết kế một nhân tố (one-factor ANOVA): yij=µ+αi+εij

Mô hình tuyến tính tổng quát này mô tả điểm số quan sát được cho học sinh thứ j từ lần điều trị thứ i, yij, là tổng của ba thành phần riêng biệt:

một phản ứng chung cho tất cả học sinh trong dân số mục tiêu của sự quan tâm, μ (trung bình phản ứng). Điều này thể hiện điểm trung bình của tất cả học sinh trong thí nghiệm;
độ lệch (deviation) từ μ cho một nhóm điều trị cụ thể, αi. Thí dụ trong thí nghiệm này có ba phương pháp điều trị, vì vậy chúng ta có α1 tương ứng với tất cả học sinh với điều kiện đọc thầm, α2 tương ứng với điều kiện kể chuyện, và α3 tương ứng với điều kiện kể chuyện với tăng cường hình ảnh;
độ lệch duy nhất (unique deviation) từ điểm trung bình phản ứng điều trị của một học sinh thứ j cụ thể trong lần điều trị thứ i, εij. Nó được gọi là sai số (error) và trong ANOVA được ước lượng bằng độ lệch của điểm số quan sát được từ trung bình ô điều trị thích hợp.

Ví dụ, hãy xem xét một học sinh trong điều kiện đọc im lặng có điểm 16 trong bài kiểm tra từ vựng. Điểm này có thể được chia thành ba thành phần: i) điểm trung bình của dân số là 9; ii) sự khác biệt giữa điểm trung bình dân số và trung bình điều trị cho tất cả học sinh trong điều kiện đọc im lặng, giả sử một trung bình điều trị sau là 12; và iii) sự khác biệt giữa điểm số học sinh và sự đóng góp của hiệu quả điều trị trung bình. Ba thành phần của điểm số học sinh như sau:

16 = µ + αi + εij

Điểm trung bình dân số Điểm trung bình điều trị Điểm phần dư sai số

9 12

16 = 9 + 12-9 + 16-12

Một điểm khác biệt giữa ANOVA và hồi quy là ước lượng sai số. Trong hồi quy, nó được ước tính bằng sự khác biệt giữa điểm quan sát và điểm dự đoán (dựa trên mô hình tuyến tính) chứ không phải như trong ANOVA, độ lệch giữa điểm quan sát và một giá trị trung bình của ô. Các quy trình khác nhau này có thể dẫn đến các ước tính sai số khác nhau và các bậc tự do liên quan. Việc diễn giải cũng có thể khác nhau và điều này phụ thuộc vào các giả định mà nhà nghiên cứu đưa ra về mối quan hệ giữa các biến độc lập và biến phản hồi.

2. So sánh mô hình ANOVA và mô hình hồi quy

Giả sử chúng ta sửa đổi thử nghiệm cải thiện từ vựng bằng phương pháp kể chuyện và biến nó thành một thiết kế hiệu ứng cố định hai yếu tố, một yếu tố là giới tính với hai cấp độ nam, nữ và yếu tố còn lại là can thiệp bằng với hai cấp độ kể chuyện và kể chuyện được tăng cường bằng hình ảnh. Nhà nghiên cứu muốn xem liệu có thêm hiệu ứng hình ảnh và liệu điều này có giống nhau cho cả nam và nữ hay không. Yếu tố giới tính rõ ràng là một tác động cố định và việc điều trị có thể được coi là một hiệu ứng cố định nếu chúng ta giả định rằng hai phương pháp điều trị không được chọn ngẫu nhiên từ một loạt các phương pháp điều trị và phương pháp điều trị sẽ giống nhau về tất cả sự lặp lại của thí nghiệm.

Mô hình thống kê cho ANOVA hiệu ứng cố định hai chiều (Two-way fixed effect ANOVA) có thể được viết là:

yijk = µ + αi + βj + αβij + εij

Điểm học sinh = Hằng số + Phương pháp DH+giới tính+PPDH x giới tính+error

Trong đó, yijk đại diện cho điểm số từ vựng của học sinh thứ k, trong điều kiện điều trị ij, μ là điểm từ vựng trung bình của dân số, αi là hiệu quả điều trị của dân số đối với can thiệp (α1 = kể chuyện, α2 = kể chuyện + tranh ảnh), βj là hiệu ứng dân số đối với giới tính (β1 = nam, β2 = nữ), αβij là hiệu quả tương tác của các can thiệp và εijk là sai số cho học sinh k. Sự tương tác trong mô hình thể hiện ảnh hưởng trung bình đến điểm từ vựng của học sinh do sự kết hợp cụ thể giữa phương pháp giảng dạy và giới tính.

Mô hình thống kê ANOVA 2 chiều đầy đủ có thể được viết lại ở định dạng hồi quy:

Yijk = μx0 + α2x2 + β1x3 + β2x4 + αβ11x5 + αβ12x6 + αβ21x7 + αβ22x8 + εijk

Mỗi giá trị của x sẽ là 0 hoặc 1 tùy thuộc vào sự kết hợp điều trị. Ví dụ: một học sinh được điều trị kết hợp 2 cho cả hai yếu tố (α = 2 là kể chuyện + tranh ảnh và β = 2 là nữ) sẽ có: x0 được đặt thành 1 vì giá trị trung bình tổng thể luôn có ảnh hưởng, x2, x4 và x8 cũng sẽ được đặt thành 1 vì chúng đại diện cho hiệu ứng chính của việc kể chuyện + tranh ảnh, hiệu ứng chính của ở một nữ và hiệu ứng tương tác của ở trong kể chuyện + tranh ảnh và nhóm nữ. Giá trị x khác sẽ được đặt thành 0 (trong khung hồi quy x là giá trị của biến số được gọi là biến chỉ số) cho biết rằng các hiệu ứng và sự kết hợp điều trị khác không đóng góp vào điểm số của học sinh.

Khi so sánh mô hình thống kê ANOVA và hồi quy, một điểm chung, rằng biến phản hồi được giả định là một tổ hợp có trọng số của các biến độc lập, trong hồi quy, các trọng số này được gọi là hệ số hồi quy và trong ANOVA chúng được gọi là hiệu ứng điều trị. Cả hai mô hình cũng đều tuyến tính trong các tham số của chúng, đó là các tham số có trọng số được giả định là “phụ gia” (additive). Trong ANOVA, điều này được gọi là ‘cộng tính’ (additivity) của mô hình và trong hồi quy, thuật ngữ tuyến tính (linearity) của mô hình được sử dụng.

3. Kiểm tra ý nghĩa và ước lượng trong ANOVA

Như trong phân tích hồi quy, tổng bình phương thu được từ dữ liệu mẫu được sử dụng để ước tính các thành phần khác nhau của mô hình ANOVA. Các tổng bình phương cho mô hình tổng thể được phân chia thành các tổng bình phương thành phần đại diện cho các biến độc lập, bất kỳ tương tác và phương sai lỗi (error variance) nào. Liên kết với mỗi nguồn phương sai là bậc tự do, bình phương trung bình (mean squares) và thống kê F (F-statistics). Các tổng bình phương thành phần và thống kê liên quan này được xuất ra trong hầu hết các gói thống kê.

Phương pháp tiếp cận mô hình tuyến tính tổng quát để kiểm tra mức độ quan trọng của một mô hình tuyến tính (hiệu ứng mô hình có ý nghĩa) là so sánh sự phù hợp của hai mô hình thống kê, mô hình đầy đủ (đôi khi được gọi là một mô hình hiệu ứng) và mô hình suy giảm (khi không có ‘điều trị’ đây được gọi là mô hình chỉ các trung bình). Trong ANOVA một chiều, mô hình đầy đủ, trong đó yếu tố có ảnh hưởng, là: yij = μ + αi + εij

Mô hình suy giảm là hiệu ứng trung bình tổng thể và biến đổi cơ bản, là: yij = μi + εij

Trong đó, yij là giá trị của lần quan sát thứ j đối với trung bình điều trị i cộng với biến đổi cơ bản.

Đối với ANOVA hai chiều, ảnh hưởng của bất kỳ tương tác nào có thể được đánh giá bằng cách so sánh mô hình đầy đủ (yijk=µ+αi+βj+αβij+εij) với mô hình rút gọn trong đó sự tương tác bị xóa.: yijk = μ + αi + βj + εijk

Tổng bình phương tương tác được đánh giá là sự khác biệt giữa tổng bình phương sai số đối với mô hình đầy đủ và tổng bình phương sai số đối với mô hình suy giảm. Có nhiều cách trực tiếp hơn để ước tính tổng bình phương tương tác nhưng cách tiếp cận này hoạt động với cả thiết kế cân bằng và không cân bằng (các số không bằng nhau trong các ô của thiết kế).

Ví dụ, trong ANOVA một chiều, giả thuyết vô hiệu được kiểm tra là H0: μ1 = μ2 = μ3 = μn, các trung bình của các nhóm điều trị là bằng nhau. Giả thuyết thay thế là các trung bình không bằng nhau. Hai phép đo sự thay đổi được sử dụng để kiểm tra mức độ ý nghĩa của mô hình tổng thể: 1) Tổng bình phương (sums of squares) mô tả sự thay đổi giữa các nhóm điều trị, và 2) Tổng bình phương mô tả sự thay đổi được quy cho các cá nhân trong các nhóm điều trị (sự thay đổi cơ hội giữa các cá nhân). Tỷ lệ giữa các nguồn phương sai (tổng bình phương), mỗi tổng bình phương chia cho bậc tự do thích hợp của chúng, tạo thành thống kê F và là một phép thử tổng thể về sự phù hợp của mô hình. Tổng bình phương chia cho bậc tự do được gọi là bình phương trung bình (Mean Square).

Bậc tự do (df) là các giá trị liên quan đến tổng bình phương, df tổng được phân chia thành df liên quan đến mỗi nguồn phương sai. Nếu một mô hình phù hợp với dữ liệu, thì sự khác biệt giữa các trung bình nhóm điều trị sẽ rất lớn so với sự khác biệt giữa các cá nhân. Đó là Bình phương Trung bình Giữa (Mean Square Between) các nhóm (MSb), sẽ lớn hơn thước đo sự khác biệt giữa các cá nhân trong tất cả các nhóm được gọi là Bình phương Trung bình Trong (Mean Square Within) các nhóm. Trong tình huống này, tác động của các nhóm điều trị sẽ được phân biệt với sự khác biệt ngẫu nhiên giữa các cá nhân, và giả thuyết vô hiệu về trung bình nhóm điều trị bằng nhau là có khả năng bị bác bỏ. Thống kê F-test sẽ lớn hơn 1 (tương đương với giả thuyết vô hiệu về sự thay đổi bằng nhau giữa các điều trị và các cá nhân — tác động của nhóm điều trị là không nhiều hơn các biến động ngẫu nhiên) và một giá trị p nhỏ sẽ chỉ ra một mô hình thống kê quan trọng đã được phù hợp cho dữ liệu. Chúng ta kết luận rằng có sự khác biệt giữa các trung bình nhóm điều trị.

Khi một mô hình đã được phù hợp với dữ liệu thực nghiệm và thống kê F-test được tìm thấy là có ý nghĩa, thì nhà nghiên cứu sẽ cần xác định bản chất của sự khác biệt giữa các trung bình điều trị. Ngay cả khi giả thuyết vô hiệu tổng thể về các trung bình nhóm bằng nhau bị bác bỏ thì vẫn có thể có một số trung bình không khác nhau. Các phép so sánh giữa các trung bình có thể được gợi ý và chúng được gọi là so sánh post hoc (post hoc comparisons).

4. Các giả định cho ANOVA

Biến phản hồi phải là một thước đo liên tục, ít nhất là ở mức đo khoảng (các khoảng bằng nhau).
Sự phân phối của biến phản hồi nên xấp xỉ chuẩn trong quần thể, nhưng không nhất thiết phải chuẩn trong mẫu.
Phương sai của biến phản ứng phải bằng nhau trong tất cả các phân nhóm dân số (nhóm điều trị) được trình bày trong thiết kế. Đây là sự đồng nhất của giả định phương sai. (Xác minh bằng cách vẽ biểu đồ phần dư so với các giá trị dự đoán. Phân tán ngẫu nhiên của các điểm về giá trị trung bình bằng 0 cho thấy phương sai không đổi và thỏa mãn giả định này. Mẫu hình phễu cho biết phương sai thay đổi. Các quan sát ngoại lệ dễ dàng phát hiện trên biểu đồ này.)
Các sai số nên được độc lập. Đây là giả định quan trọng nhất để sử dụng thống kê F trong ANOVA. Để ngăn ngừa các sai số, các đối tượng nên được lấy mẫu ngẫu nhiên (độc lập với nhau) và phản hồi của các đối tượng phải độc lập.

Các giả định cụ thể cho mô hình tuyến tính tổng quát bao gồm:

Các hiệu ứng nên có tính cộng, đó là mối quan hệ giữa các biến độc lập và biến phản ứng là được giả định là tính cộng. Mỗi biến độc lập đóng góp một ảnh hưởng đến biến phản ứng độc lập với tất cả các yếu tố khác trong mô hình. (Kiểm tra lý thuyết cơ bản nếu có, ví dụ, đối với một số lý thuyết học tập, biến phản hồi có thể là một hàm nhân hơn là hàm cộng của các biến độc lập.)
Sai số phải độc lập không thiên vị và được phân phối chuẩn với phương sai không đổi cho các phép thử ý nghĩa có giá trị. Trong ANOVA, các sai số hoặc phần dư thể hiện độ lệch của điểm số quan sát được so với các trung bình của ô. Các nhà nghiên cứu khảo sát có nhiều khả năng gặp phải các vấn đề về phản hồi thiên vị, cái mà làm phát sinh các sai số thiên vị. (Xác minh tính chuẩn của sai số bằng cách vẽ biểu đồ phần dư so với điểm chuẩn hóa của thứ hạng của các phần dư. Một đường thẳng biểu thị mức độ chuẩn.)

Các bài kiểm tra giả thuyết thường có dạng mà các trung bình phân nhóm (subgroup means) hoặc các trung bình điều trị (treatment means) là ngang nhau. Các trung bình mẫu được sử dụng để ước tính các tham số dân số cố định này.

Tài liệu tham khảo

Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.