Python kruskal-wallis post hoc

Thử nghiệm Kruskal-Wallis là một thử nghiệm phi tham số và là một thay thế cho Anova một chiều. Theo tham số, ý chúng tôi là, dữ liệu không được giả định là từ một phân phối cụ thể. Mục tiêu chính của thử nghiệm này được sử dụng để xác định liệu có sự khác biệt thống kê giữa giá trị trung bình của ít nhất ba nhóm độc lập hay không.

Nội dung chính Show

giả thuyết
Từng bước thực hiện
1. 1 Trường hợp sử dụng kinh doanh tốt là gì?
4. 1 Cách thức hoạt động của bài kiểm tra?
4. 2 Chạy Kiểm tra H bằng tay
Bàn. Xác suất Chi bình phương
Các khu vực được đưa ra trên cùng là các khu vực bên phải của giá trị quan trọng. Để tra cứu một khu vực bên trái…

giả thuyết

Thử nghiệm Kruskal-Wallis có các giả thuyết vô giá trị và thay thế như được thảo luận bên dưới

Giả thuyết khống (H0). Trung bình giống nhau cho tất cả các nhóm dữ liệu
Giả thuyết thay thế. (Hà). Trung vị không bằng nhau cho tất cả các nhóm dữ liệu

Từng bước thực hiện

Chúng ta hãy xem xét một ví dụ trong đó nhóm Nghiên cứu và Phát triển muốn xác định xem việc áp dụng ba loại dầu động cơ khác nhau có dẫn đến sự khác biệt về quãng đường đi được của ô tô hay không. Nhóm đã quyết định chọn 15 chiếc xe cùng nhãn hiệu và chia chúng thành các nhóm ba chiếc (5 chiếc trong mỗi nhóm). Bây giờ mỗi nhóm được pha tạp chính xác với một loại dầu động cơ (cả ba loại dầu động cơ đều được sử dụng). Sau đó, họ được phép chạy 20 km trên cùng một đường đua và khi hành trình của họ kết thúc, số dặm đã được ghi lại

Bước 1. Tạo dữ liệu

Bước đầu tiên là tạo dữ liệu. Chúng ta cần tạo ba mảng có thể chứa số dặm của ô tô (một mảng cho mỗi nhóm)

Python3

data_group1= [7,9,12,data_group10,=1=2

=3= [=6,=8,[0,[2,[4=2

[6= [[9,=8,=8,9,=6=2

Bước 2. Thực hiện bài kiểm tra Kruskal-Wallis

Python cung cấp cho chúng ta hàm kruskal() từ scipy. thư viện thống kê sử dụng mà chúng tôi có thể thực hiện bài kiểm tra Kruskal-Wallis bằng Python một cách dễ dàng

Python3

79

,0 ,1,2 ,3

,4

,5

data_group1= [7,9,12,data_group10,=1=2

=3= [=6,=8,[0,[2,[4=2

[6= [[9,=8,=8,9,=6=2

,4

,6

,7= ,9

,4

data_group101

data_group102data_group103

đầu ra

Bước 3. Phân tích kết quả

Trong ví dụ này, thống kê kiểm tra xuất hiện bằng 3. 492 và giá trị p tương ứng là 0. 174. Vì giá trị p không nhỏ hơn 0. 05, chúng ta không thể bác bỏ giả thuyết vô hiệu rằng quãng đường trung bình của ô tô là như nhau đối với cả ba nhóm. Do đó, Chúng tôi không có đủ bằng chứng để khẳng định rằng các loại dầu động cơ khác nhau được sử dụng dẫn đến sự khác biệt có ý nghĩa thống kê về quãng đường xe đi được

(BDD) và nhiều cách tiếp cận khác. Hãy nhớ rằng các bài kiểm tra phải được xử lý giống như bất kỳ mã nào khác. We are a account must pay chứ không phải tài sản. Viết các bài kiểm tra để bảo vệ phần mềm của bạn tránh khỏi các lỗi nhưng đừng để nó thu hồi thời gian của bạn

Kruskal Wallis là một phương pháp phi tham số để đánh giá xem các mẫu có đến từ cùng một phân phối hay không. Nó được sử dụng để so sánh nhiều hơn hai mẫu độc lập hoặc không liên quan. Phân tích phương sai một chiều (ANOVA) là tương đương tham số của phép thử Kruskal-Wallis

1. 1 Trường hợp sử dụng kinh doanh tốt là gì?

Hãy đo lường tác động của một chiến dịch do Công ty Dược phẩm triển khai đối với một loại thuốc mới ra mắt, trong đó chúng ta có 1.550 Mục tiêu và 500 Loại bỏ. Chúng tôi đã xem xét sự phân bổ hành vi theo toa và nhận thấy nó không bình thường (sai lệch) nhưng có hình dạng tương tự đối với từng nhóm (mục tiêu và loại bỏ). Chúng tôi không thể thực hiện ANOVA;

2. Phạm vi

Vì Kruskal Wallis là một bài kiểm tra phi tham số nên không có giả định rằng dữ liệu được phân phối bình thường (không giống như ANOVA)

Giả thuyết không thực tế là các quần thể mà các mẫu bắt nguồn từ đó có cùng giá trị trung bình
Kiểm định Kruskal-Wallis được sử dụng phổ biến nhất khi có một biến thuộc tính và một biến đo lường, đồng thời biến đo lường không đáp ứng các giả định của ANOVA (tính chuẩn và phương sai đồng nhất)
Giống như hầu hết các thử nghiệm phi tham số, nó được thực hiện trên dữ liệu được xếp hạng, do đó, các quan sát đo lường được chuyển đổi thành thứ hạng của chúng bằng cách sử dụng tập dữ liệu tổng thể. giá trị nhỏ nhất hoặc thấp nhất được xếp hạng 1, giá trị nhỏ nhất tiếp theo được xếp hạng 2, giá trị tiếp theo là 3, v.v. Trong trường hợp hòa, thứ hạng trung bình được coi là
Việc mất thông tin trong các thứ hạng thay thế cho các giá trị ban đầu làm cho thử nghiệm này kém hiệu quả hơn ANOVA, vì vậy ANOVA nên được sử dụng nếu dữ liệu đáp ứng các giả định

Giả thuyết khống của kiểm định Kruskal-Wallis đôi khi được tuyên bố là các trung vị của nhóm bằng nhau. Tuy nhiên, điều này chỉ chính xác nếu bạn tin rằng các đặc điểm phân phối của mỗi nhóm là giống nhau. Mặc dù các trung vị giống nhau, kiểm định Kruskal-Wallis có thể bác bỏ giả thuyết không nếu các phân phối khác nhau

3. giả định

Các nhóm có kích thước khác nhau có thể được kiểm tra bằng thống kê Kruskal-Wallis. Thử nghiệm Kruskal-Wallis, không giống như phân tích phương sai một chiều có thể so sánh được, không giả định phân phối chuẩn vì đây là quy trình phi tham số. Tuy nhiên, thử nghiệm giả định rằng phân phối của mỗi nhóm có hình dạng và tỷ lệ giống hệt nhau, ngoại trừ bất kỳ sự thay đổi nào về giá trị trung bình.

4. phương pháp luận

Kruskal Wallis có thể được sử dụng để phân tích xem thử nghiệm và kiểm soát có thực hiện khác nhau hay không. Khi dữ liệu bị sai lệch (phân phối không chuẩn), bài kiểm tra sẽ cho biết liệu hai nhóm có khác nhau hay không mà không thiết lập bất kỳ nguyên nhân nào. Nó sẽ không gợi ý lý do cho sự khác biệt trong hành vi

4. 1 Cách thức hoạt động của bài kiểm tra?

Kruskal Wallis hoạt động bằng cách xếp hạng tất cả các quan sát, bắt đầu từ 1 (nhỏ nhất). Việc xếp hạng được thực hiện cho tất cả các điểm dữ liệu, bất kể chúng thuộc nhóm nào. Các giá trị bị ràng buộc nhận được thứ hạng trung bình mà chúng sẽ nhận được nếu chúng không bị ràng buộc

Khi tất cả các quan sát đã được chỉ định một thứ hạng đã ký dựa trên biến phân tích (số lượng đơn thuốc được kê đơn), chúng được phân biệt/chia thành các nhóm dựa trên trạng thái mục tiêu/giữ lại của chúng. Sau đó, thứ hạng trung bình của mỗi nhóm được tính toán và so sánh

Target dự kiến sẽ có thứ hạng trung bình cao hơn so với holdouts vì sáng kiến hoặc nỗ lực quảng cáo được triển khai cho nhóm này. Với giá trị p đáng kể, Target đang hoạt động tốt hơn so với holdouts. Thách thức ở đây là thứ hạng trung bình của nhóm mục tiêu có thể cao hơn khi có các yếu tố ngoại lệ, tức là. e. , ít bác viết kịch bản hơn các bác khác. Do đó, chúng tôi luôn xem xét trung bình số học và giá trị p kết quả mà Kruskal Wallis thu được để xác thực/bác bỏ giả thuyết của chúng tôi

Đặt Ni (i = 1, 2, 3, 4,…, g) đại diện cho cỡ mẫu cho mỗi g nhóm (i. e. , mẫu hoặc trong trường hợp này là số lượng bác sĩ) trong dữ liệu. ri là tổng các thứ hạng của nhóm i với ri’ là thứ hạng trung bình của nhóm i. Sau đó, thống kê kiểm tra Kruskal Wallis được tính như

Công thưc 1. Minh họa công thức tính thống kê kiểm tra. Hình ảnh do tác giả chuẩn bị bằng Markdown và Latex

Giả thuyết khống về trung bình dân số bằng nhau bị bác bỏ nếu thống kê kiểm tra vượt quá giá trị chi bình phương ngưỡng. Khi giả thuyết vô hiệu về các quần thể bằng nhau là đúng, thống kê này có k-1 bậc tự do và xấp xỉ phân phối chi-square. Xấp xỉ phải có ni ít nhất là 5 (i. e. , ít nhất năm quan sát trong một nhóm) để nó chính xác

công thức 2. Minh họa công thức xấp xỉ giá trị p cho bài kiểm tra. Hình ảnh do tác giả chuẩn bị bằng Markdown và Latex

Sử dụng bảng phân phối xác suất chi bình phương, chúng ta có thể nhận được giá trị chi bình phương quan trọng ở bậc tự do g-1 và mức ý nghĩa mong muốn. Ngoài ra, chúng tôi có thể kiểm tra giá trị p để nhận xét về ý nghĩa của kết quả

4. 2 Chạy Kiểm tra H bằng tay

Giả sử rằng một Công ty Dược phẩm muốn hiểu liệu ba nhóm phân khúc bác sĩ có số lượng bệnh nhân khác nhau hay không (Stephanie Glen, n. d. ) E. g. ,

Key Opinion Leaders/KOL (Số lượng bệnh nhân trong một tháng). 23, 42, 55, 66, 78

Bác sĩ chuyên khoa/SPE (Số lượng bệnh nhân trong một tháng). 45, 56, 60, 70, 72

Bác sĩ đa khoa/bác sĩ đa khoa (Số lượng bệnh nhân trong một tháng). 18, 30, 34, 41, 44

4. 2. 1 Sắp xếp dữ liệu theo thứ tự tăng dần sau khi gộp thành một tập hợp

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4. 2. 2 Xếp hạng các điểm dữ liệu được sắp xếp. Sử dụng trung bình trong trường hợp quan hệ

giá trị. 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Thứ hạng. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4. 2. 3 Tính tổng thứ hạng cho mỗi nhóm

Hình 1. Minh họa tổng thứ hạng cho mỗi nhóm. Tín dụng hình ảnh - Được chuẩn bị bởi tác giả

4. 2. 4 Tính toán Thống kê H bằng Công thức 1 và các số từ Hình 1

công thức 3. Minh họa công thức tính thống kê H cho nhóm người kê đơn của chúng tôi. Hình ảnh do tác giả chuẩn bị bằng Markdown và Latex

H=6. 72

4. 2. 5 Xác định giá trị chi-square tới hạn cho bậc tự do g-1 với
an α=0. 05 mà đối với bài toán của chúng ta (3–1=2 bậc tự do) phải là 5. 99. Tham khảo bảng dưới đây.

Bàn. Xác suất Chi bình phương

Các khu vực được đưa ra trên cùng là các khu vực bên phải của giá trị quan trọng. Để tra cứu một khu vực bên trái…

Mọi người. vùng đất trù phú. giáo dục

4. 2. 6 So sánh giá trị H từ 4. 2. 4 đến giá trị tới hạn từ 4. 2. 5

Giả thuyết khống cho rằng số lượng bệnh nhân trung bình giữa ba nhóm khác nhau bằng nhau nên bị bác bỏ nếu giá trị chi-square tới hạn nhỏ hơn thống kê H. kể từ 5. 99 (Giá trị tới hạn) < 6. 72, chúng ta có thể bác bỏ giả thuyết vô hiệu

Cần có thêm bằng chứng để suy luận rằng trung vị là không bằng nhau nếu giá trị chi-square không thấp hơn thống kê H đã tính ở trên

5. Triển khai Python

Giả thuyết không cho rằng trung vị dân số của tất cả các nhóm đều bằng nhau được kiểm tra bằng cách sử dụng kiểm định Kruskal-Wallis H. Nó là một biến thể ANOVA không tham số. Thử nghiệm sử dụng hai hoặc nhiều mẫu độc lập có kích thước khác nhau. Lưu ý rằng việc bác bỏ giả thuyết không cho thấy các nhóm khác nhau như thế nào. Để xác định các nhóm nào khác nhau, cần phải so sánh hậu kỳ giữa các nhóm

from scipy import stats
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)KruskalResult(statistic=0.7560483870967752, pvalue=0.3845680059797648)print(np.median(x))
print(np.median(y))8.0
9.0print(np.mean(x))
print(np.mean(y))7.86
11.12

Đầu ra được tạo bởi Python được hiển thị ở trên. Cần lưu ý rằng mặc dù có sự khác biệt rõ rệt về giá trị trung bình giữa hai loại, nhưng khi tính đến giá trị trung bình, sự khác biệt này không đáng kể vì giá trị p lớn hơn nhiều so với 5%

6. Sự kết luận

Thử nghiệm Kruskal Wallis là công cụ khi xử lý các mẫu bị lệch đặc biệt. Nó có thể được sử dụng rộng rãi cho nhóm kiểm soát thử nghiệm trong quá trình triển khai chiến dịch hoặc ngay cả khi thực hiện thử nghiệm A/B. Điều này có thể áp dụng cho hầu hết các trường hợp sử dụng trong ngành vì mỗi khách hàng có hành vi khác nhau khi giao dịch với khách hàng trong không gian bán lẻ hoặc bác sĩ trong bối cảnh dược phẩm. Khi chúng tôi xem xét quy mô giỏ hàng hoặc số lượng bệnh nhân, sẽ có ít khách hàng mua hơn, trong khi ít bác sĩ có nhiều bệnh nhân hơn. Do đó, đối với phân phối sai lệch như vậy, điều quan trọng là phải thực hiện kiểm tra Kruskal Wallis để kiểm tra xem các hành vi có giống nhau không

7. Tài liệu tham khảo

Stephanie Glen. “Thử nghiệm Kruskal Wallis H. Định nghĩa, Ví dụ, Giả định, SPSS” Từ StatisticsHowTo. com. Thống kê cơ bản cho phần còn lại của chúng tôi. https. //www. thống kê. com/xác suất và thống kê/định nghĩa thống kê/kruskal-wallis/

‌

Thông tin về các Tác giả. Nhà tư vấn quản lý và chuyên gia phân tích nâng cao giúp các công ty tìm ra giải pháp cho các vấn đề đa dạng thông qua sự kết hợp giữa kinh doanh, công nghệ và toán học trên dữ liệu tổ chức. Một người đam mê Khoa học dữ liệu, ở đây để chia sẻ, học hỏi và đóng góp;