Thử nghiệm Kruskal-Wallis là một thử nghiệm phi tham số và là một thay thế cho Anova một chiều. Theo tham số, ý chúng tôi là, dữ liệu không được giả định là từ một phân phối cụ thể. Mục tiêu chính của thử nghiệm này được sử dụng để xác định liệu có sự khác biệt thống kê giữa giá trị trung bình của ít nhất ba nhóm độc lập hay không. Show giả thuyếtThử nghiệm Kruskal-Wallis có các giả thuyết vô giá trị và thay thế như được thảo luận bên dưới
Từng bước thực hiệnChúng ta hãy xem xét một ví dụ trong đó nhóm Nghiên cứu và Phát triển muốn xác định xem việc áp dụng ba loại dầu động cơ khác nhau có dẫn đến sự khác biệt về quãng đường đi được của ô tô hay không. Nhóm đã quyết định chọn 15 chiếc xe cùng nhãn hiệu và chia chúng thành các nhóm ba chiếc (5 chiếc trong mỗi nhóm). Bây giờ mỗi nhóm được pha tạp chính xác với một loại dầu động cơ (cả ba loại dầu động cơ đều được sử dụng). Sau đó, họ được phép chạy 20 km trên cùng một đường đua và khi hành trình của họ kết thúc, số dặm đã được ghi lại Bước 1. Tạo dữ liệu Bước đầu tiên là tạo dữ liệu. Chúng ta cần tạo ba mảng có thể chứa số dặm của ô tô (một mảng cho mỗi nhóm) Python3
Bước 2. Thực hiện bài kiểm tra Kruskal-Wallis Python cung cấp cho chúng ta hàm kruskal() từ scipy. thư viện thống kê sử dụng mà chúng tôi có thể thực hiện bài kiểm tra Kruskal-Wallis bằng Python một cách dễ dàng Python3
đầu ra
Bước 3. Phân tích kết quả Trong ví dụ này, thống kê kiểm tra xuất hiện bằng 3. 492 và giá trị p tương ứng là 0. 174. Vì giá trị p không nhỏ hơn 0. 05, chúng ta không thể bác bỏ giả thuyết vô hiệu rằng quãng đường trung bình của ô tô là như nhau đối với cả ba nhóm. Do đó, Chúng tôi không có đủ bằng chứng để khẳng định rằng các loại dầu động cơ khác nhau được sử dụng dẫn đến sự khác biệt có ý nghĩa thống kê về quãng đường xe đi được (BDD) và nhiều cách tiếp cận khác. Hãy nhớ rằng các bài kiểm tra phải được xử lý giống như bất kỳ mã nào khác. We are a account must pay chứ không phải tài sản. Viết các bài kiểm tra để bảo vệ phần mềm của bạn tránh khỏi các lỗi nhưng đừng để nó thu hồi thời gian của bạnKruskal Wallis là một phương pháp phi tham số để đánh giá xem các mẫu có đến từ cùng một phân phối hay không. Nó được sử dụng để so sánh nhiều hơn hai mẫu độc lập hoặc không liên quan. Phân tích phương sai một chiều (ANOVA) là tương đương tham số của phép thử Kruskal-Wallis 1. 1 Trường hợp sử dụng kinh doanh tốt là gì?Hãy đo lường tác động của một chiến dịch do Công ty Dược phẩm triển khai đối với một loại thuốc mới ra mắt, trong đó chúng ta có 1.550 Mục tiêu và 500 Loại bỏ. Chúng tôi đã xem xét sự phân bổ hành vi theo toa và nhận thấy nó không bình thường (sai lệch) nhưng có hình dạng tương tự đối với từng nhóm (mục tiêu và loại bỏ). Chúng tôi không thể thực hiện ANOVA; 2. Phạm viVì Kruskal Wallis là một bài kiểm tra phi tham số nên không có giả định rằng dữ liệu được phân phối bình thường (không giống như ANOVA)
Giả thuyết khống của kiểm định Kruskal-Wallis đôi khi được tuyên bố là các trung vị của nhóm bằng nhau. Tuy nhiên, điều này chỉ chính xác nếu bạn tin rằng các đặc điểm phân phối của mỗi nhóm là giống nhau. Mặc dù các trung vị giống nhau, kiểm định Kruskal-Wallis có thể bác bỏ giả thuyết không nếu các phân phối khác nhau 3. giả địnhCác nhóm có kích thước khác nhau có thể được kiểm tra bằng thống kê Kruskal-Wallis. Thử nghiệm Kruskal-Wallis, không giống như phân tích phương sai một chiều có thể so sánh được, không giả định phân phối chuẩn vì đây là quy trình phi tham số. Tuy nhiên, thử nghiệm giả định rằng phân phối của mỗi nhóm có hình dạng và tỷ lệ giống hệt nhau, ngoại trừ bất kỳ sự thay đổi nào về giá trị trung bình. 4. phương pháp luậnKruskal Wallis có thể được sử dụng để phân tích xem thử nghiệm và kiểm soát có thực hiện khác nhau hay không. Khi dữ liệu bị sai lệch (phân phối không chuẩn), bài kiểm tra sẽ cho biết liệu hai nhóm có khác nhau hay không mà không thiết lập bất kỳ nguyên nhân nào. Nó sẽ không gợi ý lý do cho sự khác biệt trong hành vi 4. 1 Cách thức hoạt động của bài kiểm tra?Kruskal Wallis hoạt động bằng cách xếp hạng tất cả các quan sát, bắt đầu từ 1 (nhỏ nhất). Việc xếp hạng được thực hiện cho tất cả các điểm dữ liệu, bất kể chúng thuộc nhóm nào. Các giá trị bị ràng buộc nhận được thứ hạng trung bình mà chúng sẽ nhận được nếu chúng không bị ràng buộc Khi tất cả các quan sát đã được chỉ định một thứ hạng đã ký dựa trên biến phân tích (số lượng đơn thuốc được kê đơn), chúng được phân biệt/chia thành các nhóm dựa trên trạng thái mục tiêu/giữ lại của chúng. Sau đó, thứ hạng trung bình của mỗi nhóm được tính toán và so sánh Target dự kiến sẽ có thứ hạng trung bình cao hơn so với holdouts vì sáng kiến hoặc nỗ lực quảng cáo được triển khai cho nhóm này. Với giá trị p đáng kể, Target đang hoạt động tốt hơn so với holdouts. Thách thức ở đây là thứ hạng trung bình của nhóm mục tiêu có thể cao hơn khi có các yếu tố ngoại lệ, tức là. e. , ít bác viết kịch bản hơn các bác khác. Do đó, chúng tôi luôn xem xét trung bình số học và giá trị p kết quả mà Kruskal Wallis thu được để xác thực/bác bỏ giả thuyết của chúng tôi Đặt Ni (i = 1, 2, 3, 4,…, g) đại diện cho cỡ mẫu cho mỗi g nhóm (i. e. , mẫu hoặc trong trường hợp này là số lượng bác sĩ) trong dữ liệu. ri là tổng các thứ hạng của nhóm i với ri’ là thứ hạng trung bình của nhóm i. Sau đó, thống kê kiểm tra Kruskal Wallis được tính như Công thưc 1. Minh họa công thức tính thống kê kiểm tra. Hình ảnh do tác giả chuẩn bị bằng Markdown và LatexGiả thuyết khống về trung bình dân số bằng nhau bị bác bỏ nếu thống kê kiểm tra vượt quá giá trị chi bình phương ngưỡng. Khi giả thuyết vô hiệu về các quần thể bằng nhau là đúng, thống kê này có k-1 bậc tự do và xấp xỉ phân phối chi-square. Xấp xỉ phải có ni ít nhất là 5 (i. e. , ít nhất năm quan sát trong một nhóm) để nó chính xác công thức 2. Minh họa công thức xấp xỉ giá trị p cho bài kiểm tra. Hình ảnh do tác giả chuẩn bị bằng Markdown và LatexSử dụng bảng phân phối xác suất chi bình phương, chúng ta có thể nhận được giá trị chi bình phương quan trọng ở bậc tự do g-1 và mức ý nghĩa mong muốn. Ngoài ra, chúng tôi có thể kiểm tra giá trị p để nhận xét về ý nghĩa của kết quả 4. 2 Chạy Kiểm tra H bằng tayGiả sử rằng một Công ty Dược phẩm muốn hiểu liệu ba nhóm phân khúc bác sĩ có số lượng bệnh nhân khác nhau hay không (Stephanie Glen, n. d. ) E. g. , Key Opinion Leaders/KOL (Số lượng bệnh nhân trong một tháng). 23, 42, 55, 66, 78 Bác sĩ chuyên khoa/SPE (Số lượng bệnh nhân trong một tháng). 45, 56, 60, 70, 72 Bác sĩ đa khoa/bác sĩ đa khoa (Số lượng bệnh nhân trong một tháng). 18, 30, 34, 41, 44 4. 2. 1 Sắp xếp dữ liệu theo thứ tự tăng dần sau khi gộp thành một tập hợp 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78 4. 2. 2 Xếp hạng các điểm dữ liệu được sắp xếp. Sử dụng trung bình trong trường hợp quan hệ giá trị. 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78 Thứ hạng. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 4. 2. 3 Tính tổng thứ hạng cho mỗi nhóm Hình 1. Minh họa tổng thứ hạng cho mỗi nhóm. Tín dụng hình ảnh - Được chuẩn bị bởi tác giả4. 2. 4 Tính toán Thống kê H bằng Công thức 1 và các số từ Hình 1 công thức 3. Minh họa công thức tính thống kê H cho nhóm người kê đơn của chúng tôi. Hình ảnh do tác giả chuẩn bị bằng Markdown và LatexH=6. 72 4. 2. 5 Xác định giá trị chi-square tới hạn cho bậc tự do g-1 với Bàn. Xác suất Chi bình phươngCác khu vực được đưa ra trên cùng là các khu vực bên phải của giá trị quan trọng. Để tra cứu một khu vực bên trái…Mọi người. vùng đất trù phú. giáo dục 4. 2. 6 So sánh giá trị H từ 4. 2. 4 đến giá trị tới hạn từ 4. 2. 5 Giả thuyết khống cho rằng số lượng bệnh nhân trung bình giữa ba nhóm khác nhau bằng nhau nên bị bác bỏ nếu giá trị chi-square tới hạn nhỏ hơn thống kê H. kể từ 5. 99 (Giá trị tới hạn) < 6. 72, chúng ta có thể bác bỏ giả thuyết vô hiệu Cần có thêm bằng chứng để suy luận rằng trung vị là không bằng nhau nếu giá trị chi-square không thấp hơn thống kê H đã tính ở trên 5. Triển khai PythonGiả thuyết không cho rằng trung vị dân số của tất cả các nhóm đều bằng nhau được kiểm tra bằng cách sử dụng kiểm định Kruskal-Wallis H. Nó là một biến thể ANOVA không tham số. Thử nghiệm sử dụng hai hoặc nhiều mẫu độc lập có kích thước khác nhau. Lưu ý rằng việc bác bỏ giả thuyết không cho thấy các nhóm khác nhau như thế nào. Để xác định các nhóm nào khác nhau, cần phải so sánh hậu kỳ giữa các nhóm from scipy import stats Đầu ra được tạo bởi Python được hiển thị ở trên. Cần lưu ý rằng mặc dù có sự khác biệt rõ rệt về giá trị trung bình giữa hai loại, nhưng khi tính đến giá trị trung bình, sự khác biệt này không đáng kể vì giá trị p lớn hơn nhiều so với 5% 6. Sự kết luậnThử nghiệm Kruskal Wallis là công cụ khi xử lý các mẫu bị lệch đặc biệt. Nó có thể được sử dụng rộng rãi cho nhóm kiểm soát thử nghiệm trong quá trình triển khai chiến dịch hoặc ngay cả khi thực hiện thử nghiệm A/B. Điều này có thể áp dụng cho hầu hết các trường hợp sử dụng trong ngành vì mỗi khách hàng có hành vi khác nhau khi giao dịch với khách hàng trong không gian bán lẻ hoặc bác sĩ trong bối cảnh dược phẩm. Khi chúng tôi xem xét quy mô giỏ hàng hoặc số lượng bệnh nhân, sẽ có ít khách hàng mua hơn, trong khi ít bác sĩ có nhiều bệnh nhân hơn. Do đó, đối với phân phối sai lệch như vậy, điều quan trọng là phải thực hiện kiểm tra Kruskal Wallis để kiểm tra xem các hành vi có giống nhau không 7. Tài liệu tham khảoStephanie Glen. “Thử nghiệm Kruskal Wallis H. Định nghĩa, Ví dụ, Giả định, SPSS” Từ StatisticsHowTo. com. Thống kê cơ bản cho phần còn lại của chúng tôi. https. //www. thống kê. com/xác suất và thống kê/định nghĩa thống kê/kruskal-wallis/ Thông tin về các Tác giả. Nhà tư vấn quản lý và chuyên gia phân tích nâng cao giúp các công ty tìm ra giải pháp cho các vấn đề đa dạng thông qua sự kết hợp giữa kinh doanh, công nghệ và toán học trên dữ liệu tổ chức. Một người đam mê Khoa học dữ liệu, ở đây để chia sẻ, học hỏi và đóng góp; |