Hướng dẫn two sample z-test python - hai mẫu thử nghiệm z-python

Trong bài viết này, chúng ta sẽ xem làm thế nào để tiến hành thử nghiệm t hai mẫu trong Python.

Nội phân chính

  • Giả định
  • Hai thử nghiệm t mẫu trong Python
  • Phương pháp 1: Sử dụng thư viện SCIPY
  • Phương pháp 2: Kiểm tra t hai mẫu với pingouin
  • Phương pháp 3: Kiểm tra t hai mẫu với StatSmodels

Thử nghiệm này có một tên khác là bài kiểm tra mẫu độc lập. Về cơ bản, nó được sử dụng để kiểm tra xem các phương tiện dân số chưa biết của các nhóm đã cho là bằng nhau. TT cho phép một người kiểm tra giả thuyết null rằng phương tiện của hai nhóm là bằng nhau

Giả định

Hai thử nghiệm t mẫu trong Python

  • Phương pháp 1: Sử dụng thư viện SCIPY
  • Phương pháp 2: Kiểm tra t hai mẫu với pingouin
  • Phương pháp 3: Kiểm tra t hai mẫu với StatSmodels

Thử nghiệm này có một tên khác là bài kiểm tra mẫu độc lập. Về cơ bản, nó được sử dụng để kiểm tra xem các phương tiện dân số chưa biết của các nhóm đã cho là bằng nhau. TT cho phép một người kiểm tra giả thuyết null rằng phương tiện của hai nhóm là bằng nhau

Hai thử nghiệm t mẫu trong Python

Phương pháp 1: Sử dụng thư viện SCIPY

Phương pháp 1: Sử dụng thư viện SCIPY

Phương pháp 2: Kiểm tra t hai mẫu với pingouin

Phương pháp 3: Kiểm tra t hai mẫu với StatSmodelsSyntax: ttest_ind(data_group1, data_group2, equal_var=True/False)

Here,

  • Thử nghiệm này có một tên khác là bài kiểm tra mẫu độc lập. Về cơ bản, nó được sử dụng để kiểm tra xem các phương tiện dân số chưa biết của các nhóm đã cho là bằng nhau. TT cho phép một người kiểm tra giả thuyết null rằng phương tiện của hai nhóm là bằng nhau
  • Trước khi tiến hành thử nghiệm t hai mẫu bằng cách sử dụng Python, chúng ta hãy thảo luận về các giả định của thử nghiệm tham số này. Về cơ bản, có ba giả định rằng chúng ta có thể đưa ra liên quan đến các nhóm dữ liệu:
  • Liệu hai nhóm dữ liệu mẫu có độc lập hay không.
  • Liệu các yếu tố dữ liệu trong các nhóm tương ứng tuân theo bất kỳ phân phối bình thường.

Liệu hai mẫu đã cho có phương sai tương tự. Giả định này còn được gọi là giả định đồng nhất. that by default equal_var is True

Lưu ý rằng ngay cả khi các nhóm dữ liệu của chúng tôi không tuân theo ba giả định được thảo luận ở trên. Điều này là do có một thử nghiệm thay thế nếu dữ liệu của chúng tôi không rơi vào phân phối bình thường hoặc chúng tôi có thể biến đổi nhóm dữ liệu phụ thuộc bằng các kỹ thuật khác nhau như căn bậc hai, log, v.v.

Chúng ta hãy xem xét một ví dụ, chúng ta được cung cấp dữ liệu hai mẫu, mỗi mẫu chứa chiều cao của 15 học sinh của một lớp. Chúng ta cần kiểm tra xem hai học sinh lớp khác nhau có cùng chiều cao có nghĩa là không. Có ba cách để tiến hành thử nghiệm t hai mẫu trong Python. & NBSP;print(np.var(data_group))

Here,

  • Scipy là viết tắt của Python khoa học và như tên gọi đó là một thư viện Python khoa học và nó sử dụng Numpy dưới bìa. Thư viện này cung cấp một loạt các chức năng có thể khá hữu ích trong khoa học dữ liệu. Đầu tiên, hãy để tạo ra dữ liệu mẫu. Bây giờ, hãy để thực hiện hai bài kiểm tra mẫu. Với mục đích này, chúng tôi có hàm ttest_ind () trong python.

Python3

& nbsp; cú pháp: ttest_ind (data_group1, data_group2, area_var = true/false)

Data_group1: Nhóm dữ liệu đầu tiên

scipy.stats as stats9data_group1 0, scipy.stats as stats1, 14, data_group1 6, data_group1 8, =0, 15scipy.stats as stats8

scipy.stats as stats915, scipy.stats as stats1, scipy.stats as stats1, scipy.stats as stats3, 14, np.array([5np.array([6

Data_group2: Nhóm dữ liệu thứ hai

scipy.stats as stats9data_group1 6, data_group1 6, 14, data_group1 0, 153, 155, scipy.stats as stats1scipy.stats as stats8

scipy.stats as stats9scipy.stats as stats3, scipy.stats as stats1, scipy.stats as stats3, , 6, 15, scipy.stats as stats3np.array([6

152153

Output:

Hướng dẫn two sample z-test python - hai mẫu thử nghiệm z-python

EAGN_VAR = True True True: Bài kiểm tra t hai mẫu độc lập tiêu chuẩn sẽ được thực hiện bằng cách xem xét các phương sai dân số bằng nhau.

Equal_var = Hồi Sai False: Bài kiểm tra T Welch sẽ được thực hiện bằng cách không xem xét các phương sai dân số bằng nhau.

Lưu ý rằng theo mặc định, cân bằng_var là đúng

Python3

& nbsp; cú pháp: ttest_ind (data_group1, data_group2, area_var = true/false)

Data_group1: Nhóm dữ liệu đầu tiên

scipy.stats as stats9data_group1 0, scipy.stats as stats1, 14, data_group1 6, data_group1 8, =0, 15scipy.stats as stats8

scipy.stats as stats915, scipy.stats as stats1, scipy.stats as stats1, scipy.stats as stats3, 14, np.array([5np.array([6

Data_group2: Nhóm dữ liệu thứ hai

scipy.stats as stats9data_group1 6, data_group1 6, 14, data_group1 0, 153, 155, scipy.stats as stats1scipy.stats as stats8

scipy.stats as stats9scipy.stats as stats3, scipy.stats as stats1, scipy.stats as stats3, , 6, 15, scipy.stats as stats3np.array([6

scipy.stats as stats86=scipy.stats as stats88=scipy.stats as stats90=scipy.stats as stats92scipy.stats as stats93

Output:

Thực hiện kiểm tra t hai mẫu

Phân tích kết quả:

Hai thử nghiệm t mẫu có giả thuyết sau đây:

H0 => Tiết1 = Pha2 (giá trị trung bình dân số của DataSet1 bằng với DataSet2)

Ha => Tiết1 ≠

Ở đây, vì giá trị p (0,53004) lớn hơn alpha = 0,05 nên chúng tôi không thể từ chối giả thuyết khống của thử nghiệm. Chúng tôi không có đủ bằng chứng để nói rằng chiều cao trung bình của học sinh giữa hai nhóm dữ liệu là khác nhau.

Phương pháp 2: Kiểm tra t hai mẫu với pingouin

Pingouin là một dự án gói loại thống kê dựa trên gấu trúc và numpy. Pingouin cung cấp một loạt các tính năng. Gói được sử dụng để tiến hành thử nghiệm t nhưng cũng để tính toán mức độ tự do, yếu tố người bay, vv & nbsp;

Đầu tiên, hãy để tạo ra dữ liệu mẫu. Chúng tôi đang tạo hai mảng và bây giờ hãy để thực hiện hai bài kiểm tra mẫu. Với mục đích này, chúng tôi có chức năng ttest () trong gói pingouin của Python. Cú pháp được đưa ra dưới đây,

Cú pháp: ttest (data_group1, data_group2, sửa chữa = true/false)ttest(data_group1, data_group2, correction = True/False)

Here,

  • Data_group1: Nhóm dữ liệu đầu tiên
  • Data_group2: Nhóm dữ liệu thứ hai
  • Sửa chữa = True True True: Bài kiểm tra t hai mẫu độc lập tiêu chuẩn sẽ được thực hiện bằng cách xem xét giả định đồng nhất.
  • Sửa chữa = Sai Sai: Test Welch Test Test sẽ được thực hiện bằng cách không xem xét giả định đồng nhất.

Lưu ý rằng theo mặc định, cân bằng_var là đúng that by default equal_var is True

Example:

Python3

scipy.stats as stats94 scipy.stats as stats95import scipy.stats as stats97

import scipy.stats as stats99

import data_group1 01

data_group1 = np.array([____data_group1 05____________data_group1 07____6____data_group1 05________data_group1 11, data_group1 13scipy.stats as stats8

scipy.stats as stats9data_group1 16, data_group1 18, data_group1 20scipy.stats as stats8

scipy.stats as stats9data_group1 23, data_group1 25np.array([6

np.array([7= np.array([data_group1 30____________data_group1 32, ____data_group1 34, data_group1 36scipy.stats as stats8

scipy.stats as stats9data_group1 39, data_group1 41, data_group1 43, data_group1 45scipy.stats as stats8

scipy.stats as stats9data_group1 48, data_group1 50np.array([6

data_group1 52= data_group1 54

data_group1 55data_group1 56

data_group1 55data_group1 58=scipy.stats as stats92scipy.stats as stats93

152data_group1 63

Output:

Kiểm tra t hai mẫu với pingouin

Diễn giải kết quả

Đây là thời gian để phân tích kết quả. Giá trị p của thử nghiệm xuất hiện bằng 0,523, lớn hơn mức ý nghĩa alpha (nghĩa là 0,05). Điều này ngụ ý rằng chúng ta có thể nói rằng chiều cao trung bình của học sinh trong một lớp về mặt thống kê không khác với chiều cao trung bình của học sinh trong một lớp khác. Ngoài ra, Cohen từ D có được trong một bài kiểm tra t là về sức mạnh tương đối. Theo Cohen:

  • Cohen-D = 0,2 được coi là kích thước hiệu ứng nhỏ
  • Cohen-D = 0,5 được coi là kích thước hiệu ứng trung bình
  • Cohen-D = 0,8 được coi là kích thước hiệu ứng lớn

Nó ngụ ý rằng ngay cả khi hai nhóm dữ liệu có nghĩa là don khác nhau bởi độ lệch chuẩn 0,2 trở lên thì sự khác biệt là tầm thường, ngay cả khi nó có ý nghĩa thống kê.

Phương pháp 3: Kiểm tra t hai mẫu với StatSmodels

StatSmodels là một thư viện Python được sử dụng đặc biệt để tính toán các mô hình thống kê khác nhau và để thực hiện các thử nghiệm thống kê. Thư viện này sử dụng các mô-đun và DataFrames kiểu R. & NBSP;

Đầu tiên, hãy để tạo ra dữ liệu mẫu. Chúng tôi đang tạo hai mảng và cho phép, hãy thực hiện thử nghiệm t hai mẫu. Thư viện StatSmodels cung cấp chức năng ttest_ind () để tiến hành kiểm tra t hai mẫu có cú pháp được đưa ra dưới đây,now let’s perform the two-sample T-test. Statsmodels library provides ttest_ind() function to conduct two-sample T-Test whose syntax is given below,

Cú pháp: ttest_ind (data_group1, data_group2) ttest_ind(data_group1, data_group2)

Here,

  • Data_group1: Nhóm dữ liệu đầu tiên
  • Data_group2: Nhóm dữ liệu thứ hai

Example:

Python3

scipy.stats as stats94 scipy.stats as stats95import scipy.stats as stats97

import scipy.stats as stats99

import data_group1 01

data_group1 = np.array([____data_group1 05____________data_group1 07____6____data_group1 05________data_group1 11, data_group1 13scipy.stats as stats8

scipy.stats as stats9data_group1 13scipy.stats as stats8

scipy.stats as stats9data_group1 16, data_group1 18, data_group1 20scipy.stats as stats8

scipy.stats as stats9data_group1 23, data_group1 25np.array([6

np.array([7= np.array([data_group1 30____________data_group1 32, ____data_group1 34, data_group1 36scipy.stats as stats8

scipy.stats as stats9data_group1 39, data_group1 41, data_group1 43scipy.stats as stats8

scipy.stats as stats9data_group1 45, data_group1 48, data_group1 50np.array([6

data_group1 52= data_group1 54

Output:

data_group1 55data_group1 56

Kiểm tra t hai mẫu với pingouin

Diễn giải kết quả