Trong bài viết này, chúng ta sẽ xem làm thế nào để tiến hành thử nghiệm t hai mẫu trong Python. Nội phân chính - Giả định
- Hai thử nghiệm t mẫu trong Python
- Phương pháp 1: Sử dụng thư viện SCIPY
- Phương pháp 2: Kiểm tra t hai mẫu với pingouin
- Phương pháp 3: Kiểm tra t hai mẫu với StatSmodels
Thử nghiệm này có một tên khác là bài kiểm tra mẫu độc lập. Về cơ bản, nó được sử dụng để kiểm tra xem các phương tiện dân số chưa biết của các nhóm đã cho là bằng nhau. TT cho phép một người kiểm tra giả thuyết null rằng phương tiện của hai nhóm là bằng nhau Giả địnhHai thử nghiệm t mẫu trong Python - Phương pháp 1: Sử dụng thư viện SCIPY
- Phương pháp 2: Kiểm tra t hai mẫu với pingouin
- Phương pháp 3: Kiểm tra t hai mẫu với StatSmodels
Thử nghiệm này có một tên khác là bài kiểm tra mẫu độc lập. Về cơ bản, nó được sử dụng để kiểm tra xem các phương tiện dân số chưa biết của các nhóm đã cho là bằng nhau. TT cho phép một người kiểm tra giả thuyết null rằng phương tiện của hai nhóm là bằng nhau Hai thử nghiệm t mẫu trong PythonPhương pháp 1: Sử dụng thư viện SCIPY Phương pháp 1: Sử dụng thư viện SCIPY
Phương pháp 2: Kiểm tra t hai mẫu với pingouin Phương pháp 3: Kiểm tra t hai mẫu với StatSmodelsSyntax: ttest_ind(data_group1, data_group2, equal_var=True/False) Here, - Thử nghiệm này có một tên khác là bài kiểm tra mẫu độc lập. Về cơ bản, nó được sử dụng để kiểm tra xem các phương tiện dân số chưa biết của các nhóm đã cho là bằng nhau. TT cho phép một người kiểm tra giả thuyết null rằng phương tiện của hai nhóm là bằng nhau
- Trước khi tiến hành thử nghiệm t hai mẫu bằng cách sử dụng Python, chúng ta hãy thảo luận về các giả định của thử nghiệm tham số này. Về cơ bản, có ba giả định rằng chúng ta có thể đưa ra liên quan đến các nhóm dữ liệu:
- Liệu hai nhóm dữ liệu mẫu có độc lập hay không.
- Liệu các yếu tố dữ liệu trong các nhóm tương ứng tuân theo bất kỳ phân phối bình thường.
Liệu hai mẫu đã cho có phương sai tương tự. Giả định này còn được gọi là giả định đồng nhất. that by default equal_var is True Lưu ý rằng ngay cả khi các nhóm dữ liệu của chúng tôi không tuân theo ba giả định được thảo luận ở trên. Điều này là do có một thử nghiệm thay thế nếu dữ liệu của chúng tôi không rơi vào phân phối bình thường hoặc chúng tôi có thể biến đổi nhóm dữ liệu phụ thuộc bằng các kỹ thuật khác nhau như căn bậc hai, log, v.v. Chúng ta hãy xem xét một ví dụ, chúng ta được cung cấp dữ liệu hai mẫu, mỗi mẫu chứa chiều cao của 15 học sinh của một lớp. Chúng ta cần kiểm tra xem hai học sinh lớp khác nhau có cùng chiều cao có nghĩa là không. Có ba cách để tiến hành thử nghiệm t hai mẫu trong Python. & NBSP;print(np.var(data_group)) Here, - Scipy là viết tắt của Python khoa học và như tên gọi đó là một thư viện Python khoa học và nó sử dụng Numpy dưới bìa. Thư viện này cung cấp một loạt các chức năng có thể khá hữu ích trong khoa học dữ liệu. Đầu tiên, hãy để tạo ra dữ liệu mẫu. Bây giờ, hãy để thực hiện hai bài kiểm tra mẫu. Với mục đích này, chúng tôi có hàm ttest_ind () trong python.
Python3& nbsp; cú pháp: ttest_ind (data_group1, data_group2, area_var = true/false) Data_group1: Nhóm dữ liệu đầu tiên scipy.stats as stats 9data_group1 0, scipy.stats as stats 1, 14 , data_group1 6, data_group1 8, = 0, 15 scipy.stats as stats 8
scipy.stats as stats 915 , scipy.stats as stats 1, scipy.stats as stats 1, scipy.stats as stats 3, 14 , np.array([ 5np.array([ 6
Data_group2: Nhóm dữ liệu thứ hai scipy.stats as stats 9data_group1 6, data_group1 6, 14 , data_group1 0, 15 3, 15 5, scipy.stats as stats 1scipy.stats as stats 8
scipy.stats as stats 9scipy.stats as stats 3, scipy.stats as stats 1, scipy.stats as stats 3, , 6, 15 , scipy.stats as stats 3np.array([ 6
15 215 3
Output: EAGN_VAR = True True True: Bài kiểm tra t hai mẫu độc lập tiêu chuẩn sẽ được thực hiện bằng cách xem xét các phương sai dân số bằng nhau. Equal_var = Hồi Sai False: Bài kiểm tra T Welch sẽ được thực hiện bằng cách không xem xét các phương sai dân số bằng nhau. Lưu ý rằng theo mặc định, cân bằng_var là đúng Python3& nbsp; cú pháp: ttest_ind (data_group1, data_group2, area_var = true/false) Data_group1: Nhóm dữ liệu đầu tiên scipy.stats as stats 9data_group1 0, scipy.stats as stats 1, 14 , data_group1 6, data_group1 8, = 0, 15 scipy.stats as stats 8
scipy.stats as stats 915 , scipy.stats as stats 1, scipy.stats as stats 1, scipy.stats as stats 3, 14 , np.array([ 5np.array([ 6
Data_group2: Nhóm dữ liệu thứ hai scipy.stats as stats 9data_group1 6, data_group1 6, 14 , data_group1 0, 15 3, 15 5, scipy.stats as stats 1scipy.stats as stats 8
scipy.stats as stats 9scipy.stats as stats 3, scipy.stats as stats 1, scipy.stats as stats 3, , 6, 15 , scipy.stats as stats 3np.array([ 6
scipy.stats as stats 86= scipy.stats as stats 88= scipy.stats as stats 90= scipy.stats as stats 92scipy.stats as stats 93
Output:
Thực hiện kiểm tra t hai mẫu Phân tích kết quả: Hai thử nghiệm t mẫu có giả thuyết sau đây: H0 => Tiết1 = Pha2 (giá trị trung bình dân số của DataSet1 bằng với DataSet2) Ha => Tiết1 ≠
Ở đây, vì giá trị p (0,53004) lớn hơn alpha = 0,05 nên chúng tôi không thể từ chối giả thuyết khống của thử nghiệm. Chúng tôi không có đủ bằng chứng để nói rằng chiều cao trung bình của học sinh giữa hai nhóm dữ liệu là khác nhau. Phương pháp 2: Kiểm tra t hai mẫu với pingouinPingouin là một dự án gói loại thống kê dựa trên gấu trúc và numpy. Pingouin cung cấp một loạt các tính năng. Gói được sử dụng để tiến hành thử nghiệm t nhưng cũng để tính toán mức độ tự do, yếu tố người bay, vv & nbsp; Đầu tiên, hãy để tạo ra dữ liệu mẫu. Chúng tôi đang tạo hai mảng và bây giờ hãy để thực hiện hai bài kiểm tra mẫu. Với mục đích này, chúng tôi có chức năng ttest () trong gói pingouin của Python. Cú pháp được đưa ra dưới đây, Cú pháp: ttest (data_group1, data_group2, sửa chữa = true/false)ttest(data_group1, data_group2, correction = True/False) Here, - Data_group1: Nhóm dữ liệu đầu tiên
- Data_group2: Nhóm dữ liệu thứ hai
- Sửa chữa = True True True: Bài kiểm tra t hai mẫu độc lập tiêu chuẩn sẽ được thực hiện bằng cách xem xét giả định đồng nhất.
- Sửa chữa = Sai Sai: Test Welch Test Test sẽ được thực hiện bằng cách không xem xét giả định đồng nhất.
Lưu ý rằng theo mặc định, cân bằng_var là đúng that by default equal_var is True Example: Python3scipy.stats as stats 94 scipy.stats as stats 95import scipy.stats as stats 97
import scipy.stats as stats 99
import data_group1 01
data_group1 = np.array([ ____data_group1 05____________data_group1 07____6____data_group1 05________data_group1 11, data_group1 13scipy.stats as stats 8
scipy.stats as stats 9data_group1 16, data_group1 18, data_group1 20scipy.stats as stats 8
scipy.stats as stats 9data_group1 23, data_group1 25np.array([ 6
np.array([ 7= np.array([ data_group1 30____________data_group1 32, ____data_group1 34, data_group1 36scipy.stats as stats 8
scipy.stats as stats 9data_group1 39, data_group1 41, data_group1 43, data_group1 45scipy.stats as stats 8
scipy.stats as stats 9data_group1 48, data_group1 50np.array([ 6
data_group1 52= data_group1 54
data_group1 55data_group1 56
data_group1 55data_group1 58= scipy.stats as stats 92scipy.stats as stats 93
15 2data_group1 63
Output: Kiểm tra t hai mẫu với pingouin Diễn giải kết quả Đây là thời gian để phân tích kết quả. Giá trị p của thử nghiệm xuất hiện bằng 0,523, lớn hơn mức ý nghĩa alpha (nghĩa là 0,05). Điều này ngụ ý rằng chúng ta có thể nói rằng chiều cao trung bình của học sinh trong một lớp về mặt thống kê không khác với chiều cao trung bình của học sinh trong một lớp khác. Ngoài ra, Cohen từ D có được trong một bài kiểm tra t là về sức mạnh tương đối. Theo Cohen: - Cohen-D = 0,2 được coi là kích thước hiệu ứng nhỏ
- Cohen-D = 0,5 được coi là kích thước hiệu ứng trung bình
- Cohen-D = 0,8 được coi là kích thước hiệu ứng lớn
Nó ngụ ý rằng ngay cả khi hai nhóm dữ liệu có nghĩa là don khác nhau bởi độ lệch chuẩn 0,2 trở lên thì sự khác biệt là tầm thường, ngay cả khi nó có ý nghĩa thống kê. Phương pháp 3: Kiểm tra t hai mẫu với StatSmodelsStatSmodels là một thư viện Python được sử dụng đặc biệt để tính toán các mô hình thống kê khác nhau và để thực hiện các thử nghiệm thống kê. Thư viện này sử dụng các mô-đun và DataFrames kiểu R. & NBSP; Đầu tiên, hãy để tạo ra dữ liệu mẫu. Chúng tôi đang tạo hai mảng và cho phép, hãy thực hiện thử nghiệm t hai mẫu. Thư viện StatSmodels cung cấp chức năng ttest_ind () để tiến hành kiểm tra t hai mẫu có cú pháp được đưa ra dưới đây,now let’s perform the two-sample T-test. Statsmodels library provides ttest_ind() function to conduct two-sample T-Test whose syntax is given below, Cú pháp: ttest_ind (data_group1, data_group2) ttest_ind(data_group1, data_group2) Here, - Data_group1: Nhóm dữ liệu đầu tiên
- Data_group2: Nhóm dữ liệu thứ hai
Example: Python3scipy.stats as stats 94 scipy.stats as stats 95import scipy.stats as stats 97
import scipy.stats as stats 99
import data_group1 01
data_group1 = np.array([ ____data_group1 05____________data_group1 07____6____data_group1 05________data_group1 11, data_group1 13scipy.stats as stats 8
scipy.stats as stats 9data_group1 13scipy.stats as stats 8
scipy.stats as stats 9data_group1 16, data_group1 18, data_group1 20scipy.stats as stats 8
scipy.stats as stats 9data_group1 23, data_group1 25np.array([ 6
np.array([ 7= np.array([ data_group1 30____________data_group1 32, ____data_group1 34, data_group1 36scipy.stats as stats 8
scipy.stats as stats 9data_group1 39, data_group1 41, data_group1 43scipy.stats as stats 8
scipy.stats as stats 9data_group1 45, data_group1 48, data_group1 50np.array([ 6
data_group1 52= data_group1 54
Output: data_group1 55data_group1 56
Kiểm tra t hai mẫu với pingouin Diễn giải kết quả
|