Nonparametric là gì

Có một số phân chia chủ đề trong thống kê. Một bộ phận nhanh chóng xuất hiện trong tâm trí là sự khác biệt giữa thống kê mô tả và thống kê suy luận . Có những cách khác mà chúng ta có thể tách rời kỷ luật thống kê. Một trong những cách này là phân loại các phương pháp thống kê là tham số hoặc phi tham số.

Chúng ta sẽ tìm hiểu sự khác biệt giữa phương pháp tham số và phương pháp không tham số. Cách mà chúng tôi sẽ thực hiện là so sánh các trường hợp khác nhau của các loại phương pháp này.

Các phương pháp được phân loại theo những gì chúng ta biết về dân số mà chúng ta đang nghiên cứu. Phương pháp tham số thường là phương pháp đầu tiên được nghiên cứu trong một khóa học thống kê nhập môn. Ý tưởng cơ bản là có một tập hợp các tham số cố định xác định một mô hình xác suất.

Phương pháp tham số thường là những phương pháp mà chúng ta biết rằng dân số là xấp xỉ chuẩn, hoặc chúng ta có thể tính gần đúng bằng cách sử dụng phân phối chuẩn sau khi chúng ta gọi định lý giới hạn trung tâm . Có hai tham số cho phân phối chuẩn: giá trị trung bình và độ lệch chuẩn.

Cuối cùng, việc phân loại một phương pháp dưới dạng tham số phụ thuộc vào các giả định được đưa ra về một tập hợp. Một số phương pháp tham số bao gồm:

  • Khoảng tin cậy cho trung bình tổng thể, với độ lệch chuẩn đã biết.
  • Khoảng tin cậy cho giá trị trung bình của tổng thể, với độ lệch chuẩn không xác định.
  • Khoảng tin cậy cho một phương sai tổng thể.
  • Khoảng tin cậy cho sự khác biệt của hai phương tiện, với độ lệch chuẩn chưa biết.

Để tương phản với các phương pháp tham số, chúng ta sẽ định nghĩa các phương pháp không tham số. Đây là những kỹ thuật thống kê mà chúng tôi không phải đưa ra bất kỳ giả định nào về các tham số cho dân số chúng tôi đang nghiên cứu. Thật vậy, các phương pháp không có bất kỳ sự phụ thuộc nào vào dân số quan tâm. Tập hợp các tham số không còn cố định và phân phối mà chúng tôi sử dụng cũng vậy. Chính vì lý do này mà các phương pháp không tham số còn được gọi là các phương pháp không có phân phối.

Phương pháp phi tham số đang ngày càng phổ biến và có ảnh hưởng vì một số lý do. Lý do chính là chúng ta không bị ràng buộc nhiều như khi chúng ta sử dụng phương pháp tham số. Chúng ta không cần phải đưa ra nhiều giả định về dân số mà chúng ta đang làm việc như những gì chúng ta phải đưa ra với phương pháp tham số. Nhiều phương pháp phi tham số này dễ áp ​​dụng và dễ hiểu.

Một số phương pháp phi tham số bao gồm:

  • Kiểm tra dấu hiệu cho dân số trung bình
  • Kỹ thuật khởi động
  • Kiểm tra U cho hai phương tiện độc lập
  • Kiểm tra tương quan Spearman

Có nhiều cách sử dụng thống kê để tìm khoảng tin cậy về giá trị trung bình. Phương pháp tham số sẽ liên quan đến việc tính toán biên độ sai số với một công thức và ước tính giá trị trung bình của tổng thể với trung bình mẫu. Phương pháp phi tham số để tính giá trị trung bình tin cậy sẽ liên quan đến việc sử dụng bootstrapping.

Tại sao chúng ta cần cả phương pháp tham số và không tham số cho dạng bài toán này? Nhiều khi phương pháp tham số hiệu quả hơn các phương pháp không tham số tương ứng. Mặc dù sự khác biệt về hiệu quả này thường không phải là vấn đề lớn, nhưng có những trường hợp chúng ta cần xem xét phương pháp nào hiệu quả hơn.

Hồi quy phi tham số, NPSR (Nonparametric series regression) ước lượng các trung bình của biến kết quả theo một tập danh sách các biến giải thích tương tự như hồi quy tuyến tính. Từ phi tham số “nonparametric” có ý nghĩa các tham số quan tâm – trung bình là một hàm của các hiệp biến – được cho bởi một hàm chưa biết g(xi). Ngược lại, trong một mô hình tham số, giá trị trung bình ứng với một giá trị cho trước của các hiệp biến, (Eleft( {{y_i}left| {{x_i}} right.} right) = fleft( {{x_i},beta } right)), là một hàm đã biết, được đặc trưng đầy đủ bởi tham số quan tâm, β (Shao 2003).

Mô hình hồi quy phi tham số
Mô hình hồi quy phi tham số của biến phụ thuộc yi theo vector k chiều của các biến giải thích xi, được xác định bởi:

[{y_i} = gleft( {{x_i}} right) + {varepsilon _i}begin{array}{*{20}{c}},&{Eleft( {{varepsilon _i}|{x_i}} right)}end{array} = 0]

với ({varepsilon _i}) là một sai số ngẫu nhiên.

Mô hình trên có thể được viết lại dưới dạng kì vọng như sau:

(Eleft( {{y_i}|{x_i}} right) = gleft( {{x_i}} right))

Giải thích hệ số ước lượng
Ước tính trung bình mà chúng ta nhận được bằng sử dụng hồi quy phi tham số có cùng dạng với hàm trung bình ước lượng thu được bằng cách sử dụng hồi quy tuyến tính. Tuy nhiên, các biến giải thích không phải là các biến trong dữ liệu mà là dạng hàm của các biến. Hơn nữa, việc giải thích các hệ số riêng rẽ trong hồi quy phi tham số là không dễ dàng và trực tiếp như ở hồi quy tuyến tính, bởi sự tồn tại các thành phần đa thức và thành phần tương tác của biến với các biến còn lại. Ví dụ, một đa thức của xi và wi có thể bao gồm các thành phần:

Nonparametric là gì
Nonparametric là gì

Nonparametric là gì

1. KIỂM ĐỊNH THAM SỐ

Kiểm định tham số (Parametric tests) là công cụ mạnh vì xử lý các dữ liệu dạng scale (interval, ratio). Thực hiện kiểm định này đòi hỏi một số giả định:

  1. Các quan sát phải độc lập với nhau,
  2. Các quan sát phải được rút ra từ các tổng thể có phân phối chuẩn,
  3. Các tổng thể nên có phương sai đồng nhất,
  4. Thang đo phải ở dạng scale để các tính toán có thể thực hiện được.

Ưu điểm của kiểm định tham số là đơn giản, dễ thực hiện, độ tin cậy cao. Tuy nhiên, nó đòi hỏi khắt khe về sự “chuẩn hóa” của dữ liệu. Do vậy, chi phí thu thập (thực hiện) cao và đôi khi khó thực hiện trong thực tế.

Ví dụ: Chúng ta muốn so sánh lương khởi điểm của sinh viên tốt nghiệp ở ngành kinh tế và điện tử. Thu nhập dữ liệu từ 200 doanh nghiệp trên địa bàn TpHCM, chúng ta kiểm định giả thuyết là lương khởi điểm của sinh viên tốt nghiệp ở 2 ngành này là như nhau.

Mỗi kiểm định tham số đều có tương ứng một kiểm định phi tham số thay thế. Chẳng hạn,  kiểm định Kruskal–Wallis thay thế phân tích phương sai một chiều, kiểm định dấu và hạng Wiloxon sử dụng thay thế kiểm định t-test cặp đôi hoặc hạng tương quan Spearman thay thế hồi quy tuyến tính… Một số kiểm định thay thế này được liệt kê ở bảng bên dưới.

2. KIỂM ĐỊNH PHI THAM SỐ

Trong nhiều tình huống thực tế, số liệu chỉ có thể biểu hiện dưới hình thức dấu hoặc xếp hạng, vì vậy không thể sử dụng các kiểm định tham số để thực hiện. Trong trường hợp này kiểm định Wilconxon và Mann-Whitney là hai lọai kiểm định phi tham số thông dụng nhất ứng với hai trường hợp: một là sử dụng cho mẫu ngẫu nhiên gồm các quan sát từng cặp và một dùng cho mẫu ngẫu nhiên độc lập.

Kiểm định phi tham số (Nonparametric Tests) được sử dụng trong những trường hợp dữ liệu không có phân phối chuẩn, hoặc cho các mẫu nhỏ có ít quan sát. Kiểm định phi tham số cũng được dùng cho các dữ liệu định danh (nominal), dữ liệu thứ bậc (ordinal) hoặc dữ liệu khoảng cách (interval) có phân phối bất kì.

Nhược điểm của kiểm định phi tham số là khả năng tìm ra được sự sai biệt kém, không mạnh như các phép kiểm có tham số (T student, phân tích phương sai…), đồng thời khó mở rộng để giải quyết các mô hình kinh tế phức tạp.

Sau đây là các kiểm định phi tham số được dùng tương đương với các kiểm định có tham số.

Bảng 1: Tổng hợp các kiểm định phi tham số và kiểm định tham số