Làm cách nào để tìm hệ số tương quan?

Từ tương quan được sử dụng trong cuộc sống hàng ngày để biểu thị một số hình thức liên kết. Chúng tôi có thể nói rằng chúng tôi đã nhận thấy mối tương quan giữa những ngày có sương mù và những cơn thở khò khè. Tuy nhiên, về mặt thống kê, chúng tôi sử dụng tương quan để biểu thị mối liên hệ giữa hai biến định lượng. Chúng tôi cũng giả định rằng mối liên hệ là tuyến tính, rằng một biến tăng hoặc giảm một lượng cố định khi tăng hoặc giảm một đơn vị trong biến kia. Một kỹ thuật khác thường được sử dụng trong những trường hợp này là hồi quy, bao gồm việc ước tính đường thẳng tốt nhất để tóm tắt mối liên hệ

Hệ số tương quan

Mức độ liên kết được đo bằng hệ số tương quan, ký hiệu là r. Đôi khi nó được gọi là hệ số tương quan của Pearson sau người khởi tạo nó và là thước đo của sự liên kết tuyến tính. Nếu cần một đường cong để thể hiện mối quan hệ, thì phải sử dụng các biện pháp tương quan khác và phức tạp hơn

Hệ số tương quan được đo lường trên thang đo thay đổi từ + 1 đến 0 đến – 1. Mối tương quan hoàn toàn giữa hai biến được thể hiện bằng + 1 hoặc -1. Khi một biến tăng khi biến kia tăng thì tương quan là dương; . Hoàn toàn không có tương quan được biểu thị bằng 0. Hình 11. 1 đưa ra một số biểu diễn đồ họa về mối tương quan

Hình 11. 1 Tương quan minh họa

Nhìn vào dữ liệu. Sơ đồ phân tán

Khi một điều tra viên đã thu thập hai chuỗi quan sát và muốn xem liệu có mối quan hệ giữa chúng hay không, trước tiên anh ấy hoặc cô ấy nên xây dựng biểu đồ phân tán. Tỷ lệ dọc đại diện cho một tập hợp các phép đo và tỷ lệ ngang khác. Nếu một tập hợp các quan sát bao gồm các kết quả thử nghiệm và một tập hợp khác bao gồm thang thời gian hoặc phân loại được quan sát thuộc loại nào đó, thông thường sẽ đặt các kết quả thử nghiệm trên trục tung. Chúng đại diện cho cái được gọi là “biến phụ thuộc”. “Biến độc lập”, chẳng hạn như thời gian hoặc chiều cao hoặc một số phân loại được quan sát khác, được đo dọc theo trục hoành hoặc đường cơ sở

Các từ “độc lập” và “phụ thuộc” có thể khiến người mới bắt đầu bối rối vì đôi khi không rõ cái gì phụ thuộc vào cái gì. Sự nhầm lẫn này là chiến thắng của lẽ thường đối với thuật ngữ gây hiểu lầm, bởi vì thường mỗi biến phụ thuộc vào một biến thứ ba nào đó, biến này có thể được đề cập hoặc không. Chẳng hạn, thật hợp lý khi nghĩ rằng chiều cao của trẻ em phụ thuộc vào tuổi tác hơn là ngược lại nhưng hãy xem xét mối tương quan tích cực giữa sản lượng hắc ín trung bình và sản lượng nicotin của một số nhãn hiệu thuốc lá. ' Chất nicotin được giải phóng dường như không có nguồn gốc từ hắc ín. cả hai đều thay đổi song song với một số yếu tố hoặc yếu tố khác trong thành phần của thuốc lá. Năng suất của cái này dường như không "phụ thuộc" vào cái kia theo nghĩa là, trung bình, chiều cao của một đứa trẻ phụ thuộc vào độ tuổi của nó. Trong những trường hợp như vậy, tỷ lệ nào được đặt trên trục nào của sơ đồ phân tán thường không quan trọng. Tuy nhiên, nếu ý định là đưa ra suy luận về một biến từ biến kia, thì các quan sát mà từ đó đưa ra các suy luận thường được đặt trên đường cơ sở. Một ví dụ khác, biểu đồ số ca tử vong hàng tháng do bệnh tim so với doanh số bán kem hàng tháng sẽ cho thấy mối liên hệ tiêu cực. Tuy nhiên, khó có khả năng ăn kem bảo vệ khỏi bệnh tim. Đơn giản là tỷ lệ tử vong do bệnh tim có quan hệ tỷ lệ nghịch – và việc tiêu thụ kem có quan hệ tỷ lệ thuận – với yếu tố thứ ba, đó là nhiệt độ môi trường

Tính hệ số tương quan

Một bác sĩ nhi khoa đã đo khoảng chết giải phẫu phổi (tính bằng ml) và chiều cao (tính bằng cm) của 15 trẻ em. Các dữ liệu được đưa ra trong bảng 11. 1 và sơ đồ tán xạ thể hiện trong hình 11. 2 Mỗi chấm tượng trưng cho một trẻ, được đặt tại điểm tương ứng với số đo chiều cao (trục hoành) và khoảng chết (trục tung). Nhà đăng ký bây giờ kiểm tra mẫu để xem liệu có khả năng khu vực được bao phủ bởi các dấu chấm nằm trên một đường thẳng hay liệu một đường cong là cần thiết. Trong trường hợp này, bác sĩ nhi khoa quyết định rằng một đường thẳng có thể mô tả đầy đủ xu hướng chung của các chấm. Do đó, bước tiếp theo của anh ấy sẽ là tính toán hệ số tương quan

Khi vẽ biểu đồ phân tán (hình 11. 2 ) để hiển thị chiều cao và khoảng chết giải phẫu phổi ở 15 trẻ, bác sĩ nhi khoa đưa ra các số liệu như trong cột (1), (2) và (3) của bảng 11. 1. Sẽ rất hữu ích nếu sắp xếp các quan sát theo thứ tự nối tiếp của biến độc lập khi một trong hai biến được xác định rõ ràng là độc lập. Các số liệu tương ứng cho biến phụ thuộc sau đó có thể được kiểm tra trong mối quan hệ với chuỗi tăng dần cho biến độc lập. Bằng cách này, chúng ta có cùng một bức tranh, nhưng ở dạng số, như xuất hiện trong biểu đồ phân tán

Hình 11. 2 Sơ đồ phân tán mối liên quan giữa chiều cao và khoảng chết giải phẫu phổi ở 15 trẻ

Cách tính hệ số tương quan như sau, với x đại diện cho các giá trị của biến độc lập (trong trường hợp này là chiều cao) và y đại diện cho các giá trị của biến phụ thuộc (trong trường hợp này là khoảng chết giải phẫu). Công thức được sử dụng là

có thể được hiển thị bằng

thủ tục máy tính

Tìm giá trị trung bình và độ lệch chuẩn của x, như được mô tả trong

Tìm giá trị trung bình và độ lệch chuẩn của y.

Trừ 1 từ n và nhân với SD(x) và SD(y), (n – 1)SD(x)SD(y)

Điều này cho chúng ta mẫu số của công thức. (Nhớ thoát khỏi chế độ “Stat”. )

Đối với tử số nhân từng giá trị của x với giá trị tương ứng của y, cộng các giá trị này lại với nhau và lưu trữ chúng

Cái này lưu trữ trong bộ nhớ. Trừ đi

MR – 15 x 144. 6 x 66. 93 (5426. 6)

Cuối cùng chia tử số cho mẫu số

r = 5426. 6/6412. 0609 = 0. 846

Hệ số tương quan của 0. 846 chỉ ra mối tương quan thuận mạnh mẽ giữa kích thước khoảng chết giải phẫu phổi và chiều cao của trẻ. Nhưng khi giải thích mối tương quan, điều quan trọng cần nhớ là mối tương quan không phải là quan hệ nhân quả. Có thể có hoặc không có mối liên hệ nhân quả giữa hai biến tương quan. Hơn nữa, nếu có một kết nối nó có thể là gián tiếp

Một phần của sự thay đổi ở một trong các biến (được đo bằng phương sai của nó) có thể được coi là do mối quan hệ của nó với biến kia và một phần khác là do các nguyên nhân không xác định (thường là “ngẫu nhiên”). Phần do sự phụ thuộc của biến này vào biến kia được đo bằng Rho. Đối với những dữ liệu này Rho= 0. 716 nên chúng ta có thể nói rằng 72% sự khác biệt giữa các trẻ về kích thước của khoảng chết giải phẫu là do chiều cao của trẻ. Nếu chúng ta muốn gắn nhãn độ mạnh của liên kết, cho các giá trị tuyệt đối của r, 0-0. 19 được coi là rất yếu, 0. 2-0. 39 là yếu, 0. 40-0. 59 là vừa phải, 0. 6-0. 79 là mạnh và 0. 8-1 là mối tương quan rất chặt chẽ, nhưng đây là những giới hạn khá tùy ý và cần xem xét bối cảnh của kết quả

kiểm tra ý nghĩa

Để kiểm tra xem mối liên hệ này có đơn thuần là hiển nhiên hay không và có thể phát sinh do tình cờ hay không, hãy sử dụng phép thử t trong phép tính sau

nhập tại n – 2 bậc tự do

Ví dụ: hệ số tương quan cho những dữ liệu này là 0. 846

Số cặp quan sát là 15. Áp dụng phương trình 11. 1, chúng tôi có

Vào bảng B ở 15 – 2 = 13 bậc tự do ta thấy ở t = 5. 72, P < 0. 001 nên hệ số tương quan có thể được coi là rất có ý nghĩa. Do đó (như có thể thấy ngay từ biểu đồ phân tán), chúng ta có một mối tương quan rất chặt chẽ giữa không gian chết và chiều cao mà hầu như không thể phát sinh một cách tình cờ.

Các giả định chi phối thử nghiệm này là

  1. Rằng cả hai biến được phân phối hợp lý Bình thường
  2. Rằng có một mối quan hệ tuyến tính giữa chúng
  3. Giả thuyết khống là không có mối liên hệ nào giữa chúng

Phép thử không được dùng để so sánh hai phương pháp đo cùng một đại lượng, chẳng hạn như hai phương pháp đo lưu lượng đỉnh thở ra. Việc sử dụng nó theo cách này dường như là một sai lầm phổ biến, với một kết quả quan trọng được hiểu là phương pháp này tương đương với phương pháp kia. Các lý do đã được thảo luận rộng rãi(2) nhưng điều đáng nhắc lại là một kết quả quan trọng cho chúng ta biết rất ít về sức mạnh của một mối quan hệ. Từ công thức, rõ ràng là với thậm chí có mối quan hệ rất yếu (giả sử r = 0. 1) chúng tôi sẽ nhận được một kết quả quan trọng với một mẫu đủ lớn (giả sử n trên 1000)

Tương quan xếp hạng Spearman

Biểu đồ dữ liệu có thể tiết lộ các điểm nằm ngoài phần chính của dữ liệu, điều này có thể ảnh hưởng quá mức đến việc tính toán hệ số tương quan. Ngoài ra, các biến có thể rời rạc về mặt định lượng, chẳng hạn như số lượng nốt ruồi hoặc theo thứ tự phân loại, chẳng hạn như điểm đau. Một quy trình phi tham số, do Spearman, là thay thế các quan sát theo thứ hạng của chúng trong tính toán hệ số tương quan

Điều này dẫn đến một công thức đơn giản cho tương quan thứ hạng của Spearman, Rho

trong đó d là sự khác biệt về thứ hạng của hai biến đối với một cá nhân nhất định. Vì vậy, chúng ta có thể rút ra bảng 11. 2 từ dữ liệu trong bảng 11. 1

Trong trường hợp này, giá trị rất gần với giá trị của hệ số tương quan Pearson. Đối với n > 10, hệ số tương quan xếp hạng Spearman có thể được kiểm tra về mức độ quan trọng bằng cách sử dụng kiểm định t đã đưa ra trước đó

phương trình hồi quy

Tương quan mô tả độ mạnh của mối liên hệ giữa hai biến và hoàn toàn đối xứng, tương quan giữa A và B giống như tương quan giữa B và A. Tuy nhiên, nếu hai biến có quan hệ với nhau, điều đó có nghĩa là khi một biến thay đổi một lượng nhất định thì biến kia thay đổi trung bình một lượng nhất định. Ví dụ, ở những đứa trẻ được mô tả trước đó, chiều cao lớn hơn trung bình có liên quan đến khoảng chết giải phẫu lớn hơn. Nếu y đại diện cho biến phụ thuộc và x là biến độc lập, mối quan hệ này được mô tả là hồi quy của y theo x

Mối quan hệ có thể được biểu diễn bằng một phương trình đơn giản gọi là phương trình hồi quy. Trong ngữ cảnh này, “hồi quy” (thuật ngữ là một sự bất thường trong lịch sử) chỉ đơn giản có nghĩa là giá trị trung bình của y là một “hàm số” của x, nghĩa là nó thay đổi theo x

Phương trình hồi quy biểu thị mức độ thay đổi của y với bất kỳ thay đổi nào của x có thể được sử dụng để xây dựng đường hồi quy trên biểu đồ phân tán và trong trường hợp đơn giản nhất, đây được coi là một đường thẳng. Hướng mà đường dốc phụ thuộc vào mối tương quan là tích cực hay tiêu cực. Khi hai nhóm quan sát tăng hoặc giảm cùng nhau (dương), đường dốc lên từ trái sang phải; . Vì đường thẳng phải thẳng nên nó có thể sẽ đi qua một vài chấm, nếu có. Cho rằng mối liên kết được mô tả rõ ràng bằng một đường thẳng, chúng ta phải xác định hai đặc điểm của đường thẳng nếu chúng ta đặt nó một cách chính xác trên biểu đồ. Đầu tiên trong số này là khoảng cách của nó so với đường cơ sở; . Chúng được thể hiện trong phương trình hồi quy sau

Với phương trình này, chúng ta có thể tìm thấy chuỗi giá trị của biến, tương ứng với từng chuỗi giá trị của x, biến độc lập. Các tham số α và β phải được ước tính từ dữ liệu. Tham số biểu thị khoảng cách phía trên đường cơ sở mà tại đó đường hồi quy cắt trục tung (y); . Tham số β (hệ số hồi quy) biểu thị số lượng mà thay đổi trong x phải được nhân lên để tạo ra thay đổi trung bình tương ứng trong y hoặc lượng y thay đổi khi tăng một đơn vị trong x. Theo cách này, nó biểu thị mức độ mà đường dốc lên hoặc xuống.

Phương trình hồi quy thường hữu ích hơn hệ số tương quan. Nó cho phép chúng tôi dự đoán y từ x và cho chúng tôi một bản tóm tắt tốt hơn về mối quan hệ giữa hai biến. Nếu, đối với một giá trị cụ thể của x, x i, phương trình hồi quy dự đoán giá trị của y phù hợp , thì lỗi dự đoán là . Có thể dễ dàng chứng minh rằng bất kỳ đường thẳng nào đi qua các giá trị trung bình x và y sẽ cho tổng sai số dự đoán bằng 0 vì các số hạng dương và âm triệt tiêu chính xác. Để loại bỏ các dấu hiệu tiêu cực, chúng tôi bình phương các chênh lệch và phương trình hồi quy được chọn để giảm thiểu tổng bình phương của các lỗi dự đoán, Chúng tôi biểu thị các ước tính mẫu của Alpha và Beta bằng a và b. Có thể chỉ ra rằng một đường thẳng giảm thiểu , ước lượng bình phương nhỏ nhất, được cho bởi

được sử dụng vì chúng tôi đã tính toán tất cả các thành phần của phương trình (11. 2) trong tính toán hệ số tương quan

Cách tính hệ số tương quan trên số liệu bảng 11. 2 đã đưa ra những điều sau đây

Áp dụng các số liệu này cho các công thức cho các hệ số hồi quy, chúng ta có

Do đó, trong trường hợp này, phương trình hồi quy của y theo x trở thành

Điều này có nghĩa là trung bình cứ tăng chiều cao thêm 1 cm thì khoảng chết giải phẫu tăng thêm 1. 033 ml trên phạm vi phép đo được thực hiện

Đường biểu thị phương trình được hiển thị chồng lên trên biểu đồ phân tán của dữ liệu trong hình 11. 2. Cách để vẽ đường thẳng là lấy ba giá trị của x, một ở bên trái của sơ đồ phân tán, một ở giữa và một ở bên phải, rồi thay thế các giá trị này vào phương trình, như sau

Nếu x = 110, y = (1. 033 x 110) – 82. 4 = 31. 2

Nếu x = 140, y = (1. 033 x 140) – 82. 4 = 62. 2

Nếu x = 170, y = (1. 033 x 170) – 82. 4 = 93. 2

Mặc dù hai điểm là đủ để xác định đường, nhưng ba điểm tốt hơn để kiểm tra. Sau khi đặt chúng trên sơ đồ phân tán, chúng tôi chỉ cần vẽ một đường thẳng qua chúng

Hình 11. 3 Đường hồi quy vẽ trên biểu đồ phân tán liên quan chiều cao và khoảng chết giải phẫu phổi ở 15 trẻ

Sai số chuẩn của độ dốc SE(b) được cho bởi

trong đó là độ lệch chuẩn còn lại, được cho bởi.

Điều này có thể được hiển thị là đại số bằng

Chúng ta đã có tất cả các số hạng trong biểu thức này. Do đó là căn bậc hai của . Mẫu số của (11. 3) là 72. 4680. Do đó SE(b) = 13. 08445/72. 4680 = 0. 18055.

Chúng ta có thể kiểm tra xem độ dốc có khác 0 đáng kể hay không bằng cách

t = b/SE(b) = 1. 033/0. 18055 = 5. 72

Nhắc lại, cái này có n – 2 = 15 – 2 = 13 bậc tự do. Các giả định chi phối thử nghiệm này là

  1. Rằng các lỗi dự đoán được phân phối bình thường. Lưu ý điều này không có nghĩa là các biến x hoặc y phải có phân phối chuẩn
  2. Mối quan hệ giữa hai biến là tuyến tính
  3. Rằng sự phân tán của các điểm trên đường thẳng là gần như không đổi – chúng ta không mong muốn độ biến thiên của biến phụ thuộc tăng lên khi biến độc lập tăng lên. Nếu trường hợp này xảy ra, hãy thử lấy logarit của cả hai biến x và y

Lưu ý rằng kiểm định mức ý nghĩa đối với độ dốc cho giá trị P chính xác như kiểm định mức ý nghĩa đối với hệ số tương quan. Mặc dù hai bài kiểm tra có nguồn gốc khác nhau, nhưng chúng tương đương về mặt đại số, điều này có ý nghĩa trực quan

Chúng ta có thể đạt được khoảng tin cậy 95% cho b từ

trong đó thống kê t từ có 13 bậc tự do và bằng 2. 160

Như vậy khoảng tin cậy 95% là

l. 033 – 2. 160 x 0. 18055 đến l. 033 + 2. 160 x 0. 18055 = 0. 643 đến 1. 422

Các đường hồi quy cung cấp cho chúng ta thông tin hữu ích về dữ liệu chúng được thu thập từ. Chúng chỉ ra cách một biến thay đổi trung bình với một biến khác và chúng có thể được sử dụng để tìm ra biến nào có thể xảy ra khi chúng ta biết biến kia – với điều kiện là chúng ta đặt câu hỏi này trong giới hạn của biểu đồ phân tán. Để chiếu đường thẳng ở một trong hai đầu - để ngoại suy - luôn rủi ro vì mối quan hệ giữa x và y có thể thay đổi hoặc có thể tồn tại một số loại điểm giới hạn. Ví dụ, một đường hồi quy có thể được vẽ liên quan đến tuổi theo thời gian của một số trẻ em với tuổi xương của chúng và nó có thể là một đường thẳng giữa, chẳng hạn, độ tuổi từ 5 đến 10 tuổi, nhưng để chiếu nó lên đến 30 tuổi . Các gói máy tính thường sẽ tạo ra phần chặn từ phương trình hồi quy mà không có cảnh báo rằng nó có thể hoàn toàn vô nghĩa. Xem xét sự hồi quy của huyết áp so với tuổi ở nam giới trung niên. Hệ số hồi quy thường dương chứng tỏ huyết áp tăng theo tuổi. Hệ số chặn thường gần bằng 0, nhưng sẽ là sai lầm khi kết luận rằng đây là ước tính đáng tin cậy về huyết áp ở trẻ sơ sinh nam mới sinh

Các phương pháp nâng cao hơn

Có thể có nhiều hơn một biến độc lập – trong trường hợp như vậy, phương pháp này được gọi là hồi quy bội. (3,4) Đây là phương pháp thống kê linh hoạt nhất và có thể được sử dụng trong nhiều tình huống. Những ví dụ bao gồm. để cho phép nhiều hơn một yếu tố dự đoán, tuổi cũng như chiều cao trong ví dụ trên;

Câu hỏi thường gặp

Nếu hai biến tương quan với nhau thì chúng có quan hệ nhân quả không?

Đó là một lỗi phổ biến để nhầm lẫn giữa tương quan và nhân quả. Tất cả mối tương quan đó cho thấy là hai biến được liên kết. Có thể có một biến thứ ba, một biến gây nhiễu có liên quan đến cả hai. Ví dụ, số ca tử vong hàng tháng do đuối nước và doanh số bán kem hàng tháng có mối tương quan thuận, nhưng không ai có thể nói mối quan hệ này là nhân quả

Làm cách nào để kiểm tra các giả định làm cơ sở cho hồi quy tuyến tính?

Đầu tiên, hãy luôn nhìn vào biểu đồ phân tán và hỏi, nó có tuyến tính không? . A histogram of will reveal departures from Normality and a plot of versus will reveal whether the residuals increase in size as increases.

Người giới thiệu

  1. Russell MAH, Cole PY, MS nhàn rỗi, Adams L. Sản lượng carbon monoxide của thuốc lá và mối quan hệ của chúng với sản lượng nicotin và loại đầu lọc. BMJ 1975; . 713
  2. Nhạt nhẽo JM, Altman DG. Phương pháp thống kê để đánh giá sự thống nhất giữa hai phương pháp đo lường lâm sàng. Cây giáo 1986; . 307-10
  3. Brown RA, Swanson-Beck J. Thống kê y tế trên máy tính cá nhân, tái bản lần 2. London. Tập đoàn xuất bản BMJ, 1993
  4. Armitage P, Berry G. Trong. Phương pháp thống kê trong nghiên cứu y học, tái bản lần thứ 3. Oxford. Ấn phẩm khoa học Blackwell, 1994. 312-41

bài tập

11. 1 Một nghiên cứu được thực hiện về tỷ lệ nhập viện của người dân ở 16 khu vực địa lý khác nhau, trong một khoảng thời gian cố định. Khoảng cách từ trung tâm đến bệnh viện của mỗi khu vực được đo bằng dặm. Kết quả như sau

(1) 21%, 6. số 8; . 3; . 7; . 2; . số 8; . số 8; . 1; . 3; . 3; . 0; . 2; . 7; . 2; . 0; . 1; . 1

Hệ số tương quan giữa tỷ lệ đi học và khoảng cách trung bình của khu vực địa lý là gì?

11. 2 Tìm mối tương quan xếp hạng Spearman cho dữ liệu được đưa ra trong 11. 1

11. 3 Nếu các giá trị của x từ dữ liệu trong 11. 1 đại diện cho khoảng cách trung bình của khu vực từ bệnh viện và các giá trị của y đại diện cho tỷ lệ đi học, phương trình hồi quy của y theo x là gì?

Chủ đề