Tham gia cộng đồng Dzone và có được trải nghiệm thành viên đầy đủ. Show
Tham gia miễn phí Trước khi tạo bất kỳ mô hình học máy nào trên bộ dữ liệu bảng, thông thường chúng tôi kiểm tra xem có mối quan hệ giữa các biến độc lập và mục tiêu hay không. Điều này có thể được thực hiện bằng cách đo lường mối tương quan giữa hai biến. Trong Python, Pandas cung cấp một hàm, & nbsp; ________ 2, & nbsp; để tìm mối tương quan giữa các biến số., to find the correlation between numeric variables only. Trong bài viết này, chúng ta sẽ xem làm thế nào để tìm ra mối tương quan giữa các biến phân loại và liên tục. Trường hợp 1: Khi một biến độc lập chỉ có hai giá trịĐiểm tương quan biserialNếu một biến phân loại chỉ có hai giá trị (nghĩa là true/false), thì chúng ta có thể chuyển đổi nó thành một số & nbsp; kiểu dữ liệu (0 và 1). Vì nó trở thành một biến số, chúng ta có thể tìm ra mối tương quan bằng cách sử dụng chức năng & nbsp; ____ 2 & nbsp; Chúng ta hãy tạo một khung dữ liệu sẽ bao gồm hai cột: loại nhân viên (trốngpe) & nbsp; và tiền lương.Employee Type (EmpType) and Salary. Cố tình, chúng tôi sẽ chỉ định nhiều tiền lương hơn cho trốngPE1. Bằng cách này, chúng tôi sẽ nhận được một số mối tương quan giữa trống và tiền lương. Tạo DataFrame với các thuộc tính sau:
Đầu ra
Mối tương quan giữa rỗng và lương là 0,7. Vì vậy, chúng tôi có thể xác định nó có tương quan. & NBSP; Trường hợp 2: Khi các biến độc lập có nhiều hơn hai giá trịANOVA (Phân tích phương sai)Chúng tôi sẽ chỉ định nhiều tiền lương hơn cho & nbsp; ____ 4, mức lương trung bình cho & nbsp; ____ 5 và mức lương thấp cho & nbsp; ____ ____ 8. Bằng cách này, chúng tôi sẽ nhận được một số mối tương quan giữa trống và tiền lương.
Đầu ra chúng tôi nhận được là: 1443.6261 & nbsp;
Bạn có thể tải xuống và chạy đầy đủ mã từ liên kết này. Tương quan (hình học dự án) Python (ngôn ngữ) Python (language) Ý kiến được thể hiện bởi những người đóng góp Dzone là của riêng họ. Có ba phương pháp hình ảnh lớn để hiểu nếu một liên tục và phân loại có mối tương quan đáng kể-tương quan biserial điểm, hồi quy logistic và thử nghiệm Kruskal Wallis H. Hệ số tương quan Biserial Point là một trường hợp đặc biệt về hệ số tương quan của Pearson. Kịch bản này có thể xảy ra khi bạn đang thực hiện hồi quy hoặc phân loại trong học máy. Trong cả hai trường hợp này, sức mạnh của mối tương quan giữa các biến có thể được đo bằng thử nghiệm ANOVA.ANOVA test. ANOVA là viết tắt của phân tích phương sai. Vì vậy, về cơ bản, các biện pháp thử nghiệm này nếu có bất kỳ sự khác biệt đáng kể nào giữa các phương tiện của các giá trị của biến số cho mỗi giá trị phân loại. Đây là một cái gì đó mà bạn cũng có thể hình dung bằng cách sử dụng cốt truyện hộp. Các mục dưới đây phải được ghi nhớ về bài kiểm tra giả thuyết ANOVA
Trong ví dụ dưới đây, chúng tôi đang cố gắng đo lường nếu có bất kỳ mối tương quan nào giữa FurferType trên Carprices. Ở đây FuelType là một yếu tố dự đoán phân loại và Carprices là biến mục tiêu số.
Đầu ra mẫu Bài kiểm tra ANOVA trong PythonVì đầu ra của giá trị p gần như bằng không, do đó, chúng tôi từ chối H0. Có nghĩa là các biến tương quan với nhau. Nhà khoa học dữ liệu chính Farukh là một nhà đổi mới trong việc giải quyết các vấn đề công nghiệp bằng cách sử dụng trí tuệ nhân tạo. Chuyên môn của ông được hỗ trợ với 10 năm kinh nghiệm trong ngành. Là một nhà khoa học dữ liệu cao cấp, anh ta chịu trách nhiệm thiết kế giải pháp AI/ML để cung cấp mức tăng tối đa cho khách hàng. Là một nhà lãnh đạo tư tưởng, trọng tâm của ông là giải quyết các vấn đề kinh doanh chính của ngành công nghiệp CPG. Ông đã làm việc trên các lĩnh vực khác nhau như viễn thông, bảo hiểm và hậu cần. Ông đã làm việc với các nhà lãnh đạo công nghệ toàn cầu bao gồm Infosys, IBM và các hệ thống liên tục. Niềm đam mê của anh ấy để dạy truyền cảm hứng cho anh ấy để tạo ra trang web này! Chúng ta có thể tìm thấy mối tương quan giữa biến phân loại và số không?Hơn nữa, nếu một trong hai biến của cặp là phân loại, chúng ta không thể sử dụng hệ số tương quan. Chúng tôi sẽ phải chuyển sang các số liệu khác. Nếu x và y đều phân loại, chúng ta có thể thử CRAMER's V hoặc hệ số PHI. Nếu x liên tục và y là nhị phân, chúng ta có thể sử dụng hệ số tương quan điểm-điểm.if either variable of the pair is categorical, we can't use the correlation coefficient. We will have to turn to other metrics. If x and y are both categorical, we can try Cramer's V or the phi coefficient. If x is continuous and y is binary, we can use the point-biserial correlation coefficient.
Bạn có thể tìm thấy mối tương quan giữa các biến phân loại Python không?Nếu một biến phân loại chỉ có hai giá trị (nghĩa là true/false), thì chúng ta có thể chuyển đổi nó thành kiểu dữ liệu số (0 và 1).Vì nó trở thành một biến số, chúng ta có thể tìm ra mối tương quan bằng cách sử dụng hàm dataFrame.corr ().using the dataframe. corr() function.
Bạn có thể nắm bắt mối tương quan giữa các biến liên tục và phân loại không?Có ba phương pháp hình ảnh lớn để hiểu nếu một liên tục và phân loại có mối tương quan đáng kể-tương quan biserial điểm, hồi quy logistic và thử nghiệm Kruskal Wallis H.Hệ số tương quan Biserial Point là một trường hợp đặc biệt về hệ số tương quan của Pearson.point biserial correlation, logistic regression, and Kruskal Wallis H Test. The point biserial correlation coefficient is a special case of Pearson's correlation coefficient.
Có thể sử dụng tương quan Pearson cho dữ liệu phân loại?Lưu ý: Tương quan Pearson bivariate không thể giải quyết các mối quan hệ hoặc mối quan hệ phi tuyến tính giữa các biến phân loại.Nếu bạn muốn hiểu các mối quan hệ liên quan đến các biến phân loại và/hoặc các mối quan hệ phi tuyến tính, bạn sẽ cần chọn một biện pháp liên kết khác.cannot address non-linear relationships or relationships among categorical variables. If you wish to understand relationships that involve categorical variables and/or non-linear relationships, you will need to choose another measure of association. |