Tham gia cộng đồng Dzone và có được trải nghiệm thành viên đầy đủ.
Tham gia miễn phí
Trước khi tạo bất kỳ mô hình học máy nào trên bộ dữ liệu bảng, thông thường chúng tôi kiểm tra xem có mối quan hệ giữa các biến độc lập và mục tiêu hay không. Điều này có thể được thực hiện bằng cách đo lường mối tương quan giữa hai biến. Trong Python, Pandas cung cấp một hàm, & nbsp; ________ 2, & nbsp; để tìm mối tương quan giữa các biến số., to find the correlation between numeric variables only.
Trong bài viết này, chúng ta sẽ xem làm thế nào để tìm ra mối tương quan giữa các biến phân loại và liên tục.
Trường hợp 1: Khi một biến độc lập chỉ có hai giá trị
Điểm tương quan biserial
Nếu một biến phân loại chỉ có hai giá trị (nghĩa là true/false), thì chúng ta có thể chuyển đổi nó thành một số & nbsp; kiểu dữ liệu (0 và 1). Vì nó trở thành một biến số, chúng ta có thể tìm ra mối tương quan bằng cách sử dụng chức năng & nbsp; ____ 2 & nbsp;
Chúng ta hãy tạo một khung dữ liệu sẽ bao gồm hai cột: loại nhân viên (trốngpe) & nbsp; và tiền lương.Employee Type (EmpType) and Salary.
Cố tình, chúng tôi sẽ chỉ định nhiều tiền lương hơn cho trốngPE1. Bằng cách này, chúng tôi sẽ nhận được một số mối tương quan giữa trống và tiền lương.
Tạo DataFrame với các thuộc tính sau:
Mức lương trung bình (trung bình) của & nbsp; ____ 4 & nbsp; là 60 với độ lệch chuẩn là năm.
Mức lương trung bình (trung bình) của & nbsp; ____ 5 & nbsp; là 50 với độ lệch chuẩn là năm. is 50 with a standard deviation of five.
Đầu ra
Lương | Kiểu | |
Lương | 1 | 0.736262 |
Kiểu | 0.736262 | 1 |
Mối tương quan giữa rỗng và lương là 0,7. Vì vậy, chúng tôi có thể xác định nó có tương quan. & NBSP;
Trường hợp 2: Khi các biến độc lập có nhiều hơn hai giá trị
ANOVA (Phân tích phương sai)
Chúng tôi sẽ chỉ định nhiều tiền lương hơn cho & nbsp; ____ 4, mức lương trung bình cho & nbsp; ____ 5 và mức lương thấp cho & nbsp; ____ ____ 8. Bằng cách này, chúng tôi sẽ nhận được một số mối tương quan giữa trống và tiền lương.
Mức lương trung bình của & nbsp; ________ 4 & nbsp; là 90 với độ lệch chuẩn là năm.
Mức lương trung bình của & nbsp; ________ 5 & nbsp; là 70 với độ lệch chuẩn là năm.
Mức lương trung bình của & nbsp; ________ 8 & nbsp; là 50 với độ lệch chuẩn là năm. is 50 with a standard deviation of five.
Đầu ra chúng tôi nhận được là: 1443.6261 & nbsp;
- Vì mức lương trung bình của ba & nbsp; loại nhân viên là 90, 70 và 50 & nbsp; (với độ lệch chuẩn là năm) điểm F là 1444.F score is 1444.
- Nếu mức lương trung bình của ba & nbsp; loại nhân viên là 60, 55, 50 điểm F là 86.F score is 86.
- Và nếu mức lương trung bình & nbsp; của ba & nbsp; loại nhân viên là 51, 50, 49 (gần như giống nhau) thì điểm F sẽ gần với 0, & nbsp; tức là. Không có mối tương quan.F score will be close to 0, i.e. there's no correlation.
- Điểm F lớn hơn & nbsp; giá trị càng cao thì tương quan sẽ càng cao.
Bạn có thể tải xuống và chạy đầy đủ mã từ liên kết này.
Tương quan (hình học dự án) Python (ngôn ngữ) Python (language)
Ý kiến được thể hiện bởi những người đóng góp Dzone là của riêng họ.
Có ba phương pháp hình ảnh lớn để hiểu nếu một liên tục và phân loại có mối tương quan đáng kể-tương quan biserial điểm, hồi quy logistic và thử nghiệm Kruskal Wallis H. Hệ số tương quan Biserial Point là một trường hợp đặc biệt về hệ số tương quan của Pearson.
Kịch bản này có thể xảy ra khi bạn đang thực hiện hồi quy hoặc phân loại trong học máy. Trong cả hai trường hợp này, sức mạnh của mối tương quan giữa các biến có thể được đo bằng thử nghiệm ANOVA.ANOVA test. ANOVA là viết tắt của phân tích phương sai. Vì vậy, về cơ bản, các biện pháp thử nghiệm này nếu có bất kỳ sự khác biệt đáng kể nào giữa các phương tiện của các giá trị của biến số cho mỗi giá trị phân loại. Đây là một cái gì đó mà bạn cũng có thể hình dung bằng cách sử dụng cốt truyện hộp. Các mục dưới đây phải được ghi nhớ về bài kiểm tra giả thuyết ANOVA Trong ví dụ dưới đây, chúng tôi đang cố gắng đo lường nếu có bất kỳ mối tương quan nào giữa FurferType trên Carprices. Ở đây FuelType là một yếu tố dự đoán phân loại và Carprices là biến mục tiêu số.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 # Tạo dữ liệu mẫu Nhập Pandas ASPDpandas aspd ColumnNames=['FuelType','CarPrice']=['FuelType','CarPrice'] Datavalues = [[& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 2000],=[[ 'Petrol', 2000], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 2100],[ 'Petrol', 2100], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 1900],[ 'Petrol', 1900], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 2150],[ 'Petrol', 2150], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 2100],[ 'Petrol', 2100], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 1900],[ 'Petrol', 2200], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 2150],[ 'Petrol', 1950], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 2200],[ 'Diesel', 2500], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 1950],[ 'Diesel', 2700], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'diesel', & nbsp; & nbsp; 2500],[ 'Diesel', 2900], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'diesel', & nbsp; & nbsp; 2700],[ 'Diesel', 2850], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'diesel', & nbsp; & nbsp; 2900],[ 'Diesel', 2600], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 2200],[ 'Diesel', 2500], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'xăng', & nbsp; & nbsp; 1950],[ 'Diesel', 2700], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'diesel', & nbsp; & nbsp; 2500],[ 'CNG', 1500], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'diesel', & nbsp; & nbsp; 2700],[ 'CNG', 1400], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'diesel', & nbsp; & nbsp; 2900],[ 'CNG', 1600], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'cng', & nbsp; & nbsp; 1650],[ 'CNG', 1650], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'cng', & nbsp; & nbsp; 1600],[ 'CNG', 1600], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'cng', & nbsp; & nbsp; 1500],[ 'CNG', 1500], & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; [& nbsp; & nbsp; 'cng', & nbsp; & nbsp; 1500][ 'CNG', 1500] & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; ]] #Tạo khung dữ liệu CarData=pd.DataFrame(data=DataValues,columns=ColumnNames)=pd.DataFrame(data=DataValues,columns=ColumnNames) print(CarData.head())(CarData.head()) ################# sau ###### hàm f_oneway () lấy dữ liệu nhóm làm đầu vào và # Trả về F-thống kê và giá trị p từ scipy.stats nhập f_onewayscipy.stats import f_oneway # Chạy bài kiểm tra ANOVA một chiều giữa Carprice và FurferTypes # Giả định (H0) là nhiên liệu và carprices không tương quan # Tìm ra dữ liệu giá cho từng loại nhiên liệu làm danh sách CategoryGroupLists=CarData.groupby('FuelType')['CarPrice'].apply(list)=CarData.groupby('FuelType')['CarPrice'].apply(list)
# Thực hiện bài kiểm tra ANOVA # Chúng tôi chỉ chấp nhận giả định (H0) khi p-value & gt; 0,05 AnovaResults=f_oneway(*CategoryGroupLists)=f_oneway(*CategoryGroupLists) in ('giá trị p cho ANOVA là:', anovaresults [1])('P-Value for Anova is: ',AnovaResults[1])
Đầu ra mẫu
Vì đầu ra của giá trị p gần như bằng không, do đó, chúng tôi từ chối H0. Có nghĩa là các biến tương quan với nhau.
Nhà khoa học dữ liệu chính
Farukh là một nhà đổi mới trong việc giải quyết các vấn đề công nghiệp bằng cách sử dụng trí tuệ nhân tạo. Chuyên môn của ông được hỗ trợ với 10 năm kinh nghiệm trong ngành. Là một nhà khoa học dữ liệu cao cấp, anh ta chịu trách nhiệm thiết kế giải pháp AI/ML để cung cấp mức tăng tối đa cho khách hàng. Là một nhà lãnh đạo tư tưởng, trọng tâm của ông là giải quyết các vấn đề kinh doanh chính của ngành công nghiệp CPG. Ông đã làm việc trên các lĩnh vực khác nhau như viễn thông, bảo hiểm và hậu cần. Ông đã làm việc với các nhà lãnh đạo công nghệ toàn cầu bao gồm Infosys, IBM và các hệ thống liên tục. Niềm đam mê của anh ấy để dạy truyền cảm hứng cho anh ấy để tạo ra trang web này!