Hướng dẫn how do you find the correlation matrix in a dataframe in python? - làm thế nào để bạn tìm thấy ma trận tương quan trong khung dữ liệu trong python?

Để tạo ma trận tương quan bằng Pandas:

df.corr()

Tiếp theo, bạn sẽ thấy một ví dụ với các bước để tạo ma trận tương quan cho một bộ dữ liệu nhất định.

Bước 1: Thu thập dữ liệu

Đầu tiên, thu thập dữ liệu sẽ được sử dụng cho ma trận tương quan.

Để minh họa, hãy để sử dụng dữ liệu sau đây về 3 biến:

Một B C
45 38 10
37 31 15
42 26 17
35 28 21
39 33 12

Bước 2: Tạo một khung dữ liệu bằng gấu trúc bằng cách sử dụng gấu trúc

Tiếp theo, hãy tạo một khung dữ liệu để ghi dữ liệu trên trong Python:

import pandas as pd

data = {'A': [45, 37, 42, 35, 39],
        'B': [38, 31, 26, 28, 33],
        'C': [10, 15, 17, 21, 12]
        }

df = pd.DataFrame(data)
print(df)

Khi bạn chạy mã, bạn sẽ nhận được DataFrame sau:

    A   B   C
0  45  38  10
1  37  31  15
2  42  26  17
3  35  28  21
4  39  33  12

Bước 3: Tạo ma trận tương quan bằng cách sử dụng gấu trúc

Bây giờ, hãy tạo một ma trận tương quan bằng cách sử dụng mẫu này:

df.corr()

Đây là mã Python hoàn chỉnh mà bạn có thể sử dụng để tạo ma trận tương quan cho ví dụ của chúng tôi:

import pandas as pd

data = {'A': [45, 37, 42, 35, 39],
        'B': [38, 31, 26, 28, 33],
        'C': [10, 15, 17, 21, 12]
        }

df = pd.DataFrame(data)

corr_matrix = df.corr()
print(corr_matrix)

Chạy mã trong Python và bạn sẽ nhận được ma trận sau:

          A         B         C
A  1.000000  0.518457 -0.701886
B  0.518457  1.000000 -0.860941
C -0.701886 -0.860941  1.000000

Bước 4 (Tùy chọn): Nhận biểu diễn trực quan của ma trận tương quan bằng cách sử dụng Seaborn và Matplotlib

Bạn có thể sử dụng các gói SeaBorn và Matplotlib để có được biểu diễn trực quan của ma trận tương quan.

Đầu tiên, nhập các gói Seaborn và Matplotlib:

import seaborn as sn
import matplotlib.pyplot as plt

Sau đó, thêm cú pháp sau ở dưới cùng của mã:

sn.heatmap(corr_matrix, annot=True)
plt.show()

Vì vậy, mã Python hoàn chỉnh sẽ trông như thế này:

import pandas as pd
import seaborn as sn
import matplotlib.pyplot as plt

data = {'A': [45, 37, 42, 35, 39],
        'B': [38, 31, 26, 28, 33],
        'C': [10, 15, 17, 21, 12]
        }

df = pd.DataFrame(data)

corr_matrix = df.corr()
sn.heatmap(corr_matrix, annot=True)
plt.show()

Bạn cũng có thể muốn xem lại nguồn sau giải thích các bước để tạo ma trận nhầm lẫn bằng Python. Ngoài ra, bạn có thể kiểm tra hướng dẫn này về việc tạo một ma trận hiệp phương sai trong Python.

Ngạc nhiên khi thấy không ai đề cập đến các lựa chọn thay thế có khả năng, tương tác và dễ sử dụng hơn.

A) Bạn có thể sử dụng Plotly:

  1. Chỉ cần hai dòng và bạn nhận được:

  2. interactivity,

  3. quy mô trơn tru,

  4. Màu sắc dựa trên toàn bộ dữ liệu thay vì các cột riêng lẻ,

  5. Tên cột & chỉ số hàng trên trục,

  6. Phóng to,

  7. panning,

  8. Khả năng một cú nhấp chuột tích hợp để lưu nó dưới dạng định dạng PNG,

  9. auto-scaling,

  10. so sánh về di chuột,

  11. Bong bóng hiển thị các giá trị để HeatMap vẫn có vẻ tốt và bạn có thể thấy các giá trị bất cứ nơi nào bạn muốn:

import plotly.express as px
fig = px.imshow(df.corr())
fig.show()

Hướng dẫn how do you find the correlation matrix in a dataframe in python? - làm thế nào để bạn tìm thấy ma trận tương quan trong khung dữ liệu trong python?

B) Bạn cũng có thể sử dụng Bokeh:

Tất cả các chức năng giống nhau với một chút rắc rối. Nhưng vẫn đáng giá nếu bạn không muốn chọn tham gia vào âm mưu và vẫn muốn tất cả những điều này:

import pandas as pd

data = {'A': [45, 37, 42, 35, 39],
        'B': [38, 31, 26, 28, 33],
        'C': [10, 15, 17, 21, 12]
        }

df = pd.DataFrame(data)
print(df)
0

Hướng dẫn how do you find the correlation matrix in a dataframe in python? - làm thế nào để bạn tìm thấy ma trận tương quan trong khung dữ liệu trong python?

Làm thế nào để bạn tìm thấy hệ số tương quan của một ma trận trong Python?

Hệ số tương quan Pearson có thể được tính toán trong Python bằng phương pháp CorrCoef () từ Numpy.Đầu vào cho hàm này thường là một ma trận, nói về kích thước MXN, trong đó: mỗi cột đại diện cho các giá trị của một biến ngẫu nhiên.Mỗi hàng đại diện cho một mẫu duy nhất của n biến ngẫu nhiên.using corrcoef() method from Numpy. The input for this function is typically a matrix, say of size mxn , where: Each column represents the values of a random variable. Each row represents a single sample of n random variables.

Làm thế nào để bạn tìm thấy mối tương quan giữa dữ liệu trong Python?

Số liệu thống kê ...
r = hệ số tương quan.Nó thường nằm giữa -1 (tương quan âm) và +1 (tương quan dương).....
x = các giá trị trung bình của bộ dữ liệu x ..
y = giá trị trung bình của bộ dữ liệu y ..

Làm thế nào để bạn hiển thị một ma trận tương quan?

Sử dụng hàm Corrplot (): Vẽ một bản tương quan hàm corrplot (), trong gói cùng tên, tạo một màn hình đồ họa của ma trận tương quan, làm nổi bật các biến tương quan nhất trong bảng dữ liệu.: Draw a correlogram The function corrplot(), in the package of the same name, creates a graphical display of a correlation matrix, highlighting the most correlated variables in a data table.