Hướng dẫn how to find the mode of categorical data in python - cách tìm chế độ dữ liệu phân loại trong python

Tôi muốn tìm giá trị lặp đi lặp lại nhất (là chế độ) của một cột dữ liệu phân loại và lấp đầy các ô trống với giá trị này.

Cột "bắt đầu" chỉ có ba giá trị: s, q, c

Khi tôi cố gắng tính toán trung bình và trung bình, nó đã gây ra lỗi, bởi vì nó không có giá trị số, nhưng tôi có thể lấy một chế độ của cột này, khi tôi thử phần mã này, nó không gây ra lỗi:

embarked=df_missing['Embarked']
df_missing['Embarked']=df_missing['Embarked'].fillna(embarked.mode())

Nhưng nó cũng không lấp đầy các ô trống. Làm thế nào tôi có thể tìm thấy chế độ của cột này.

Hướng dẫn how to find the mode of categorical data in python - cách tìm chế độ dữ liệu phân loại trong python

Stefan

1.48712 Huy hiệu bạc28 Huy hiệu đồng12 silver badges28 bronze badges

Hỏi ngày 24 tháng 9 năm 2020 lúc 14:03Sep 24, 2020 at 14:03

Hướng dẫn how to find the mode of categorical data in python - cách tìm chế độ dữ liệu phân loại trong python

1

Điều đó nên làm việc, nhưng hãy thử phương pháp này.

Trước tiên hãy thử

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
0 và xem liệu bạn có nhận được những gì bạn mong đợi không.

Vậy hãy thử đi:

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)

Nếu các cột của bạn không chứa các ô thực sự không phải là NA thì @quang Hoang nói, có lẽ bạn có các chuỗi trống. Trong trường hợp này, bạn có thể thử:

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)

Đã trả lời ngày 24 tháng 9 năm 2020 lúc 14:19Sep 24, 2020 at 14:19

Hướng dẫn how to find the mode of categorical data in python - cách tìm chế độ dữ liệu phân loại trong python

Mullinscrmullinscrmullinscr

1.5981 Huy hiệu vàng5 Huy hiệu bạc14 Huy hiệu đồng1 gold badge5 silver badges14 bronze badges

4

Giới thiệu

Khi chúng tôi đang cố gắng mô tả và tóm tắt một mẫu dữ liệu, có lẽ chúng tôi bắt đầu bằng cách tìm giá trị trung bình (hoặc trung bình), trung bình và chế độ của dữ liệu. Đây là các biện pháp xu hướng trung tâm và thường là cái nhìn đầu tiên của chúng tôi về một bộ dữ liệu.central tendency measures and are often our first look at a dataset.

Trong hướng dẫn này, chúng ta sẽ học cách tìm hoặc tính toán giá trị trung bình, trung bình và chế độ trong Python. Trước tiên chúng tôi sẽ mã hóa hàm Python cho mỗi biện pháp theo sau bằng cách sử dụng mô -đun

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
1 của Python để hoàn thành cùng một nhiệm vụ.

Với kiến ​​thức này, chúng tôi sẽ có thể xem nhanh các bộ dữ liệu của chúng tôi và có ý tưởng về xu hướng chung của dữ liệu.

Tính toán giá trị trung bình của một mẫu

Nếu chúng ta có một mẫu các giá trị số, thì giá trị trung bình của nó hoặc trung bình là tổng số của các giá trị (hoặc quan sát) chia cho số lượng giá trị.

Giả sử chúng tôi có mẫu

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
2. Chúng ta có thể tính toán giá trị trung bình của nó bằng cách thực hiện thao tác:

(4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10 = 5.2

Giá trị trung bình (trung bình số học) là một mô tả chung về dữ liệu của chúng tôi. Giả sử bạn mua 10 pound cà chua. Khi bạn đếm cà chua ở nhà, bạn sẽ nhận được 25 cà chua. Trong trường hợp này, bạn có thể nói rằng trọng lượng trung bình của cà chua là 0,4 pound. Đó sẽ là một mô tả tốt về cà chua của bạn.

Giá trị trung bình cũng có thể là một mô tả kém về một mẫu dữ liệu. Giả sử bạn đang phân tích một nhóm chó. Nếu bạn lấy trọng lượng tích lũy của tất cả các con chó và chia nó cho số lượng chó, thì đó có lẽ là một mô tả kém về trọng lượng của một con chó cá nhân vì các giống chó khác nhau có thể có kích thước và trọng lượng rất khác nhau.

Mức trung bình tốt như thế nào hoặc mức độ xấu mô tả một mẫu phụ thuộc vào mức độ lan truyền dữ liệu. Trong trường hợp của cà chua, mỗi trọng lượng gần giống nhau và giá trị trung bình là một mô tả tốt về chúng. Trong trường hợp của chó, không có con chó tại chỗ. Họ có thể từ một Chihuahua nhỏ đến một con chó săn Đức khổng lồ. Vì vậy, ý nghĩa của chính nó không phải là một mô tả tốt trong trường hợp này.

Bây giờ là lúc để hành động và tìm hiểu làm thế nào chúng ta có thể tính toán trung bình bằng cách sử dụng Python.

Tính trung bình với Python

Để tính giá trị trung bình của một mẫu dữ liệu số, chúng tôi sẽ sử dụng hai hàm tích hợp của Python. Một để tính tổng tổng của các giá trị và một để tính chiều dài của mẫu.

Hàm đầu tiên là

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
3. Hàm tích hợp này có một giá trị số có thể lặp lại và trả về tổng số của chúng.

Hàm thứ hai là

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
4. Hàm tích hợp này trả về độ dài của một đối tượng.
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
4 có thể thực hiện các chuỗi (chuỗi, byte, tuple, danh sách hoặc phạm vi) hoặc bộ sưu tập (từ điển, bộ hoặc bộ đông lạnh) làm đối số.

Đây là cách chúng ta có thể tính toán trung bình:

>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2

Trước tiên chúng tôi tổng hợp các giá trị trong

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
6 bằng cách sử dụng
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
3. Sau đó, chúng tôi chia tổng số đó cho độ dài của
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
6, đó là giá trị kết quả là
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
9.

Sử dụng trung bình của Python ()

Vì tính toán giá trị trung bình là một hoạt động chung, Python bao gồm chức năng này trong mô -đun

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
1. Nó cung cấp một số chức năng để tính toán số liệu thống kê cơ bản trên các bộ dữ liệu. Hàm
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
1 lấy một mẫu dữ liệu số (bất kỳ điều khác được) và trả về giá trị trung bình của nó.

Đây là cách

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
2 của Python hoạt động:

>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2

Chúng tôi chỉ cần nhập mô -đun

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
1 và sau đó gọi
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
2 với mẫu của chúng tôi làm đối số. Điều đó sẽ trả về giá trị trung bình của mẫu. Đây là một cách nhanh chóng để tìm kiếm ý nghĩa sử dụng Python.

Tìm kiếm trung bình của một mẫu

Trung bình của một mẫu dữ liệu số là giá trị nằm ở giữa khi chúng ta sắp xếp dữ liệu. Dữ liệu có thể được sắp xếp theo thứ tự tăng dần hoặc giảm dần, trung bình vẫn giữ nguyên.

Để tìm trung vị, chúng ta cần:

  1. Sắp xếp mẫu
  2. Xác định vị trí giá trị ở giữa mẫu được sắp xếp

Khi định vị số ở giữa một mẫu được sắp xếp, chúng ta có thể đối mặt với hai loại tình huống:

  1. Nếu mẫu có số lượng quan sát lẻ, thì giá trị trung bình trong mẫu được sắp xếp là trung bìnhodd number of observations, then the middle value in the sorted sample is the median
  2. Nếu mẫu có số lượng quan sát chẵn, thì chúng ta sẽ cần tính giá trị trung bình của hai giá trị giữa trong mẫu được sắp xếpeven number of observations, then we'll need to calculate the mean of the two middle values in the sorted sample

Nếu chúng ta có mẫu

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
5 và muốn tìm trung bình của nó, thì trước tiên chúng ta sắp xếp mẫu thành
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
6. Trung bình sẽ là
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
7 vì đó là giá trị ở giữa.

Mặt khác, nếu chúng ta có mẫu

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
8, thì trung bình của nó sẽ là
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
9.

Chúng ta hãy xem làm thế nào chúng ta có thể sử dụng Python để tính toán trung bình.

Tìm trung vị với Python

Để tìm trung vị, trước tiên chúng ta cần sắp xếp các giá trị trong mẫu của chúng tôi. Chúng ta có thể đạt được điều đó bằng cách sử dụng chức năng

>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
0 tích hợp.
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
0 có một sự lặp đi lặp lại và trả về một
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2 được sắp xếp chứa cùng các giá trị của bản gốc.

Bước thứ hai là định vị giá trị nằm ở giữa mẫu được sắp xếp. Để xác định giá trị đó trong một mẫu có số lượng quan sát lẻ, chúng ta có thể chia số lượng quan sát cho 2. Kết quả sẽ là chỉ số của giá trị ở giữa mẫu được sắp xếp.

Vì một toán tử phân chia (

>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
3) trả về số float, chúng ta sẽ cần sử dụng toán tử phân chia sàn, (
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
4) để có được số nguyên. Vì vậy, chúng ta có thể sử dụng nó làm chỉ mục trong hoạt động lập chỉ mục (
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
5).

Nếu mẫu có số lượng quan sát chẵn, thì chúng ta cần xác định vị trí hai giá trị giữa. Giả sử chúng tôi có mẫu

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
8. Nếu chúng ta chia độ dài của nó (
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
7) cho
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
8 bằng cách sử dụng một bộ phận sàn, thì chúng ta sẽ nhận được
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
7. Đó là chỉ số của giá trị trung lưu trên của chúng tôi (
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
0). Để tìm chỉ số giá trị trung lưu thấp hơn của chúng tôi (
embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].replace('\s+', embarked_mode, regex=True, inplace=True)
7), chúng tôi có thể giảm chỉ số của giá trị trung lưu trên bằng
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2.

Kiểm tra hướng dẫn thực hành của chúng tôi, thực tế để học Git, với các thực hành tốt nhất, các tiêu chuẩn được công nghiệp chấp nhận và bao gồm bảng gian lận. Ngừng các lệnh git googling và thực sự tìm hiểu nó!

Hãy đặt tất cả những thứ này lại với nhau trong chức năng tính toán trung bình của một mẫu. Đây là một triển khai có thể:

>>> def my_median(sample):
...     n = len(sample)
...     index = n // 2
...     # Sample with an odd number of observations
...     if n % 2:
...         return sorted(sample)[index]
...     # Sample with an even number of observations
...     return sum(sorted(sample)[index - 1:index + 1]) / 2
...

>>> my_median([3, 5, 1, 4, 2])
3

>>> my_median([3, 5, 1, 4, 2, 6])
3.5

Hàm này lấy một mẫu các giá trị số và trả về trung bình của nó. Trước tiên chúng tôi tìm thấy độ dài của mẫu,

>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
3. Sau đó, chúng tôi tính toán chỉ số của giá trị giữa (hoặc giá trị trung lưu trên) bằng cách chia
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
3 cho
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
8.

Tuyên bố

>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
6 kiểm tra xem mẫu trong tay có số lượng quan sát lẻ. Nếu vậy, thì trung bình là giá trị tại
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
7.

>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
8 cuối cùng chạy nếu mẫu có số lượng quan sát chẵn. Trong trường hợp đó, chúng tôi tìm thấy trung bình bằng cách tính giá trị trung bình của hai giá trị trung bình.

Lưu ý rằng hoạt động cắt

>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
9 có hai giá trị. Giá trị tại
>>> def my_median(sample):
...     n = len(sample)
...     index = n // 2
...     # Sample with an odd number of observations
...     if n % 2:
...         return sorted(sample)[index]
...     # Sample with an even number of observations
...     return sum(sorted(sample)[index - 1:index + 1]) / 2
...

>>> my_median([3, 5, 1, 4, 2])
3

>>> my_median([3, 5, 1, 4, 2, 6])
3.5
0 và giá trị tại
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
7 vì các hoạt động cắt loại trừ giá trị tại chỉ số cuối cùng (
>>> def my_median(sample):
...     n = len(sample)
...     index = n // 2
...     # Sample with an odd number of observations
...     if n % 2:
...         return sorted(sample)[index]
...     # Sample with an even number of observations
...     return sum(sorted(sample)[index - 1:index + 1]) / 2
...

>>> my_median([3, 5, 1, 4, 2])
3

>>> my_median([3, 5, 1, 4, 2, 6])
3.5
2).

Sử dụng trung bình của Python ()

Python's

>>> def my_median(sample):
...     n = len(sample)
...     index = n // 2
...     # Sample with an odd number of observations
...     if n % 2:
...         return sorted(sample)[index]
...     # Sample with an even number of observations
...     return sum(sorted(sample)[index - 1:index + 1]) / 2
...

>>> my_median([3, 5, 1, 4, 2])
3

>>> my_median([3, 5, 1, 4, 2, 6])
3.5
3 lấy một mẫu dữ liệu và trả về trung bình của nó. Đây là cách phương thức hoạt động:

>>> import statistics

>>> statistics.median([3, 5, 1, 4, 2])
3

>>> statistics.median([3, 5, 1, 4, 2, 6])
3.5

Lưu ý rằng

>>> def my_median(sample):
...     n = len(sample)
...     index = n // 2
...     # Sample with an odd number of observations
...     if n % 2:
...         return sorted(sample)[index]
...     # Sample with an even number of observations
...     return sum(sorted(sample)[index - 1:index + 1]) / 2
...

>>> my_median([3, 5, 1, 4, 2])
3

>>> my_median([3, 5, 1, 4, 2, 6])
3.5
4 tự động xử lý tính toán trung bình cho các mẫu có số lẻ hoặc số lượng quan sát chẵn.

Tìm chế độ của một mẫu

Chế độ là quan sát (hoặc quan sát) thường xuyên nhất trong một mẫu. Nếu chúng ta có mẫu

>>> def my_median(sample):
...     n = len(sample)
...     index = n // 2
...     # Sample with an odd number of observations
...     if n % 2:
...         return sorted(sample)[index]
...     # Sample with an even number of observations
...     return sum(sorted(sample)[index - 1:index + 1]) / 2
...

>>> my_median([3, 5, 1, 4, 2])
3

>>> my_median([3, 5, 1, 4, 2, 6])
3.5
5, thì chế độ của nó là
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
8 vì
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
8 xuất hiện hai lần trong mẫu trong khi các phần tử khác chỉ xuất hiện một lần.

Chế độ không cần phải là duy nhất. Một số mẫu có nhiều hơn một chế độ. Giả sử chúng tôi có mẫu

>>> def my_median(sample):
...     n = len(sample)
...     index = n // 2
...     # Sample with an odd number of observations
...     if n % 2:
...         return sorted(sample)[index]
...     # Sample with an even number of observations
...     return sum(sorted(sample)[index - 1:index + 1]) / 2
...

>>> my_median([3, 5, 1, 4, 2])
3

>>> my_median([3, 5, 1, 4, 2, 6])
3.5
8. Mẫu này có hai chế độ -
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
8 và
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
0 vì chúng là các giá trị xuất hiện thường xuyên hơn và cả hai xuất hiện cùng một số lần.

Chế độ thường được sử dụng cho dữ liệu phân loại. Các loại dữ liệu phân loại phổ biến là:

  • Boolean - chỉ có thể lấy hai giá trị như trong
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    1 hoặc
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    2,
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    3 hoặc
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    4
    - Can take only two values like in
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    1 or
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    2,
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    3 or
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    4
  • danh nghĩa - có thể mất nhiều hơn hai giá trị như trong
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    5
    - Can take more than two values like in
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    5
  • Ordinal - có thể mất nhiều hơn hai giá trị nhưng các giá trị có thứ tự hợp lý như trong
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    6
    - Can take more than two values but the values have a logical order like in
    >>> import statistics
    
    >>> statistics.median([3, 5, 1, 4, 2])
    3
    
    >>> statistics.median([3, 5, 1, 4, 2, 6])
    3.5
    
    6

Khi chúng tôi phân tích dữ liệu dữ liệu phân loại, chúng tôi có thể sử dụng chế độ để biết danh mục nào là phổ biến nhất trong dữ liệu của chúng tôi.

Chúng ta có thể tìm thấy các mẫu không có chế độ. Nếu tất cả các quan sát là duy nhất (không có quan sát lặp đi lặp lại), thì mẫu của bạn sẽ không có chế độ.

Bây giờ chúng ta đã biết những điều cơ bản về chế độ, chúng ta hãy xem làm thế nào chúng ta có thể tìm thấy nó bằng Python.

Tìm chế độ với Python

Để tìm chế độ có Python, chúng tôi sẽ bắt đầu bằng cách đếm số lần xuất hiện của từng giá trị trong mẫu trong tay. Sau đó, chúng tôi sẽ nhận được (các) giá trị với số lần xuất hiện cao hơn.

Vì việc đếm các đối tượng là một hoạt động phổ biến, Python cung cấp lớp

>>> import statistics

>>> statistics.median([3, 5, 1, 4, 2])
3

>>> statistics.median([3, 5, 1, 4, 2, 6])
3.5
7. Lớp này được thiết kế đặc biệt để đếm các đối tượng.

Lớp

>>> import statistics

>>> statistics.median([3, 5, 1, 4, 2])
3

>>> statistics.median([3, 5, 1, 4, 2, 6])
3.5
8 cung cấp một phương thức được xác định là
>>> import statistics

>>> statistics.median([3, 5, 1, 4, 2])
3

>>> statistics.median([3, 5, 1, 4, 2, 6])
3.5
9. Phương pháp này trả về một
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2 của các bộ hai mục với các yếu tố phổ biến
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
3 hơn và số lượng tương ứng của chúng. Nếu
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
3 bị bỏ qua hoặc
>>> from collections import Counter

>>> def my_mode(sample):
...     c = Counter(sample)
...     return [k for k, v in c.items() if v == c.most_common(1)[0][1]]
...

>>> my_mode(["male", "male", "female", "male"])
['male']

>>> my_mode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> my_mode([4, 1, 2, 2, 3, 5])
[2]

>>> my_mode([4, 1, 2, 2, 3, 5, 4])
[4, 2]
3, thì
>>> from collections import Counter

>>> def my_mode(sample):
...     c = Counter(sample)
...     return [k for k, v in c.items() if v == c.most_common(1)[0][1]]
...

>>> my_mode(["male", "male", "female", "male"])
['male']

>>> my_mode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> my_mode([4, 1, 2, 2, 3, 5])
[2]

>>> my_mode([4, 1, 2, 2, 3, 5, 4])
[4, 2]
4 trả về tất cả các yếu tố.

Chúng ta hãy sử dụng

>>> import statistics

>>> statistics.median([3, 5, 1, 4, 2])
3

>>> statistics.median([3, 5, 1, 4, 2, 6])
3.5
8 và
>>> from collections import Counter

>>> def my_mode(sample):
...     c = Counter(sample)
...     return [k for k, v in c.items() if v == c.most_common(1)[0][1]]
...

>>> my_mode(["male", "male", "female", "male"])
['male']

>>> my_mode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> my_mode([4, 1, 2, 2, 3, 5])
[2]

>>> my_mode([4, 1, 2, 2, 3, 5, 4])
[4, 2]
4 để mã hóa một hàm lấy mẫu dữ liệu và trả về chế độ của nó.

Đây là một triển khai có thể:

>>> from collections import Counter

>>> def my_mode(sample):
...     c = Counter(sample)
...     return [k for k, v in c.items() if v == c.most_common(1)[0][1]]
...

>>> my_mode(["male", "male", "female", "male"])
['male']

>>> my_mode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> my_mode([4, 1, 2, 2, 3, 5])
[2]

>>> my_mode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

Trước tiên, chúng tôi đếm các quan sát trong

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
6 bằng cách sử dụng đối tượng
>>> import statistics

>>> statistics.median([3, 5, 1, 4, 2])
3

>>> statistics.median([3, 5, 1, 4, 2, 6])
3.5
8 (
>>> from collections import Counter

>>> def my_mode(sample):
...     c = Counter(sample)
...     return [k for k, v in c.items() if v == c.most_common(1)[0][1]]
...

>>> my_mode(["male", "male", "female", "male"])
['male']

>>> my_mode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> my_mode([4, 1, 2, 2, 3, 5])
[2]

>>> my_mode([4, 1, 2, 2, 3, 5, 4])
[4, 2]
9). Sau đó, chúng tôi sử dụng khả năng hiểu danh sách để tạo
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2 chứa các quan sát xuất hiện cùng số lần trong mẫu.

Kể từ khi

>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'
1 trả về
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2 với một
>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'
3 của Mẫu
>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'
4, chúng ta cần có được quan sát tại Index
>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'
5 trong
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2 và sau đó là mục tại Index
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2 trong
>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'
3 lồng nhau. Điều này có thể được thực hiện với biểu thức
>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'
9. Giá trị đó là chế độ đầu tiên của mẫu của chúng tôi.

Lưu ý rằng điều kiện của sự hiểu biết so sánh số lượng của mỗi quan sát (

>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]
0) với số lượng quan sát phổ biến nhất (
>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'
9). Điều này sẽ cho phép chúng tôi có được nhiều quan sát (
>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]
2) với cùng một số lượng trong trường hợp mẫu đa chế độ.

Sử dụng chế độ Python ()

Python's

>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]
3 mất một số
>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]
4 và trả về chế độ (đầu tiên) của nó. Hãy xem cách chúng ta có thể sử dụng nó:

>>> import statistics

>>> statistics.mode([4, 1, 2, 2, 3, 5])
2

>>> statistics.mode([4, 1, 2, 2, 3, 5, 4])
4

>>> st.mode(["few", "few", "many", "some", "many"])
'few'

Với một mẫu một chế độ,

>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]
5 của Python trả về giá trị phổ biến nhất,
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
8. Tuy nhiên, trong quá trình tiến hành hai ví dụ, nó đã trả lại
>>> import statistics

>>> statistics.mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
0 và
>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]
8. Các mẫu này có các yếu tố khác xảy ra cùng một số lần, nhưng chúng không được bao gồm.

Vì Python 3.8, chúng tôi cũng có thể sử dụng

>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]
9, chấp nhận một điều đáng tin cậy và trả về
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2 của các chế độ.

Đây là một ví dụ về cách sử dụng

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
01:

>>> import statistics

>>> statistics.multimode([4, 1, 2, 2, 3, 5, 4])
[4, 2]

>>> statistics.multimode(["few", "few", "many", "some", "many"])
['few', 'many']

>>> st.multimode([4, 1, 2, 2, 3, 5])
[2]

Lưu ý: Hàm luôn trả về

>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2, ngay cả khi bạn vượt qua mẫu một chế độ. The function always returns a
>>> def my_mean(sample):
...     return sum(sample) / len(sample)
...

>>> my_mean([4, 8, 6, 5, 3, 2, 8, 9, 2, 5])
5.2
2, even if you pass a single-mode sample.

Sự kết luận

Giá trị trung bình (hoặc trung bình), trung bình và chế độ thường là cái nhìn đầu tiên của chúng tôi về một mẫu dữ liệu khi chúng tôi cố gắng hiểu xu hướng trung tâm của dữ liệu.

Trong hướng dẫn này, chúng tôi đã học cách tìm hoặc tính toán giá trị trung bình, trung bình và chế độ sử dụng Python. Trước tiên chúng tôi đề cập đến từng bước, cách tạo các chức năng của riêng mình để tính toán chúng và sau đó là cách sử dụng mô-đun

embarked_mode = df_missing['Embarked'].mode()
df_missing['Embarked'].fillna(embarked_mode, inplace=True)
1 của Python như một cách nhanh chóng để tìm các biện pháp này.

Bạn có thể tìm thấy chế độ cho dữ liệu phân loại không?

Chế độ có thể được sử dụng để tóm tắt các biến phân loại, trong khi giá trị trung bình và trung bình chỉ có thể được tính toán cho các biến số. Đây là lợi thế chính của chế độ như là thước đo xu hướng trung tâm., while the mean and median can be calculated only for numeric variables. This is the main advantage of the mode as a measure of central tendency.

Chế độ () trong gấu trúc là gì?

Pandas DataFrame Mode () Phương thức chế độ () Phương thức trả về giá trị chế độ của mỗi cột.Trung bình, trung bình và chế độ: trung bình - giá trị trung bình.Trung bình - giá trị điểm trung bình.Chế độ - Giá trị phổ biến nhất.returns the mode value of each column. Mean, Median, and Mode: Mean - The average value. Median - The mid point value. Mode - The most common value.

Làm thế nào để Python xác định dữ liệu phân loại?

Phân loại (val, danh mục = không, đặt hàng = none, dtype = none): nó đại diện cho một biến phân loại.Phân loại là một loại dữ liệu gấu trúc tương ứng với các biến phân loại trong thống kê.Các biến như vậy có một số lượng cố định và hạn chế các giá trị có thể. : It represents a categorical variable. Categorical are a pandas data type that corresponds to the categorical variables in statistics. Such variables take on a fixed and limited number of possible values.

Mô hình nào là tốt nhất cho dữ liệu phân loại?

Hai phương thức lựa chọn tính năng được sử dụng phổ biến nhất cho dữ liệu đầu vào phân loại khi biến đích cũng được phân loại (ví dụ: mô hình dự đoán phân loại) là thống kê chi bình phương và thống kê thông tin lẫn nhau.chi-squared statistic and the mutual information statistic.