Giá trị trung bình, trung bình và chế độ là các chủ đề cơ bản của thống kê. Bạn có thể dễ dàng tính toán chúng bằng Python, có và không sử dụng các thư viện bên ngoài Show
Ba điều này là các biện pháp chính của xu hướng trung tâm. Xu hướng trung tâm cho chúng ta biết các giá trị “bình thường” hoặc “trung bình” của tập dữ liệu. Nếu bạn mới bắt đầu với khoa học dữ liệu, đây là hướng dẫn phù hợp với bạn Đến cuối hướng dẫn này, bạn sẽ
Hãy tìm hiểu các cách khác nhau để tính giá trị trung bình, trung bình và chế độ Tính giá trị trung bình bằng PythonGiá trị trung bình hoặc trung bình số học là thước đo xu hướng trung tâm được sử dụng nhiều nhất
Tập dữ liệu là một tập hợp dữ liệu, do đó tập dữ liệu trong Python có thể là bất kỳ cấu trúc dữ liệu tích hợp nào sau đây
Chúng ta có thể tính giá trị trung bình bằng cách cộng tất cả các giá trị của tập dữ liệu và chia kết quả cho số lượng giá trị. Ví dụ: nếu chúng ta có danh sách các số sau
Giá trị trung bình hoặc trung bình sẽ là 3. 5 vì tổng của danh sách là 21 và độ dài của nó là 6. 21 chia cho 6 là 3. 5. Bạn có thể thực hiện phép tính này với phép tính dưới đây
Trong hướng dẫn này, chúng tôi sẽ sử dụng các cầu thủ của một đội bóng rổ làm dữ liệu mẫu của chúng tôi Tạo một hàm trung bình tùy chỉnhHãy bắt đầu bằng cách tính tuổi trung bình (trung bình) của các cầu thủ trong một đội bóng rổ. Tên của đội sẽ là “Pythonic Machines”
Phá vỡ mã này
Nếu bạn kiểm tra đầu ra, bạn sẽ nhận được
Kết quả này thể hiện độ tuổi trung bình của các cầu thủ đội bóng rổ. Lưu ý cách số không xuất hiện trong tập dữ liệu nhưng mô tả chính xác độ tuổi của hầu hết người chơi Sử dụng mean() từ Mô-đun thống kê PythonTính toán các biện pháp của xu hướng trung tâm là một hoạt động phổ biến cho hầu hết các nhà phát triển. Đó là bởi vì mô-đun thống kê của Python cung cấp các hàm đa dạng để tính toán chúng, cùng với các chủ đề thống kê cơ bản khác Vì nó là một phần của thư viện chuẩn Python nên bạn sẽ không cần cài đặt bất kỳ gói bên ngoài nào với PIP Đây là cách bạn sử dụng mô-đun này
Trong đoạn mã trên, bạn chỉ cần nhập hàm mean() từ mô-đun thống kê và chuyển tập dữ liệu cho nó làm đối số. Điều này sẽ trả về kết quả giống như chức năng tùy chỉnh mà chúng tôi đã xác định trong phần trước
Bây giờ bạn đã hiểu rõ khái niệm về giá trị trung bình, hãy tiếp tục với phép đo trung bình Tìm trung vị trong PythonTrung vị là giá trị ở giữa của một tập dữ liệu được sắp xếp. Nó được sử dụng — một lần nữa — để cung cấp giá trị “điển hình” của một quần thể xác định Trong lập trình, chúng ta có thể định nghĩa trung vị là giá trị phân tách một chuỗi thành hai phần — Nửa dưới và nửa trên — Để tính trung bình, trước tiên, chúng ta cần sắp xếp tập dữ liệu. Chúng ta có thể làm điều này bằng thuật toán sắp xếp hoặc sử dụng hàm tích hợp sorted(). Bước thứ hai là xác định xem độ dài tập dữ liệu là số lẻ hay số chẵn. Tùy thuộc vào điều này một số quá trình sau đây
Tiếp tục với tập dữ liệu về đội bóng rổ của chúng ta, hãy tính chiều cao trung bình của các cầu thủ theo cm
Như bạn có thể thấy, vì độ dài tập dữ liệu là số lẻ nên chúng ta có thể lấy giá trị ở giữa làm trung vị. Tuy nhiên, điều gì sẽ xảy ra nếu một người chơi vừa nghỉ hưu? Chúng ta sẽ cần tính trung bình lấy hai giá trị ở giữa của tập dữ liệu
Tạo một chức năng trung bình tùy chỉnhHãy triển khai khái niệm trên thành một hàm Python Hãy nhớ ba bước chúng ta cần làm theo để lấy trung vị của tập dữ liệu
Điều đó sẽ dẫn đến chức năng sau ________số 8In kết quả của bộ dữ liệu của chúng tôi
đầu ra 0Lưu ý cách chúng tôi tạo biến dữ liệu trỏ đến cơ sở dữ liệu đã sắp xếp khi bắt đầu hàm. Mặc dù các danh sách trên đã được sắp xếp, nhưng chúng tôi muốn tạo một hàm có thể sử dụng lại, do đó, việc sắp xếp tập dữ liệu mỗi khi hàm được gọi Chỉ mục lưu trữ giá trị ở giữa — hoặc giá trị ở giữa — của tập dữ liệu, bằng cách sử dụng toán tử chia số nguyên. Chẳng hạn, nếu chúng ta chuyển danh sách “pythonic_machine_heights” thì nó sẽ có giá trị là 4
Sau đó, chúng tôi kiểm tra xem độ dài của tập dữ liệu có phải là số lẻ hay không bằng cách so sánh kết quả của phép toán modulo với bất kỳ giá trị nào khác 0. Nếu điều kiện là đúng, chẳng hạn, chúng tôi trả về phần tử ở giữa với danh sách “pythonic_machine_heights” 1Mặt khác, nếu tập dữ liệu là số chẵn, chúng tôi trả về tổng của các giá trị ở giữa chia cho hai. Lưu ý rằng data[index -1] cung cấp cho chúng tôi điểm giữa dưới của tập dữ liệu, trong khi data[index] cung cấp cho chúng tôi điểm giữa trên Sử dụng median() từ Python Statistic ModuleCách này đơn giản hơn nhiều vì chúng tôi đang sử dụng một chức năng đã tồn tại từ mô-đun thống kê Cá nhân tôi, nếu có thứ gì đó đã được xác định sẵn cho tôi, tôi sẽ sử dụng nó vì nguyên tắc KHÔ —Không lặp lại chính mình — (trong trường hợp này, không lặp lại mã của người khác) Bạn có thể tính giá trị trung bình của các bộ dữ liệu trước đó bằng đoạn mã sau 2đầu ra 0Tính toán chế độ trong PythonChế độ là giá trị thường xuyên nhất trong tập dữ liệu. Chúng ta có thể coi đó là nhóm "nổi tiếng" của một trường học, có thể đại diện cho một tiêu chuẩn cho tất cả học sinh Một ví dụ về chế độ có thể là doanh số hàng ngày của một cửa hàng công nghệ. Chế độ của tập dữ liệu đó sẽ là sản phẩm được bán nhiều nhất trong một ngày cụ thể 4Như bạn có thể hiểu, chế độ của tập dữ liệu trên là “máy tính xách tay” vì nó là giá trị thường xuyên nhất trong danh sách
Hãy phân tích doanh số bán hàng của một ngày khác 5Bộ dữ liệu trên có hai chế độ. "chuột" và "tai nghe" vì cả hai đều có tần số là hai. Điều này có nghĩa là nó là một bộ dữ liệu đa phương thức Điều gì sẽ xảy ra nếu chúng ta không thể tìm thấy chế độ trong tập dữ liệu, như tập dữ liệu bên dưới? 6Đây được gọi là phân phối đồng đều, về cơ bản, nó có nghĩa là không có chế độ nào trong tập dữ liệu Bây giờ bạn đã nắm bắt nhanh về khái niệm chế độ, hãy tính toán nó bằng Python Tạo chức năng Chế độ tùy chỉnhChúng ta có thể coi tần suất của một giá trị là một cặp khóa-giá trị, hay nói cách khác là một từ điển Python Tóm tắt lại phép loại suy bóng rổ, chúng ta có thể sử dụng hai bộ dữ liệu để làm việc với. Điểm mỗi trận đấu và tài trợ giày thể thao của một số người chơi Để tìm chế độ trước tiên, chúng ta cần tạo một từ điển tần số với từng giá trị có trong tập dữ liệu, sau đó lấy tần số tối đa và trả về tất cả các phần tử có tần số đó Hãy dịch mã này thành mã 7Kiểm tra kết quả chuyển hai danh sách dưới dạng đối số 8đầu ra 9Như bạn có thể thấy, câu lệnh in đầu tiên cho chúng ta một chế độ duy nhất, trong khi câu lệnh in thứ hai trả về nhiều chế độ Giải thích sâu hơn đoạn mã trên
Lưu ý tầm quan trọng của việc đặt tên biến để viết mã có thể đọc được Sử dụng mode() và multimode() từ Python Statistic ModuleMột lần nữa, mô-đun thống kê cung cấp cho chúng ta một cách nhanh chóng để thực hiện các thao tác thống kê cơ bản Chúng ta có thể sử dụng hai chức năng. chế độ() và đa chế độ() 0Đoạn mã trên nhập cả hai chức năng và xác định bộ dữ liệu mà chúng tôi đang làm việc với Ở đây có sự khác biệt nhỏ. Hàm mode() trả về chế độ đầu tiên mà nó gặp phải, trong khi hàm multimode() trả về một danh sách có các giá trị thường xuyên nhất trong tập dữ liệu Do đó, chúng ta có thể nói hàm tùy chỉnh mà chúng ta đã xác định thực sự là một hàm multimode() 1đầu ra 2
Sử dụng hàm multimode() 3đầu ra 9Tóm lạiXin chúc mừng. Nếu bạn đã theo dõi đến đây, thì bạn đã học cách tính giá trị trung bình, trung vị và mốt, các phép đo xu hướng trung tâm chính Mặc dù bạn có thể xác định các hàm tùy chỉnh của mình để tìm giá trị trung bình, trung vị và chế độ, nhưng bạn nên sử dụng mô-đun thống kê vì đây là một phần của thư viện chuẩn và bạn không cần cài đặt gì để bắt đầu sử dụng mô-đun này Chế độ thống kê trong python là gì?Số liệu thống kê. phương thức mode() tính toán chế độ (xu hướng trung tâm) của tập dữ liệu số hoặc danh nghĩa đã cho .
Công thức tính mode trong thống kê là gì?Trong thống kê, công thức mode được định nghĩa là công thức tính toán mode của một tập hợp dữ liệu nhất định. Chế độ đề cập đến giá trị xảy ra lặp lại trong một tập hợp nhất định và chế độ khác nhau đối với các tập dữ liệu được nhóm và chưa được nhóm. Chế độ = L+h(fm−f1)(fm−f1)−(fm−f2) L + h ( f m − f 1 ) ( f m − f 1 ) − ( f m − f |