Bootstrapping là một phương pháp có thể được sử dụng để xây dựng khoảng tin cậy cho một thống kê khi kích thước mẫu nhỏ và không rõ phân phối cơ bản. is a method that can be used to construct a confidence interval for a statistic when the sample size is small and the underlying distribution is unknown. Show Quy trình cơ bản cho bootstrapping như sau:
Cách dễ nhất để thực hiện bootstrapping trong Python là sử dụng chức năng bootstrap từ thư viện SCIPY.SciPy library. Ví dụ sau đây cho thấy cách sử dụng chức năng này trong thực tế. Ví dụ: Thực hiện bootstrapping trong PythonGiả sử chúng ta tạo một bộ dữ liệu trong Python chứa 15 giá trị: #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23] Chúng ta có thể sử dụng mã sau để tính khoảng tin cậy Bootstrapping 95% cho giá trị trung bình: from scipy.stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.median, confidence_level=0.95,
random_state=1, method='percentile')
#view 95% boostrapped confidence interval
print(bootstrap_ci.confidence_interval)
ConfidenceInterval(low=10.0, high=20.0)
Khoảng tin cậy khởi động 95% cho trung bình hóa ra là [10.0, 20.0].[10.0, 20.0]. Ở đây, những gì chức năng boostrap () thực sự đã làm dưới mui xe: boostrap() function actually did under the hood:
Lưu ý rằng bạn có thể tính toán khoảng tin cậy bootstrapping cho hầu hết mọi thống kê. Ví dụ: chúng ta có thể thay đổi np.median thành np.std trong hàm bootstrap () để thay vào đó tính toán khoảng tin cậy 95% cho độ lệch chuẩn:np.median to np.std within the bootstrap() function to instead calculate a 95% confidence interval for the standard deviation: from scipy.stats import bootstrap
import numpy as np
#convert array to sequence
data = (data,)
#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np.std, confidence_level=0.95,
random_state=1, method='percentile')
#view 95% boostrapped confidence interval
print(bootstrap_ci.confidence_interval)
ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)
Khoảng tin cậy bootstrapping 95% cho độ lệch chuẩn hóa ra là [3.32, 5.67].[3.32, 5.67]. Lưu ý: Đối với các ví dụ này, chúng tôi đã chọn tạo khoảng tin cậy 95%, nhưng bạn có thể thay đổi giá trị trong đối số Confidence_Level để xây dựng khoảng tin cậy có kích thước khác.: For these examples we chose to create 95% confidence intervals, but you can change the value in the confidence_level argument to construct a confidence interval of a different size. Tài nguyên bổ sungCác hướng dẫn sau đây giải thích cách thực hiện bootstrapping trong phần mềm thống kê khác: Cách thực hiện bootstrapping trong r Cách thực hiện bootstrapping in excel
BootstrappingTrong thống kê và học máy, bootstrapping là một kỹ thuật lấy mẫu lại liên quan đến việc vẽ các mẫu liên tục từ dữ liệu nguồn của chúng tôi với sự thay thế, thường để ước tính tham số dân số. Bằng cách thay thế, chúng tôi có nghĩa là cùng một điểm dữ liệu có thể được bao gồm trong bộ dữ liệu được lấy lại của chúng tôi nhiều lần. Làm thế nào để python tính toán bootstrap? Quy trình cơ bản cho bootstrapping như sau: lấy các mẫu lặp lại bằng cách thay thế từ một bộ dữ liệu nhất định. Đối với mỗi mẫu, tính toán thống kê mà bạn quan tâm. Điều này dẫn đến k ước tính khác nhau cho một thống kê nhất định, sau đó bạn có thể sử dụng Tính toán một khoảng tin cậy cho thống kê. Làm thế nào để bạn làm cho bootstrapping? Phương pháp bootstrap.
Hãy để vẽ sơ đồ phân phối các giá trị chính xác được tính toán trên các mẫu bootstrap.
Bây giờ chúng ta có thể lấy độ chính xác trung bình trên các mẫu bootstrap và tính toán khoảng tin cậy. Có một số cách tiếp cận khác nhau để tính toán khoảng tin cậy. Chúng tôi sẽ sử dụng phương pháp phần trăm, một cách tiếp cận đơn giản hơn không yêu cầu phân phối lấy mẫu của chúng tôi phải được phân phối bình thường. Phương pháp phần trămĐối với khoảng tin cậy 95%, chúng ta có thể tìm thấy số liệu thống kê bootstrap 95%. Điều này được gọi là phương pháp phần trăm. Đây là phương pháp ưa thích vì nó hoạt động bất kể hình dạng của phân phối lấy mẫu. Bất kể hình dạng của phân phối lấy mẫu bootstrap, chúng ta có thể sử dụng phương pháp phần trăm để xây dựng khoảng tin cậy. Sử dụng phương pháp này, khoảng tin cậy 95% là phạm vi của các điểm bao gồm 95% phân phối lấy mẫu bootstrap. Chúng tôi xác định giá trị trung bình của từng mẫu, gọi nó là X̄ và tạo phân phối lấy mẫu của giá trị trung bình. Sau đó, chúng tôi lấy các phần trăm α/2 và 1 - α/2 (ví dụ: .0251000 và .9751000 = số liệu thống kê bootstrapping bootstrapping), và đây là những giới hạn tin cậy.
Khi một khoảng được tính toán, nó có thể hoặc không chứa giá trị thực của tham số chưa biết. Mức độ tin cậy 95% không * không * có nghĩa là có xác suất 95% là tham số dân số nằm trong khoảng thời gian. Khoảng tin cậy cho chúng ta biết về độ tin cậy của quy trình ước tính. 95% khoảng tin cậy được tính ở mức độ tin cậy 95% chứa giá trị thực của tham số.
Chúng ta có thể sử dụng bootstrap trong Python không?Khi lập trình trong Python, bạn thường sẽ sử dụng khung web, một cái rất phổ biến là Django. May mắn thay, có một dự án sử dụng Bootstrap ở Django. Đây là trên pypi.org vì vậy cài đặt là thói quen thường xuyên. Nhiều khả năng bạn đang chạy một môi trường ảo, kích hoạt nó và cài đặt với PIP.there is a project for using Bootstrap in Django. This is on Pypi.org so installing is the regular routine. Most likely you are running a virtual environment, activate it and install with pip.
Bootstrap có nghĩa là gì trong Python?Trong thống kê và học máy, bootstrapping là một kỹ thuật lấy mẫu lại liên quan đến việc vẽ các mẫu liên tục từ dữ liệu nguồn của chúng tôi với sự thay thế, thường để ước tính tham số dân số.Bằng cách thay thế, chúng tôi có nghĩa là cùng một điểm dữ liệu có thể được bao gồm trong bộ dữ liệu được lấy lại của chúng tôi nhiều lần.a resampling technique that involves repeatedly drawing samples from our source data with replacement, often to estimate a population parameter. By “with replacement”, we mean that the same data point may be included in our resampled dataset multiple times.
Làm thế nào để python tính toán bootstrap?Quy trình cơ bản cho bootstrapping như sau: lấy các mẫu lặp lại bằng cách thay thế từ một bộ dữ liệu nhất định. Đối với mỗi mẫu, tính toán thống kê mà bạn quan tâm. Điều này dẫn đến k ước tính khác nhau cho một thống kê nhất định, sau đó bạn có thể sử dụngTính toán một khoảng tin cậy cho thống kê.Take k repeated samples with replacement from a given dataset. For each sample, calculate the statistic you're interested in. This results in k different estimates for a given statistic, which you can then use to calculate a confidence interval for the statistic.
Làm thế nào để bạn làm cho bootstrapping?Phương pháp bootstrap.. Chọn một số mẫu bootstrap để thực hiện .. Chọn một cỡ mẫu .. Cho mỗi mẫu bootstrap.Vẽ một mẫu với sự thay thế với kích thước đã chọn.Tính toán thống kê trên mẫu .. Tính giá trị trung bình của số liệu thống kê mẫu được tính toán .. |