Bootstrapping is any test or metric that uses random sampling with replacement (e.g. mimicking the sampling process), and falls under the broader class of resampling methods. Bootstrapping assigns measures of accuracy (bias, variance, confidence intervals, prediction error, etc.) to sample estimates.[1][2] This technique allows estimation of the sampling distribution of almost any statistic using random sampling methods.[3][4] Show
Bootstrapping estimates the properties of an estimand (such as its variance) by measuring those properties when sampling from an approximating distribution. One standard choice for an approximating distribution is the empirical distribution function of the observed data. In the case where a set of observations can be assumed to be from an independent and identically distributed population, this can be implemented by constructing a number of resamples with replacement, of the observed data set (and of equal size to the observed data set). It may also be used for constructing hypothesis tests. It is often used as an alternative to statistical inference based on the assumption of a parametric model when that assumption is in doubt, or where parametric inference is impossible or requires complicated formulas for the calculation of standard errors. History[edit][edit]The bootstrap was published by Bradley Efron in "Bootstrap methods: another look at the jackknife" (1979),[5][6][7] inspired by earlier work on the jackknife.[8][9][10] Improved estimates of the variance were developed later.[11][12] A Bayesian extension was developed in 1981.[13] The bias-corrected and accelerated (BCa) bootstrap was developed by Efron in 1987,[14] and the ABC procedure in 1992.[15] Approach[edit][edit]The basic idea of bootstrapping is that inference about a population from sample data (sample → population) can be modeled by resampling the sample data and performing inference about a sample from resampled data (resampled → sample). As the population is unknown, the true error in a sample statistic against its population value is unknown. In bootstrap-resamples, the 'population' is in fact the sample, and this is known; hence the quality of inference of the 'true' sample from resampled data (resampled → sample) is measurable. More formally, the bootstrap works by treating inference of the true probability distribution J, given the original data, as being analogous to an inference of the empirical distribution Ĵ, given the resampled data. The accuracy of inferences regarding Ĵ using the resampled data can be assessed because we know Ĵ. If Ĵ is a reasonable approximation to J, then the quality of inference on J can in turn be inferred. As an example, assume we are interested in the average (or mean) height of people worldwide. We cannot measure all the people in the global population, so instead, we sample only a tiny part of it, and measure that. Assume the sample is of size N; that is, we measure the heights of N individuals. From that single sample, only one estimate of the mean can be obtained. In order to reason about the population, we need some sense of the variability of the mean that we have computed. The simplest bootstrap method involves taking the original data set of heights, and, using a computer, sampling from it to form a new sample (called a 'resample' or bootstrap sample) that is also of size N. The bootstrap sample is taken from the original by using sampling with replacement (e.g. we might 'resample' 5 times from [1,2,3,4,5] and get [2,5,4,4,1]), so, assuming N is sufficiently large, for all practical purposes there is virtually zero probability that it will be identical to the original "real" sample. This process is repeated a large number of times (typically 1,000 or 10,000 times), and for each of these bootstrap samples, we compute its mean (each of these is called a "bootstrap estimate"). We now can create a histogram of bootstrap means. This histogram provides an estimate of the shape of the distribution of the sample mean from which we can answer questions about how much the mean varies across samples. (The method here, described for the mean, can be applied to almost any other statistic or estimator.) Discussion[edit][edit]Advantages[edit][edit]A great advantage of bootstrap is its simplicity. It is a straightforward way to derive estimates of standard errors and confidence intervals for complex estimators of the distribution, such as percentile points, proportions, odds ratio, and correlation coefficients. However, despite its simplicity, bootstrapping can be applied to complex sampling designs (e.g. for population divided into s strata with ns observations per strata, bootstrapping can be applied for each strata).[16] Bootstrap is also an appropriate way to control and check the stability of the results. Although for most problems it is impossible to know the true confidence interval, bootstrap is asymptotically more accurate than the standard intervals obtained using sample variance and assumptions of normality.[17] Bootstrapping is also a convenient method that avoids the cost of repeating the experiment to get other groups of sample data. Disadvantages[edit][edit]Bootstrapping phụ thuộc rất nhiều vào công cụ ước tính được sử dụng và mặc dù sử dụng bootstrapping đơn giản, không biết gì sẽ không phải lúc nào cũng mang lại kết quả có giá trị không có triệu chứng và có thể dẫn đến sự không nhất quán. [18] Mặc dù bootstrapping là (trong một số điều kiện) nhất quán về mặt đối xứng, nhưng nó không cung cấp bảo đảm mẫu hữu hạn chung. Kết quả có thể phụ thuộc vào mẫu đại diện. Sự đơn giản rõ ràng có thể che giấu thực tế là các giả định quan trọng đang được thực hiện khi thực hiện phân tích bootstrap (ví dụ: tính độc lập của các mẫu hoặc đủ lớn với kích thước mẫu) trong đó những điều này sẽ được nêu chính thức hơn trong các phương pháp khác. Ngoài ra, bootstrapping có thể tốn thời gian và không có nhiều phần mềm có sẵn để bootstrapping vì rất khó để tự động hóa bằng cách sử dụng các gói máy tính thống kê truyền thống. [16] Recommendations[edit][edit]Các học giả đã khuyến nghị nhiều mẫu bootstrap hơn vì sức mạnh tính toán có sẵn đã tăng lên. Nếu kết quả có thể có hậu quả trong thế giới thực đáng kể, thì người ta nên sử dụng càng nhiều mẫu càng hợp lý, với khả năng tính toán và thời gian tính toán có sẵn. Tăng số lượng mẫu không thể tăng lượng thông tin trong dữ liệu gốc; Nó chỉ có thể làm giảm các tác động của các lỗi lấy mẫu ngẫu nhiên có thể phát sinh từ chính quy trình bootstrap. Hơn nữa, có bằng chứng cho thấy số lượng mẫu lớn hơn 100 dẫn đến những cải tiến không đáng kể trong việc ước tính các lỗi tiêu chuẩn. [19] Trên thực tế, theo nhà phát triển ban đầu của phương pháp bootstrapping, thậm chí đặt số lượng mẫu ở mức 50 có thể dẫn đến ước tính lỗi tiêu chuẩn khá tốt. [20] Adèr et al. Đề xuất quy trình bootstrap cho các tình huống sau: [21]
Tuy nhiên, Athreya đã chỉ ra [22] rằng nếu một người thực hiện một bootstrap ngây thơ trên mẫu có nghĩa là khi dân số cơ bản thiếu phương sai hữu hạn (ví dụ, phân phối luật điện), thì phân phối bootstrap sẽ không hội tụ đến cùng giới hạn với Mẫu trung bình. Do đó, khoảng tin cậy trên cơ sở mô phỏng Monte Carlo của bootstrap có thể gây hiểu lầm. Athreya tuyên bố rằng "trừ khi người ta chắc chắn một cách hợp lý rằng phân phối cơ bản không có đuôi nặng, người ta nên ngần ngại sử dụng bootstrap ngây thơ". Các loại sơ đồ bootstrap [Chỉnh sửa][edit]Trong các vấn đề đơn biến, thường có thể chấp nhận lấy mẫu các quan sát riêng lẻ bằng cách thay thế ("Trường hợp tái mẫu" bên dưới) không giống như mẫu phụ, trong đó lấy mẫu lại không thay thế và có giá trị trong điều kiện yếu hơn nhiều so với bootstrap. Trong các mẫu nhỏ, một cách tiếp cận bootstrap tham số có thể được ưu tiên. Đối với các vấn đề khác, một bootstrap mượt mà có thể sẽ được ưu tiên. Đối với các vấn đề hồi quy, nhiều lựa chọn thay thế khác có sẵn. [1] Trường hợp tái mẫu [Chỉnh sửa][edit]Bootstrap thường hữu ích để ước tính phân phối thống kê (ví dụ: trung bình, phương sai) mà không sử dụng các giả định quy tắc (theo yêu cầu, ví dụ, đối với thống kê z hoặc thống kê T). Cụ thể, bootstrap rất hữu ích khi không có hình thức phân tích hoặc lý thuyết tiệm cận (ví dụ: định lý giới hạn trung tâm áp dụng) để giúp ước tính phân phối các thống kê quan tâm. Điều này là do các phương pháp bootstrap có thể áp dụng cho hầu hết các đại lượng ngẫu nhiên, ví dụ: tỷ lệ phương sai và giá trị trung bình. Có ít nhất hai cách thực hiện lại trường hợp lấy mẫu.
Ước tính phân phối trung bình mẫu [chỉnh sửa][edit]Hãy xem xét một thí nghiệm lật tiền. Chúng tôi lật đồng xu và ghi lại xem nó có đáp xuống đầu hay đuôi không. Đặt x = x1, x2, xông, x10 là 10 quan sát từ thí nghiệm. XI = 1 nếu lật đầu và 0. Bằng cách gọi giả định rằng trung bình của các lật đồng xu thường được phân phối, chúng ta có thể sử dụng thống kê T để ước tính phân phối của giá trị trung bình mẫu,X = x1, x2, …, x10 be 10 observations from the experiment. xi = 1 if the i th flip lands heads, and 0 otherwise. By invoking the assumption that the average of the coin flips is normally distributed, we can use the t-statistic to estimate the distribution of the sample mean, Một giả định bình thường như vậy có thể được chứng minh như là một xấp xỉ phân phối của từng lần lật đồng xu hoặc như là một xấp xỉ phân phối trung bình của một số lượng lớn các đồng xu. Cái trước là một xấp xỉ kém vì sự phân phối thực sự của lật đồng xu là Bernoulli thay vì bình thường. Cái sau là một xấp xỉ hợp lệ trong các mẫu lớn vô hạn do định lý giới hạn trung tâm. Tuy nhiên, nếu chúng ta chưa sẵn sàng để thực hiện một sự biện minh như vậy, thì chúng ta có thể sử dụng bootstrap thay thế. Sử dụng việc lấy mẫu trường hợp, chúng ta có thể rút ra sự phân phối của. Trước tiên chúng tôi lấy mẫu lại dữ liệu để lấy mẫu Bootstrap. Một ví dụ về mẫu lại đầu tiên có thể trông giống như x1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9 này. Có một số bản sao kể từ khi một mẫu Bootstrap xuất phát từ việc lấy mẫu với sự thay thế từ dữ liệu. Ngoài ra, số lượng điểm dữ liệu trong một mẫu lại bootstrap bằng số lượng điểm dữ liệu trong các quan sát ban đầu của chúng tôi. Sau đó, chúng tôi tính toán giá trị trung bình của mẫu lại này và có được giá trị trung bình bootstrap đầu tiên: 1*. Chúng tôi lặp lại quá trình này để có được mẫu thứ hai x2* và tính toán trung bình bootstrap thứ hai μ2*. Nếu chúng ta lặp lại điều này 100 lần, thì chúng ta có μ1*, μ2*, ..., μ100*. Điều này thể hiện sự phân phối bootstrap thực nghiệm của trung bình mẫu. Từ phân phối thực nghiệm này, người ta có thể rút ra khoảng tin cậy bootstrap cho mục đích kiểm tra giả thuyết.. We first resample the data to obtain a bootstrap resample. An example of the first resample might look like this X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. There are some duplicates since a bootstrap resample comes from sampling with replacement from the data. Also the number of data points in a bootstrap resample is equal to the number of data points in our original observations. Then we compute the mean of this resample and obtain the first bootstrap mean: μ1*. We repeat this process to obtain the second resample X2* and compute the second bootstrap mean μ2*. If we repeat this 100 times, then we have μ1*, μ2*, ..., μ100*. This represents an empirical bootstrap distribution of sample mean. From this empirical distribution, one can derive a bootstrap confidence interval for the purpose of hypothesis testing. Regression[edit][edit]Trong các vấn đề hồi quy, trường hợp lấy mẫu lại đề cập đến sơ đồ đơn giản của việc lấy mẫu lại các trường hợp riêng lẻ - thường là các hàng của một tập dữ liệu. Đối với các vấn đề hồi quy, miễn là tập dữ liệu khá lớn, sơ đồ đơn giản này thường được chấp nhận. [24] [25] [26] Tuy nhiên, phương pháp này được mở ra cho những lời chỉ trích [cần trích dẫn]. [16]citation needed].[16] Trong các vấn đề hồi quy, các biến giải thích thường được cố định hoặc ít nhất là được quan sát bằng cách kiểm soát nhiều hơn biến phản hồi. Ngoài ra, phạm vi của các biến giải thích xác định thông tin có sẵn từ chúng. Do đó, để lấy mẫu lại các trường hợp có nghĩa là mỗi mẫu bootstrap sẽ mất một số thông tin. Như vậy, các thủ tục bootstrap thay thế nên được xem xét. Bayesian Bootstrap [Chỉnh sửa][edit]Bootstrapping có thể được giải thích trong khung Bayes bằng cách sử dụng sơ đồ tạo ra các tập dữ liệu mới thông qua việc xem lại dữ liệu ban đầu. Đưa ra một tập hợp các điểm dữ liệu, trọng số được gán cho điểm dữ liệu trong một tập dữ liệu mới là, trong đó danh sách các số ngẫu nhiên được phân phối đồng đều từ thấp đến cao, trước 0 và được thành công bởi 1. Phân phối của tham số được suy ra từ việc xem xét nhiều bộ dữ liệu như vậy sau đó có thể hiểu được là phân phối sau trên tham số đó. [27] data points, the weighting assigned to data point in a new data set is , where is a low-to-high ordered list of uniformly distributed random numbers on , preceded by 0 and succeeded by 1. The distributions of a parameter inferred from considering many such data sets are then interpretable as posterior distributions on that parameter.[27] Bootstrap mượt mà [Chỉnh sửa][edit]Theo sơ đồ này, một lượng nhỏ (thường được phân phối bình thường) nhiễu ngẫu nhiên tập trung bằng 0 được thêm vào mỗi quan sát được ghép lại. Điều này tương đương với việc lấy mẫu từ ước tính mật độ hạt nhân của dữ liệu. Giả sử k là hàm mật độ hạt nhân đối xứng với phương sai đơn vị. Công cụ ước tính hạt nhân tiêu chuẩn của IS of is [28]tham số làm mịn ở đâu. Và công cụ ước tính chức năng phân phối tương ứng là is the smoothing parameter. And the corresponding distribution function estimator is [28]Bootstrap tham số [Chỉnh sửa][edit]Dựa trên giả định rằng tập dữ liệu gốc là một thực hiện một mẫu ngẫu nhiên từ phân phối của một loại tham số cụ thể, trong trường hợp này, một mô hình tham số được trang bị theo tham số, thường là khả năng tối đa và các mẫu của các số ngẫu nhiên được rút ra từ Mô hình phù hợp này. Thông thường mẫu được vẽ có cùng kích thước mẫu với dữ liệu gốc. Sau đó, ước tính của hàm gốc F có thể được viết là. Quá trình lấy mẫu này được lặp lại nhiều lần như đối với các phương pháp bootstrap khác. Xem xét trung bình mẫu trung tâm trong trường hợp này, hàm phân phối ban đầu mẫu ngẫu nhiên được thay thế bằng mẫu ngẫu nhiên bootstrap với hàm và phân phối xác suất của được xấp xỉ bởi, trong đó, đó là kỳ vọng tương ứng. [29] của một mô hình tham số ở giai đoạn lấy mẫu của phương pháp bootstrap dẫn đến các quy trình khác với các quy trình thu được bằng cách áp dụng lý thuyết thống kê cơ bản để suy luận cho cùng một mô hình.. This sampling process is repeated many times as for other bootstrap methods. Considering the centered sample mean in this case, the random sample original distribution function is replaced by a bootstrap random sample with function , and the probability distribution of is approximated by that of , where , which is the expectation corresponding to .[29] The use of a parametric model at the sampling stage of the bootstrap methodology leads to procedures which are different from those obtained by applying basic statistical theory to inference for the same model. Việc lấy mẫu lại phần dư [Chỉnh sửa][edit]Một cách tiếp cận khác để bootstrapping trong các vấn đề hồi quy là lấy mẫu lại dư. Phương pháp tiến hành như sau.
Sơ đồ này có lợi thế là nó giữ lại thông tin trong các biến giải thích. Tuy nhiên, một câu hỏi đặt ra là phần dư để lấy mẫu lại. Phần dư thô là một lựa chọn; Một cái khác là phần dư sinh viên (trong hồi quy tuyến tính). Mặc dù có những lập luận ủng hộ việc sử dụng phần dư sinh viên; Trong thực tế, nó thường tạo ra rất ít sự khác biệt, và thật dễ dàng để so sánh kết quả của cả hai chương trình. Gaussian Process Repression Bootstrap [Chỉnh sửa][edit]Khi dữ liệu có mối tương quan theo thời gian, bootstrapping đơn giản sẽ phá hủy các mối tương quan vốn có. Phương pháp này sử dụng hồi quy quy trình Gaussian (GPR) để phù hợp với mô hình xác suất mà từ đó sao chép có thể được rút ra. GPR là phương pháp hồi quy phi tuyến tính của Bayes. Một quy trình Gaussian (GP) là một tập hợp các biến ngẫu nhiên, bất kỳ số lượng hữu hạn nào có phân phối Gaussian (bình thường) chung. Một GP được xác định bởi hàm trung bình và hàm hiệp phương sai, trong đó chỉ định các vectơ trung bình và ma trận hiệp phương sai cho mỗi bộ sưu tập hữu hạn của các biến ngẫu nhiên. [30] Mô hình hồi quy: là một thuật ngữ tiếng ồn.Quy trình Gaussian trước: Đối với bất kỳ bộ sưu tập các biến hữu hạn nào, x1, & nbsp; ..., & nbsp; xn, các đầu ra chức năng được phân phối cùng với một Gaussian đa biến với ma trận trung bình và hiệp phương sai are jointly distributed according to a multivariate Gaussian with mean and covariance matrix Giả sử sau đó, Then , ở đâu và là hàm delta kronecker tiêu chuẩn. [30], and is the standard Kronecker delta function.[30] Quy trình Gaussian sau: Theo GP trước, chúng ta có thể nhận được Thìở đâu và and Đặt x1*, ..., xs* là một bộ sưu tập các biến hữu hạn khác, rõ ràng là Thìở đâu và, , Đặt x1*, ..., xs* là một bộ sưu tập các biến hữu hạn khác, rõ ràng là ở đâu , ,, , , and is identity matrix.[30] Theo các phương trình trên, các đầu ra Y cũng được phân phối cùng theo một Gaussian đa biến. Như vậy,[edit]ở đâu ,, và là ma trận nhận dạng. [30] based on Bootstrap hoang dã [Chỉnh sửa] with mean 0 and variance 1. For most distributions of (but not Mammen's), this method assumes that the 'true' residual distribution is symmetric and can offer advantages over simple residual sampling for smaller sample sizes. Different forms are used for the random variable , such as
Khoảng, phân phối của Mammen là:[edit]Hoặc phân phối đơn giản hơn, được liên kết với phân phối Rademacher: Khối Bootstrap [Chỉnh sửa][edit]Khối Bootstrap được sử dụng khi dữ liệu hoặc lỗi trong mô hình, có tương quan. Trong trường hợp này, một trường hợp đơn giản hoặc thay đổi lại dư sẽ thất bại, vì nó không thể sao chép mối tương quan trong dữ liệu. Khối Bootstrap cố gắng tái tạo mối tương quan bằng cách lấy mẫu lại bên trong các khối dữ liệu (xem chặn (thống kê)). Khối Bootstrap đã được sử dụng chủ yếu với dữ liệu tương quan theo thời gian (tức là chuỗi thời gian) nhưng cũng có thể được sử dụng với dữ liệu tương quan trong không gian hoặc giữa các nhóm (được gọi là dữ liệu cụm). Chuỗi thời gian: Khối Bootstrap đơn giản [Chỉnh sửa][edit]Trong bootstrap khối (đơn giản), biến quan tâm được chia thành các khối không chồng chéo. Chuỗi thời gian: Di chuyển Block Bootstrap [Chỉnh sửa] Chuỗi thời gian: entropy bootstrap tối đa [Chỉnh sửa][edit]Vinod (2006), [35] trình bày một phương pháp dữ liệu chuỗi thời gian bootstraps sử dụng các nguyên tắc entropy tối đa thỏa mãn định lý ergodic với các ràng buộc bảo tồn trung bình và bảo quản khối lượng. Có một gói R, moboot, [36] sử dụng phương pháp, có các ứng dụng trong kinh tế lượng và khoa học máy tính.meboot,[36] that utilizes the method, which has applications in econometrics and computer science. Dữ liệu cụm: Khối Bootstrap [Chỉnh sửa][edit]Dữ liệu cụm mô tả dữ liệu trong đó nhiều quan sát trên mỗi đơn vị được quan sát. Điều này có thể là quan sát nhiều công ty ở nhiều tiểu bang hoặc quan sát sinh viên trong nhiều lớp học. Trong những trường hợp như vậy, cấu trúc tương quan được đơn giản hóa và người ta thường đưa ra giả định rằng dữ liệu có mối tương quan trong một nhóm/cụm, nhưng độc lập giữa các nhóm/cụm. Cấu trúc của bootstrap khối dễ dàng thu được (trong đó khối chỉ tương ứng với nhóm) và thường chỉ các nhóm được ghép lại, trong khi các quan sát trong các nhóm không thay đổi. Cameron et al. (2008) thảo luận về điều này đối với các lỗi phân cụm trong hồi quy tuyến tính. [37] Phương pháp cải thiện hiệu quả tính toán [Chỉnh sửa][edit]Bootstrap là một kỹ thuật mạnh mẽ mặc dù có thể yêu cầu các tài nguyên điện toán đáng kể trong cả thời gian và bộ nhớ. Một số kỹ thuật đã được phát triển để giảm gánh nặng này. Chúng thường có thể được kết hợp với nhiều loại chương trình bootstrap khác nhau và các lựa chọn thống kê khác nhau. Poisson Bootstrap [Chỉnh sửa][edit]Biểu đồ hiển thị sự hội tụ của phân phối nhị thức cho Poisson khi các tham số nhị thức là n*p = 1 và n phát triển Bootstrap thông thường yêu cầu lựa chọn ngẫu nhiên các yếu tố N từ một danh sách, tương đương với việc vẽ từ phân phối đa hình. Điều này có thể yêu cầu một số lượng lớn các đường truyền qua dữ liệu và rất khó khăn để chạy các tính toán này song song. Đối với các giá trị lớn của N, Poisson Bootstrap là một phương pháp hiệu quả để tạo các bộ dữ liệu bootstrapping. [38] Khi tạo một mẫu bootstrap duy nhất, thay vì vẽ ngẫu nhiên từ dữ liệu mẫu với sự thay thế, mỗi điểm dữ liệu được gán một trọng lượng ngẫu nhiên được phân phối theo phân phối Poisson với. Đối với dữ liệu mẫu lớn, điều này sẽ gần đúng lấy mẫu ngẫu nhiên với sự thay thế. Điều này là do xấp xỉ sau:. For large sample data, this will approximate random sampling with replacement. This is due to the following approximation: Phương pháp này cũng cho vay tốt để phát trực tuyến dữ liệu và các bộ dữ liệu đang phát triển, vì tổng số mẫu không cần phải biết trước khi bắt đầu lấy các mẫu bootstrap. Đối với N đủ lớn, kết quả tương đối giống với ước tính bootstrap ban đầu. [39] Một cách để cải thiện Bootstrap Poisson, được gọi là "Bootstrap tuần tự", là bằng cách lấy các mẫu đầu tiên để tỷ lệ của các giá trị duy nhất là ≈0.632 của kích thước mẫu ban đầu n. Điều này cung cấp một phân phối với các đặc điểm thực nghiệm chính nằm trong khoảng cách. [40] Điều tra thực nghiệm đã cho thấy phương pháp này có thể mang lại kết quả tốt. [41] Điều này có liên quan đến phương pháp bootstrap giảm. [42].[40] Empirical investigation has shown this method can yield good results.[41] This is related to the reduced bootstrap method.[42] Túi Bootstraps nhỏ [Chỉnh sửa][edit]Đối với các bộ dữ liệu lớn, thường bị cấm tính toán để giữ tất cả các dữ liệu mẫu trong bộ nhớ và lấy mẫu từ dữ liệu mẫu. Túi bootstraps nhỏ (BLB) [43] cung cấp một phương pháp tổng hợp dữ liệu trước khi bootstrapping để giảm các ràng buộc tính toán. Điều này hoạt động bằng cách phân vùng dữ liệu được đặt thành các thùng có kích thước bằng nhau và tổng hợp dữ liệu trong mỗi thùng. Bộ dữ liệu được tổng hợp trước này trở thành dữ liệu mẫu mới để vẽ các mẫu có thay thế. Phương pháp này tương tự như bootstrap khối, nhưng các động lực và định nghĩa của các khối rất khác nhau. Theo một số giả định nhất định, phân phối mẫu sẽ xấp xỉ toàn bộ kịch bản bootstrapping. Một ràng buộc là số lượng xô trong đó và các tác giả đề xuất sử dụng như một giải pháp chung. equal-sized buckets and aggregating the data within each bucket. This pre-aggregated data set becomes the new sample data over which to draw samples with replacement. This method is similar to the Block Bootstrap, but the motivations and definitions of the blocks are very different. Under certain assumptions, the sample distribution should approximate the full bootstrapped scenario. One constraint is the number of buckets where and the authors recommend usage of as a general solution. Lựa chọn thống kê [Chỉnh sửa][edit]Phân phối bootstrap của công cụ ước tính điểm của tham số dân số đã được sử dụng để tạo ra khoảng tin cậy bootstrapping cho giá trị thực của tham số nếu tham số có thể được viết như là một hàm của phân phối dân số. Các thông số dân số được ước tính với nhiều công cụ ước tính điểm. Các gia đình phổ biến của các công cụ tham gia điểm bao gồm các công cụ ước tính biến thể tối thiểu trung bình, ước tính không liên quan trung bình, ước tính Bayes (ví dụ, chế độ phân phối sau, trung bình, trung bình) và ước tính khả năng tối đa. Một công cụ ước tính điểm Bayes và một công cụ ước tính khả năng tối đa có hiệu suất tốt khi kích thước mẫu là vô hạn, theo lý thuyết tiệm cận. Đối với các vấn đề thực tế với các mẫu hữu hạn, các công cụ ước tính khác có thể thích hợp hơn. Lý thuyết tiệm cận cho thấy các kỹ thuật thường cải thiện hiệu suất của các công cụ ước tính bootstrapping; Sự khởi động của một công cụ ước tính khả năng tối đa thường có thể được cải thiện bằng cách sử dụng các phép biến đổi liên quan đến số lượng then chốt. [44] Có được khoảng tin cậy từ phân phối bootstrap [Chỉnh sửa][edit]Phân phối bootstrap của một công cụ tham số đã được sử dụng để tính toán khoảng tin cậy cho tham số dân số của nó. [1] Xu hướng, không đối xứng và khoảng tin cậy [Chỉnh sửa][edit]
Phương pháp cho khoảng tin cậy bootstrap [Chỉnh sửa][edit]Có một số phương pháp để xây dựng khoảng tin cậy từ phân phối bootstrap của một tham số thực:
Kiểm tra giả thuyết bootstrap [Chỉnh sửa][edit]Efron và Tibshirani [1] đề xuất thuật toán sau để so sánh các phương tiện của hai mẫu độc lập: hãy là một mẫu ngẫu nhiên từ phân phối F với giá trị trung bình mẫu và phương sai mẫu. Đặt một mẫu ngẫu nhiên độc lập khác từ phân phối g với giá trị trung bình và phương sai be a random sample from distribution F with sample mean and sample variance . Let be another, independent random sample from distribution G with mean and variance
Lặp lại 3 và 4 lần (ví dụ) để thu thập các giá trị của thống kê kiểm tra.[edit]Ước tính giá trị p như khi điều kiện là đúng và 0 nếu không.[edit]Ứng dụng ví dụ [Chỉnh sửa] Phân phối Bootstrap cho dữ liệu của Newcomb xuất hiện bên dưới. Chúng ta có thể giảm sự phân biệt của phân phối bootstrap bằng cách thêm một lượng nhỏ nhiễu ngẫu nhiên vào mỗi mẫu bootstrap. Một lựa chọn thông thường là thêm nhiễu với độ lệch chuẩn cho kích thước mẫu n; Tiếng ồn này thường được rút ra từ phân phối sinh viên-T với mức độ tự do N-1. [50] Điều này dẫn đến một công cụ ước tính xấp xỉ không phù hợp cho phương sai của giá trị trung bình mẫu. Điều này có nghĩa là các mẫu được lấy từ phân phối bootstrap sẽ có phương sai, trung bình, bằng phương sai của tổng dân số. for a sample size n; this noise is often drawn from a Student-t distribution with n-1 degrees of freedom.[50] This results in an approximately-unbiased estimator for the variance of the sample mean. This means that samples taken from the bootstrap distribution will have a variance which is, on average, equal to the variance of the total population. Biểu đồ của phân phối bootstrap và phân phối bootstrap trơn tru xuất hiện dưới đây. Phân phối bootstrap của Mẫu-Median chỉ có một số lượng nhỏ các giá trị. Phân phối bootstrap được làm mịn có sự hỗ trợ phong phú hơn. Tuy nhiên, lưu ý rằng liệu quy trình bootstrap được làm mịn hay tiêu chuẩn là thuận lợi là từng trường hợp cụ thể và được chứng minh là phụ thuộc vào cả chức năng phân phối cơ bản và vào số lượng được ước tính. [51] Trong ví dụ này, khoảng thời gian tin cậy 95% (phần trăm) cho trung bình dân số là (26, 28.5), gần với khoảng thời gian (25,98, 28,46) cho bootstrap được làm mịn. Liên quan đến các phương pháp khác để suy luận [chỉnh sửa][edit]Mối quan hệ với các phương pháp lấy mẫu khác [Chỉnh sửa][edit]Bootstrap được phân biệt từ:
Để biết thêm chi tiết, hãy xem lại mẫu. Tập hợp Bootstrap (đóng gói) là một tính toán tổng hợp dựa trên các dự đoán mô hình trung bình thu được từ các mô hình được đào tạo trên nhiều mẫu bootstrap. U-statistics[edit][edit]Trong các tình huống mà một thống kê rõ ràng có thể được đưa ra để đo lường một đặc điểm cần thiết chỉ sử dụng một số lượng nhỏ, r, của các mục dữ liệu, một thống kê tương ứng dựa trên toàn bộ mẫu có thể được xây dựng. Đưa ra một thống kê mẫu R, người ta có thể tạo ra một thống kê mẫu N bằng một cái gì đó tương tự như bootstrapping (lấy trung bình của thống kê trên tất cả các mẫu con có kích thước r). Thủ tục này được biết là có một số tính chất tốt nhất định và kết quả là một điều trị U. Phương sai trung bình và mẫu mẫu của mẫu có dạng này, cho R & NBSP; = & NBSP; 1 và R & NBSP; = & NBSP; 2. Xem thêm [sửa][edit]
References[edit][edit]
Đọc thêm [Chỉnh sửa][edit]
Liên kết bên ngoài [Chỉnh sửa][edit]
Software[edit][edit]
Khi nào bạn sẽ sử dụng bài kiểm tra giả thuyết bootstrap?Các thử nghiệm bootstrap rất hữu ích khi giả thuyết thay thế không được chỉ định rõ. Trong trường hợp có giả thuyết thay thế tham số, khả năng hoặc phương pháp Bayes có thể thích hợp hơn.when the alternative hypothesis is not well specified. In cases where there is parametric alternative hypothesis, likelihood or Bayesian methods might be preferable.
Bài kiểm tra bootstrap là gì?Bootstrapping là bất kỳ thử nghiệm hoặc số liệu nào sử dụng lấy mẫu ngẫu nhiên với sự thay thế (ví dụ: bắt chước quy trình lấy mẫu) và thuộc nhóm phương pháp lấy mẫu rộng hơn.Bootstrapping gán các biện pháp chính xác (sai lệch, phương sai, khoảng tin cậy, lỗi dự đoán, v.v.) cho các ước tính mẫu.any test or metric that uses random sampling with replacement (e.g. mimicking the sampling process), and falls under the broader class of resampling methods. Bootstrapping assigns measures of accuracy (bias, variance, confidence intervals, prediction error, etc.) to sample estimates.
Mẫu bootstrap được sử dụng để làm gì?Phương pháp Bootstrap là một kỹ thuật lấy mẫu lại được sử dụng để ước tính số liệu thống kê về dân số bằng cách lấy mẫu bộ dữ liệu với sự thay thế.Nó có thể được sử dụng để ước tính số liệu thống kê tóm tắt như trung bình hoặc độ lệch chuẩn.to estimate statistics on a population by sampling a dataset with replacement. It can be used to estimate summary statistics such as the mean or standard deviation.
Bootstrapping có nghĩa là gì trong thống kê?Bootstrapping đang lấy mẫu với sự thay thế từ dữ liệu được quan sát để ước tính sự thay đổi trong một thống kê quan tâm.Xem thêm các bài kiểm tra hoán vị, một hình thức lấy mẫu liên quan.Một ứng dụng phổ biến của bootstrap là đánh giá độ chính xác của ước tính dựa trên một mẫu dữ liệu từ một dân số lớn hơn.sampling with replacement from observed data to estimate the variability in a statistic of interest. See also permutation tests, a related form of resampling. A common application of the bootstrap is to assess the accuracy of an estimate based on a sample of data from a larger population. |