Hướng dẫn what is a bootstrap hypothesis test? - thử nghiệm giả thuyết bootstrap là gì?

Bootstrapping is any test or metric that uses random sampling with replacement (e.g. mimicking the sampling process), and falls under the broader class of resampling methods. Bootstrapping assigns measures of accuracy (bias, variance, confidence intervals, prediction error, etc.) to sample estimates.[1][2] This technique allows estimation of the sampling distribution of almost any statistic using random sampling methods.[3][4]

Show

Bootstrapping estimates the properties of an estimand (such as its variance) by measuring those properties when sampling from an approximating distribution. One standard choice for an approximating distribution is the empirical distribution function of the observed data. In the case where a set of observations can be assumed to be from an independent and identically distributed population, this can be implemented by constructing a number of resamples with replacement, of the observed data set (and of equal size to the observed data set).

It may also be used for constructing hypothesis tests. It is often used as an alternative to statistical inference based on the assumption of a parametric model when that assumption is in doubt, or where parametric inference is impossible or requires complicated formulas for the calculation of standard errors.

History[edit][edit]

The bootstrap was published by Bradley Efron in "Bootstrap methods: another look at the jackknife" (1979),[5][6][7] inspired by earlier work on the jackknife.[8][9][10] Improved estimates of the variance were developed later.[11][12] A Bayesian extension was developed in 1981.[13] The bias-corrected and accelerated (BCa) bootstrap was developed by Efron in 1987,[14] and the ABC procedure in 1992.[15]

Approach[edit][edit]

The basic idea of bootstrapping is that inference about a population from sample data (sample → population) can be modeled by resampling the sample data and performing inference about a sample from resampled data (resampled → sample). As the population is unknown, the true error in a sample statistic against its population value is unknown. In bootstrap-resamples, the 'population' is in fact the sample, and this is known; hence the quality of inference of the 'true' sample from resampled data (resampled → sample) is measurable.

More formally, the bootstrap works by treating inference of the true probability distribution J, given the original data, as being analogous to an inference of the empirical distribution Ĵ, given the resampled data. The accuracy of inferences regarding Ĵ using the resampled data can be assessed because we know Ĵ. If Ĵ is a reasonable approximation to J, then the quality of inference on J can in turn be inferred.

As an example, assume we are interested in the average (or mean) height of people worldwide. We cannot measure all the people in the global population, so instead, we sample only a tiny part of it, and measure that. Assume the sample is of size N; that is, we measure the heights of N individuals. From that single sample, only one estimate of the mean can be obtained. In order to reason about the population, we need some sense of the variability of the mean that we have computed. The simplest bootstrap method involves taking the original data set of heights, and, using a computer, sampling from it to form a new sample (called a 'resample' or bootstrap sample) that is also of size N. The bootstrap sample is taken from the original by using sampling with replacement (e.g. we might 'resample' 5 times from [1,2,3,4,5] and get [2,5,4,4,1]), so, assuming N is sufficiently large, for all practical purposes there is virtually zero probability that it will be identical to the original "real" sample. This process is repeated a large number of times (typically 1,000 or 10,000 times), and for each of these bootstrap samples, we compute its mean (each of these is called a "bootstrap estimate"). We now can create a histogram of bootstrap means. This histogram provides an estimate of the shape of the distribution of the sample mean from which we can answer questions about how much the mean varies across samples. (The method here, described for the mean, can be applied to almost any other statistic or estimator.)

Discussion[edit][edit]

Advantages[edit][edit]

A great advantage of bootstrap is its simplicity. It is a straightforward way to derive estimates of standard errors and confidence intervals for complex estimators of the distribution, such as percentile points, proportions, odds ratio, and correlation coefficients. However, despite its simplicity, bootstrapping can be applied to complex sampling designs (e.g. for population divided into s strata with ns observations per strata, bootstrapping can be applied for each strata).[16] Bootstrap is also an appropriate way to control and check the stability of the results. Although for most problems it is impossible to know the true confidence interval, bootstrap is asymptotically more accurate than the standard intervals obtained using sample variance and assumptions of normality.[17] Bootstrapping is also a convenient method that avoids the cost of repeating the experiment to get other groups of sample data.

Disadvantages[edit][edit]

Bootstrapping phụ thuộc rất nhiều vào công cụ ước tính được sử dụng và mặc dù sử dụng bootstrapping đơn giản, không biết gì sẽ không phải lúc nào cũng mang lại kết quả có giá trị không có triệu chứng và có thể dẫn đến sự không nhất quán. [18] Mặc dù bootstrapping là (trong một số điều kiện) nhất quán về mặt đối xứng, nhưng nó không cung cấp bảo đảm mẫu hữu hạn chung. Kết quả có thể phụ thuộc vào mẫu đại diện. Sự đơn giản rõ ràng có thể che giấu thực tế là các giả định quan trọng đang được thực hiện khi thực hiện phân tích bootstrap (ví dụ: tính độc lập của các mẫu hoặc đủ lớn với kích thước mẫu) trong đó những điều này sẽ được nêu chính thức hơn trong các phương pháp khác. Ngoài ra, bootstrapping có thể tốn thời gian và không có nhiều phần mềm có sẵn để bootstrapping vì rất khó để tự động hóa bằng cách sử dụng các gói máy tính thống kê truyền thống. [16]

Recommendations[edit][edit]

Các học giả đã khuyến nghị nhiều mẫu bootstrap hơn vì sức mạnh tính toán có sẵn đã tăng lên. Nếu kết quả có thể có hậu quả trong thế giới thực đáng kể, thì người ta nên sử dụng càng nhiều mẫu càng hợp lý, với khả năng tính toán và thời gian tính toán có sẵn. Tăng số lượng mẫu không thể tăng lượng thông tin trong dữ liệu gốc; Nó chỉ có thể làm giảm các tác động của các lỗi lấy mẫu ngẫu nhiên có thể phát sinh từ chính quy trình bootstrap. Hơn nữa, có bằng chứng cho thấy số lượng mẫu lớn hơn 100 dẫn đến những cải tiến không đáng kể trong việc ước tính các lỗi tiêu chuẩn. [19] Trên thực tế, theo nhà phát triển ban đầu của phương pháp bootstrapping, thậm chí đặt số lượng mẫu ở mức 50 có thể dẫn đến ước tính lỗi tiêu chuẩn khá tốt. [20]

Adèr et al. Đề xuất quy trình bootstrap cho các tình huống sau: [21]

  • Khi phân phối lý thuyết của một thống kê quan tâm là phức tạp hoặc chưa biết. Do quy trình bootstrapping độc lập với phân phối, nó cung cấp một phương pháp gián tiếp để đánh giá các thuộc tính của phân phối nằm dưới mẫu và các tham số quan tâm có nguồn gốc từ phân phối này.
  • Khi cỡ mẫu không đủ cho suy luận thống kê đơn giản. Nếu phân phối cơ bản là nổi tiếng, bootstrapping cung cấp một cách để giải thích các biến dạng gây ra bởi mẫu cụ thể có thể không đại diện đầy đủ cho dân số.
  • Khi tính toán công suất phải được thực hiện, và một mẫu thí điểm nhỏ có sẵn. Hầu hết các tính toán kích thước công suất và mẫu phụ thuộc rất nhiều vào độ lệch chuẩn của thống kê quan tâm. Nếu ước tính được sử dụng không chính xác, cỡ mẫu cần thiết cũng sẽ sai. Một phương pháp để có ấn tượng về biến thể của thống kê là sử dụng một mẫu phi công nhỏ và thực hiện bootstrapping trên đó để có ấn tượng về phương sai.

Tuy nhiên, Athreya đã chỉ ra [22] rằng nếu một người thực hiện một bootstrap ngây thơ trên mẫu có nghĩa là khi dân số cơ bản thiếu phương sai hữu hạn (ví dụ, phân phối luật điện), thì phân phối bootstrap sẽ không hội tụ đến cùng giới hạn với Mẫu trung bình. Do đó, khoảng tin cậy trên cơ sở mô phỏng Monte Carlo của bootstrap có thể gây hiểu lầm. Athreya tuyên bố rằng "trừ khi người ta chắc chắn một cách hợp lý rằng phân phối cơ bản không có đuôi nặng, người ta nên ngần ngại sử dụng bootstrap ngây thơ".

Các loại sơ đồ bootstrap [Chỉnh sửa][edit]

Trong các vấn đề đơn biến, thường có thể chấp nhận lấy mẫu các quan sát riêng lẻ bằng cách thay thế ("Trường hợp tái mẫu" bên dưới) không giống như mẫu phụ, trong đó lấy mẫu lại không thay thế và có giá trị trong điều kiện yếu hơn nhiều so với bootstrap. Trong các mẫu nhỏ, một cách tiếp cận bootstrap tham số có thể được ưu tiên. Đối với các vấn đề khác, một bootstrap mượt mà có thể sẽ được ưu tiên.

Đối với các vấn đề hồi quy, nhiều lựa chọn thay thế khác có sẵn. [1]

Trường hợp tái mẫu [Chỉnh sửa][edit]

Bootstrap thường hữu ích để ước tính phân phối thống kê (ví dụ: trung bình, phương sai) mà không sử dụng các giả định quy tắc (theo yêu cầu, ví dụ, đối với thống kê z hoặc thống kê T). Cụ thể, bootstrap rất hữu ích khi không có hình thức phân tích hoặc lý thuyết tiệm cận (ví dụ: định lý giới hạn trung tâm áp dụng) để giúp ước tính phân phối các thống kê quan tâm. Điều này là do các phương pháp bootstrap có thể áp dụng cho hầu hết các đại lượng ngẫu nhiên, ví dụ: tỷ lệ phương sai và giá trị trung bình. Có ít nhất hai cách thực hiện lại trường hợp lấy mẫu.

  1. Thuật toán Monte Carlo để lấy mẫu trường hợp khá đơn giản. Đầu tiên, chúng tôi lấy mẫu lại dữ liệu bằng sự thay thế và kích thước của mẫu lại phải bằng kích thước của tập dữ liệu gốc. Sau đó, thống kê quan tâm được tính từ mẫu lại từ bước đầu tiên. Chúng tôi lặp lại thói quen này nhiều lần để có được ước tính chính xác hơn về phân phối bootstrap của thống kê. [1]
  2. Phiên bản 'chính xác' để lấy mẫu trường hợp là tương tự nhau, nhưng chúng tôi liệt kê một cách toàn diện mọi mẫu lại có thể của tập dữ liệu. Điều này có thể được tính toán đắt tiền vì có tổng số các mẫu khác nhau, trong đó n là kích thước của tập dữ liệu. Do đó, đối với n & nbsp; = & nbsp; 5, & nbsp; 10, & nbsp; 20, & nbsp; 30 có 126, 92378, 6.89 & nbsp; × & nbsp; 1010 và 5.91 & nbsp;
    Hướng dẫn what is a bootstrap hypothesis test? - thử nghiệm giả thuyết bootstrap là gì?
    different resamples, where n is the size of the data set. Thus for n = 5, 10, 20, 30 there are 126, 92378, 6.89 × 1010 and 5.91 × 1016 different resamples respectively.[23]

Ước tính phân phối trung bình mẫu [chỉnh sửa][edit]

Hãy xem xét một thí nghiệm lật tiền. Chúng tôi lật đồng xu và ghi lại xem nó có đáp xuống đầu hay đuôi không. Đặt x = x1, x2, xông, x10 là 10 quan sát từ thí nghiệm. XI = 1 nếu lật đầu và 0. Bằng cách gọi giả định rằng trung bình của các lật đồng xu thường được phân phối, chúng ta có thể sử dụng thống kê T để ước tính phân phối của giá trị trung bình mẫu,X = x1, x2, …, x10 be 10 observations from the experiment. xi = 1 if the i th flip lands heads, and 0 otherwise. By invoking the assumption that the average of the coin flips is normally distributed, we can use the t-statistic to estimate the distribution of the sample mean,

Một giả định bình thường như vậy có thể được chứng minh như là một xấp xỉ phân phối của từng lần lật đồng xu hoặc như là một xấp xỉ phân phối trung bình của một số lượng lớn các đồng xu. Cái trước là một xấp xỉ kém vì sự phân phối thực sự của lật đồng xu là Bernoulli thay vì bình thường. Cái sau là một xấp xỉ hợp lệ trong các mẫu lớn vô hạn do định lý giới hạn trung tâm.

Tuy nhiên, nếu chúng ta chưa sẵn sàng để thực hiện một sự biện minh như vậy, thì chúng ta có thể sử dụng bootstrap thay thế. Sử dụng việc lấy mẫu trường hợp, chúng ta có thể rút ra sự phân phối của. Trước tiên chúng tôi lấy mẫu lại dữ liệu để lấy mẫu Bootstrap. Một ví dụ về mẫu lại đầu tiên có thể trông giống như x1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9 này. Có một số bản sao kể từ khi một mẫu Bootstrap xuất phát từ việc lấy mẫu với sự thay thế từ dữ liệu. Ngoài ra, số lượng điểm dữ liệu trong một mẫu lại bootstrap bằng số lượng điểm dữ liệu trong các quan sát ban đầu của chúng tôi. Sau đó, chúng tôi tính toán giá trị trung bình của mẫu lại này và có được giá trị trung bình bootstrap đầu tiên: 1*. Chúng tôi lặp lại quá trình này để có được mẫu thứ hai x2* và tính toán trung bình bootstrap thứ hai μ2*. Nếu chúng ta lặp lại điều này 100 lần, thì chúng ta có μ1*, μ2*, ..., μ100*. Điều này thể hiện sự phân phối bootstrap thực nghiệm của trung bình mẫu. Từ phân phối thực nghiệm này, người ta có thể rút ra khoảng tin cậy bootstrap cho mục đích kiểm tra giả thuyết.. We first resample the data to obtain a bootstrap resample. An example of the first resample might look like this X1* = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. There are some duplicates since a bootstrap resample comes from sampling with replacement from the data. Also the number of data points in a bootstrap resample is equal to the number of data points in our original observations. Then we compute the mean of this resample and obtain the first bootstrap mean: μ1*. We repeat this process to obtain the second resample X2* and compute the second bootstrap mean μ2*. If we repeat this 100 times, then we have μ1*, μ2*, ..., μ100*. This represents an empirical bootstrap distribution of sample mean. From this empirical distribution, one can derive a bootstrap confidence interval for the purpose of hypothesis testing.

Regression[edit][edit]

Trong các vấn đề hồi quy, trường hợp lấy mẫu lại đề cập đến sơ đồ đơn giản của việc lấy mẫu lại các trường hợp riêng lẻ - thường là các hàng của một tập dữ liệu. Đối với các vấn đề hồi quy, miễn là tập dữ liệu khá lớn, sơ đồ đơn giản này thường được chấp nhận. [24] [25] [26] Tuy nhiên, phương pháp này được mở ra cho những lời chỉ trích [cần trích dẫn]. [16]citation needed].[16]

Trong các vấn đề hồi quy, các biến giải thích thường được cố định hoặc ít nhất là được quan sát bằng cách kiểm soát nhiều hơn biến phản hồi. Ngoài ra, phạm vi của các biến giải thích xác định thông tin có sẵn từ chúng. Do đó, để lấy mẫu lại các trường hợp có nghĩa là mỗi mẫu bootstrap sẽ mất một số thông tin. Như vậy, các thủ tục bootstrap thay thế nên được xem xét.

Bayesian Bootstrap [Chỉnh sửa][edit]

Bootstrapping có thể được giải thích trong khung Bayes bằng cách sử dụng sơ đồ tạo ra các tập dữ liệu mới thông qua việc xem lại dữ liệu ban đầu. Đưa ra một tập hợp các điểm dữ liệu, trọng số được gán cho điểm dữ liệu trong một tập dữ liệu mới là, trong đó danh sách các số ngẫu nhiên được phân phối đồng đều từ thấp đến cao, trước 0 và được thành công bởi 1. Phân phối của tham số được suy ra từ việc xem xét nhiều bộ dữ liệu như vậy sau đó có thể hiểu được là phân phối sau trên tham số đó. [27] data points, the weighting assigned to data point in a new data set is , where is a low-to-high ordered list of uniformly distributed random numbers on , preceded by 0 and succeeded by 1. The distributions of a parameter inferred from considering many such data sets are then interpretable as posterior distributions on that parameter.[27]

Bootstrap mượt mà [Chỉnh sửa][edit]

Theo sơ đồ này, một lượng nhỏ (thường được phân phối bình thường) nhiễu ngẫu nhiên tập trung bằng 0 được thêm vào mỗi quan sát được ghép lại. Điều này tương đương với việc lấy mẫu từ ước tính mật độ hạt nhân của dữ liệu. Giả sử k là hàm mật độ hạt nhân đối xứng với phương sai đơn vị. Công cụ ước tính hạt nhân tiêu chuẩn của IS of is

 [28]

tham số làm mịn ở đâu. Và công cụ ước tính chức năng phân phối tương ứng là is the smoothing parameter. And the corresponding distribution function estimator is

 [28]

Bootstrap tham số [Chỉnh sửa][edit]

Dựa trên giả định rằng tập dữ liệu gốc là một thực hiện một mẫu ngẫu nhiên từ phân phối của một loại tham số cụ thể, trong trường hợp này, một mô hình tham số được trang bị theo tham số, thường là khả năng tối đa và các mẫu của các số ngẫu nhiên được rút ra từ Mô hình phù hợp này. Thông thường mẫu được vẽ có cùng kích thước mẫu với dữ liệu gốc. Sau đó, ước tính của hàm gốc F có thể được viết là. Quá trình lấy mẫu này được lặp lại nhiều lần như đối với các phương pháp bootstrap khác. Xem xét trung bình mẫu trung tâm trong trường hợp này, hàm phân phối ban đầu mẫu ngẫu nhiên được thay thế bằng mẫu ngẫu nhiên bootstrap với hàm và phân phối xác suất của được xấp xỉ bởi, trong đó, đó là kỳ vọng tương ứng. [29] của một mô hình tham số ở giai đoạn lấy mẫu của phương pháp bootstrap dẫn đến các quy trình khác với các quy trình thu được bằng cách áp dụng lý thuyết thống kê cơ bản để suy luận cho cùng một mô hình.. This sampling process is repeated many times as for other bootstrap methods. Considering the centered sample mean in this case, the random sample original distribution function is replaced by a bootstrap random sample with function , and the probability distribution of is approximated by that of , where , which is the expectation corresponding to .[29] The use of a parametric model at the sampling stage of the bootstrap methodology leads to procedures which are different from those obtained by applying basic statistical theory to inference for the same model.

Việc lấy mẫu lại phần dư [Chỉnh sửa][edit]

Một cách tiếp cận khác để bootstrapping trong các vấn đề hồi quy là lấy mẫu lại dư. Phương pháp tiến hành như sau.

  1. Phù hợp với mô hình và giữ lại các giá trị được trang bị và phần dư. and the residuals .
  2. Đối với mỗi cặp, (xi, yi), trong đó XI là biến giải thích (có thể đa biến), thêm một phần dư được ghép lại ngẫu nhiên, vào giá trị được trang bị. Nói cách khác, tạo các biến phản hồi tổng hợp trong đó j được chọn ngẫu nhiên từ danh sách (1, ..., n) cho mỗi i., to the fitted value . In other words, create synthetic response variables where j is selected randomly from the list (1, ..., n) for every i.
  3. Tái cấu trúc mô hình bằng cách sử dụng các biến phản ứng giả tưởng và giữ lại số lượng quan tâm (thường là các tham số, được ước tính từ tổng hợp)., and retain the quantities of interest (often the parameters, , estimated from the synthetic ).
  4. Lặp lại các bước 2 và 3 một số lần lớn.

Sơ đồ này có lợi thế là nó giữ lại thông tin trong các biến giải thích. Tuy nhiên, một câu hỏi đặt ra là phần dư để lấy mẫu lại. Phần dư thô là một lựa chọn; Một cái khác là phần dư sinh viên (trong hồi quy tuyến tính). Mặc dù có những lập luận ủng hộ việc sử dụng phần dư sinh viên; Trong thực tế, nó thường tạo ra rất ít sự khác biệt, và thật dễ dàng để so sánh kết quả của cả hai chương trình.

Gaussian Process Repression Bootstrap [Chỉnh sửa][edit]

Khi dữ liệu có mối tương quan theo thời gian, bootstrapping đơn giản sẽ phá hủy các mối tương quan vốn có. Phương pháp này sử dụng hồi quy quy trình Gaussian (GPR) để phù hợp với mô hình xác suất mà từ đó sao chép có thể được rút ra. GPR là phương pháp hồi quy phi tuyến tính của Bayes. Một quy trình Gaussian (GP) là một tập hợp các biến ngẫu nhiên, bất kỳ số lượng hữu hạn nào có phân phối Gaussian (bình thường) chung. Một GP được xác định bởi hàm trung bình và hàm hiệp phương sai, trong đó chỉ định các vectơ trung bình và ma trận hiệp phương sai cho mỗi bộ sưu tập hữu hạn của các biến ngẫu nhiên. [30]

Mô hình hồi quy:

là một thuật ngữ tiếng ồn.

Quy trình Gaussian trước:

Đối với bất kỳ bộ sưu tập các biến hữu hạn nào, x1, & nbsp; ..., & nbsp; xn, các đầu ra chức năng được phân phối cùng với một Gaussian đa biến với ma trận trung bình và hiệp phương sai are jointly distributed according to a multivariate Gaussian with mean and covariance matrix

Giả sử sau đó, Then ,

ở đâu và là hàm delta kronecker tiêu chuẩn. [30], and is the standard Kronecker delta function.[30]

Quy trình Gaussian sau:

Theo GP trước, chúng ta có thể nhận được

Thì

ở đâu và and

Đặt x1*, ..., xs* là một bộ sưu tập các biến hữu hạn khác, rõ ràng là

Thì

ở đâu và, ,

Đặt x1*, ..., xs* là một bộ sưu tập các biến hữu hạn khác, rõ ràng là

ở đâu , ,, , , and is identity matrix.[30]

Theo các phương trình trên, các đầu ra Y cũng được phân phối cùng theo một Gaussian đa biến. Như vậy,[edit]

ở đâu ,, và là ma trận nhận dạng. [30] based on

Bootstrap hoang dã [Chỉnh sửa] with mean 0 and variance 1. For most distributions of (but not Mammen's), this method assumes that the 'true' residual distribution is symmetric and can offer advantages over simple residual sampling for smaller sample sizes. Different forms are used for the random variable , such as

  • Bootstrap hoang dã, được đề xuất ban đầu bởi Wu (1986), [31] phù hợp khi mô hình thể hiện sự không đồng nhất. Ý tưởng là, như bootstrap còn lại, để lại các hồi quy ở giá trị mẫu của chúng, nhưng để lấy mẫu lại biến phản hồi dựa trên các giá trị còn lại. Nghĩa là, đối với mỗi bản sao, người ta tính một cái mới dựa trên
  • Vì vậy, phần dư được nhân ngẫu nhiên với một biến ngẫu nhiên với giá trị trung bình 0 và phương sai 1. Đối với hầu hết các phân phối của (nhưng không phải của Mammen), phương pháp này giả định rằng phân phối còn lại 'đúng kích thước. Các hình thức khác nhau được sử dụng cho biến ngẫu nhiên, chẳng hạn như
Phân phối bình thường tiêu chuẩn
  • Một phân phối được đề xuất bởi Mammen (1993). [32]

Khoảng, phân phối của Mammen là:[edit]

Hoặc phân phối đơn giản hơn, được liên kết với phân phối Rademacher:

Khối Bootstrap [Chỉnh sửa][edit]

Khối Bootstrap được sử dụng khi dữ liệu hoặc lỗi trong mô hình, có tương quan. Trong trường hợp này, một trường hợp đơn giản hoặc thay đổi lại dư sẽ thất bại, vì nó không thể sao chép mối tương quan trong dữ liệu. Khối Bootstrap cố gắng tái tạo mối tương quan bằng cách lấy mẫu lại bên trong các khối dữ liệu (xem chặn (thống kê)). Khối Bootstrap đã được sử dụng chủ yếu với dữ liệu tương quan theo thời gian (tức là chuỗi thời gian) nhưng cũng có thể được sử dụng với dữ liệu tương quan trong không gian hoặc giữa các nhóm (được gọi là dữ liệu cụm).

Chuỗi thời gian: Khối Bootstrap đơn giản [Chỉnh sửa][edit]

Trong bootstrap khối (đơn giản), biến quan tâm được chia thành các khối không chồng chéo.

Chuỗi thời gian: Di chuyển Block Bootstrap [Chỉnh sửa]

Chuỗi thời gian: entropy bootstrap tối đa [Chỉnh sửa][edit]

Vinod (2006), [35] trình bày một phương pháp dữ liệu chuỗi thời gian bootstraps sử dụng các nguyên tắc entropy tối đa thỏa mãn định lý ergodic với các ràng buộc bảo tồn trung bình và bảo quản khối lượng. Có một gói R, moboot, [36] sử dụng phương pháp, có các ứng dụng trong kinh tế lượng và khoa học máy tính.meboot,[36] that utilizes the method, which has applications in econometrics and computer science.

Dữ liệu cụm: Khối Bootstrap [Chỉnh sửa][edit]

Dữ liệu cụm mô tả dữ liệu trong đó nhiều quan sát trên mỗi đơn vị được quan sát. Điều này có thể là quan sát nhiều công ty ở nhiều tiểu bang hoặc quan sát sinh viên trong nhiều lớp học. Trong những trường hợp như vậy, cấu trúc tương quan được đơn giản hóa và người ta thường đưa ra giả định rằng dữ liệu có mối tương quan trong một nhóm/cụm, nhưng độc lập giữa các nhóm/cụm. Cấu trúc của bootstrap khối dễ dàng thu được (trong đó khối chỉ tương ứng với nhóm) và thường chỉ các nhóm được ghép lại, trong khi các quan sát trong các nhóm không thay đổi. Cameron et al. (2008) thảo luận về điều này đối với các lỗi phân cụm trong hồi quy tuyến tính. [37]

Phương pháp cải thiện hiệu quả tính toán [Chỉnh sửa][edit]

Bootstrap là một kỹ thuật mạnh mẽ mặc dù có thể yêu cầu các tài nguyên điện toán đáng kể trong cả thời gian và bộ nhớ. Một số kỹ thuật đã được phát triển để giảm gánh nặng này. Chúng thường có thể được kết hợp với nhiều loại chương trình bootstrap khác nhau và các lựa chọn thống kê khác nhau.

Poisson Bootstrap [Chỉnh sửa][edit]

Hướng dẫn what is a bootstrap hypothesis test? - thử nghiệm giả thuyết bootstrap là gì?

Biểu đồ hiển thị sự hội tụ của phân phối nhị thức cho Poisson khi các tham số nhị thức là n*p = 1 và n phát triển

Bootstrap thông thường yêu cầu lựa chọn ngẫu nhiên các yếu tố N từ một danh sách, tương đương với việc vẽ từ phân phối đa hình. Điều này có thể yêu cầu một số lượng lớn các đường truyền qua dữ liệu và rất khó khăn để chạy các tính toán này song song. Đối với các giá trị lớn của N, Poisson Bootstrap là một phương pháp hiệu quả để tạo các bộ dữ liệu bootstrapping. [38] Khi tạo một mẫu bootstrap duy nhất, thay vì vẽ ngẫu nhiên từ dữ liệu mẫu với sự thay thế, mỗi điểm dữ liệu được gán một trọng lượng ngẫu nhiên được phân phối theo phân phối Poisson với. Đối với dữ liệu mẫu lớn, điều này sẽ gần đúng lấy mẫu ngẫu nhiên với sự thay thế. Điều này là do xấp xỉ sau:. For large sample data, this will approximate random sampling with replacement. This is due to the following approximation:

Phương pháp này cũng cho vay tốt để phát trực tuyến dữ liệu và các bộ dữ liệu đang phát triển, vì tổng số mẫu không cần phải biết trước khi bắt đầu lấy các mẫu bootstrap.

Đối với N đủ lớn, kết quả tương đối giống với ước tính bootstrap ban đầu. [39]

Một cách để cải thiện Bootstrap Poisson, được gọi là "Bootstrap tuần tự", là bằng cách lấy các mẫu đầu tiên để tỷ lệ của các giá trị duy nhất là ≈0.632 của kích thước mẫu ban đầu n. Điều này cung cấp một phân phối với các đặc điểm thực nghiệm chính nằm trong khoảng cách. [40] Điều tra thực nghiệm đã cho thấy phương pháp này có thể mang lại kết quả tốt. [41] Điều này có liên quan đến phương pháp bootstrap giảm. [42].[40] Empirical investigation has shown this method can yield good results.[41] This is related to the reduced bootstrap method.[42]

Túi Bootstraps nhỏ [Chỉnh sửa][edit]

Đối với các bộ dữ liệu lớn, thường bị cấm tính toán để giữ tất cả các dữ liệu mẫu trong bộ nhớ và lấy mẫu từ dữ liệu mẫu. Túi bootstraps nhỏ (BLB) [43] cung cấp một phương pháp tổng hợp dữ liệu trước khi bootstrapping để giảm các ràng buộc tính toán. Điều này hoạt động bằng cách phân vùng dữ liệu được đặt thành các thùng có kích thước bằng nhau và tổng hợp dữ liệu trong mỗi thùng. Bộ dữ liệu được tổng hợp trước này trở thành dữ liệu mẫu mới để vẽ các mẫu có thay thế. Phương pháp này tương tự như bootstrap khối, nhưng các động lực và định nghĩa của các khối rất khác nhau. Theo một số giả định nhất định, phân phối mẫu sẽ xấp xỉ toàn bộ kịch bản bootstrapping. Một ràng buộc là số lượng xô trong đó và các tác giả đề xuất sử dụng như một giải pháp chung. equal-sized buckets and aggregating the data within each bucket. This pre-aggregated data set becomes the new sample data over which to draw samples with replacement. This method is similar to the Block Bootstrap, but the motivations and definitions of the blocks are very different. Under certain assumptions, the sample distribution should approximate the full bootstrapped scenario. One constraint is the number of buckets where and the authors recommend usage of as a general solution.

Lựa chọn thống kê [Chỉnh sửa][edit]

Phân phối bootstrap của công cụ ước tính điểm của tham số dân số đã được sử dụng để tạo ra khoảng tin cậy bootstrapping cho giá trị thực của tham số nếu tham số có thể được viết như là một hàm của phân phối dân số.

Các thông số dân số được ước tính với nhiều công cụ ước tính điểm. Các gia đình phổ biến của các công cụ tham gia điểm bao gồm các công cụ ước tính biến thể tối thiểu trung bình, ước tính không liên quan trung bình, ước tính Bayes (ví dụ, chế độ phân phối sau, trung bình, trung bình) và ước tính khả năng tối đa.

Một công cụ ước tính điểm Bayes và một công cụ ước tính khả năng tối đa có hiệu suất tốt khi kích thước mẫu là vô hạn, theo lý thuyết tiệm cận. Đối với các vấn đề thực tế với các mẫu hữu hạn, các công cụ ước tính khác có thể thích hợp hơn. Lý thuyết tiệm cận cho thấy các kỹ thuật thường cải thiện hiệu suất của các công cụ ước tính bootstrapping; Sự khởi động của một công cụ ước tính khả năng tối đa thường có thể được cải thiện bằng cách sử dụng các phép biến đổi liên quan đến số lượng then chốt. [44]

Có được khoảng tin cậy từ phân phối bootstrap [Chỉnh sửa][edit]

Phân phối bootstrap của một công cụ tham số đã được sử dụng để tính toán khoảng tin cậy cho tham số dân số của nó. [1]

Xu hướng, không đối xứng và khoảng tin cậy [Chỉnh sửa][edit]

  • Xu hướng: Phân phối bootstrap và mẫu có thể không đồng ý một cách có hệ thống, trong trường hợp đó có thể xảy ra sai lệch. Nếu phân phối bootstrap của công cụ ước tính là đối xứng, thì phần trăm tự tin thường được sử dụng; Các khoảng thời gian như vậy là thích hợp, đặc biệt là đối với các công cụ ước tính trung bình không có rủi ro tối thiểu (liên quan đến chức năng mất mát tuyệt đối). Sự thiên vị trong phân phối bootstrap sẽ dẫn đến sai lệch trong khoảng tin cậy. Tuy nhiên, nếu phân phối bootstrap là không đối xứng, thì khoảng tin cậy phần trăm thường không phù hợp.: The bootstrap distribution and the sample may disagree systematically, in which case bias may occur. If the bootstrap distribution of an estimator is symmetric, then percentile confidence-interval are often used; such intervals are appropriate especially for median-unbiased estimators of minimum risk (with respect to an absolute loss function). Bias in the bootstrap distribution will lead to bias in the confidence interval.Otherwise, if the bootstrap distribution is non-symmetric, then percentile confidence intervals are often inappropriate.

Phương pháp cho khoảng tin cậy bootstrap [Chỉnh sửa][edit]

Có một số phương pháp để xây dựng khoảng tin cậy từ phân phối bootstrap của một tham số thực:

  • Bootstrap cơ bản, [44] còn được gọi là khoảng phần trăm ngược. [45] Bootstrap cơ bản là một sơ đồ đơn giản để xây dựng khoảng tin cậy: người ta chỉ đơn giản lấy các lượng tử thực nghiệm từ phân phối bootstrap của tham số (xem Davison và Hinkley 1997, Equi. 5.6 p. & NBSP; 194):,[44] also known as the Reverse Percentile Interval.[45] The basic bootstrap is a simple scheme to construct the confidence interval: one simply takes the empirical quantiles from the bootstrap distribution of the parameter (see Davison and Hinkley 1997, equ. 5.6 p. 194):
trong đó biểu thị phần trăm của các hệ số bootstrapping. denotes the percentile of the bootstrapped coefficients .
  • Tỷ lệ phần trăm bootstrap. Bootstrap phần trăm tiến hành theo cách tương tự như bootstrap cơ bản, sử dụng phần trăm của phân phối bootstrap, nhưng với một công thức khác (lưu ý sự đảo ngược của các lượng tử bên trái và phải):. The percentile bootstrap proceeds in a similar way to the basic bootstrap, using percentiles of the bootstrap distribution, but with a different formula (note the inversion of the left and right quantiles):
trong đó biểu thị tỷ lệ phần trăm của các hệ số bootstrapping .See Davison và Hinkley (1997, Equi. 5.18 p. & NBSP; 203) và Efron và Tibshirani (1993, EMP 13,5 p. & NBSP; 171). Phương pháp này có thể được áp dụng cho bất kỳ thống kê nào. Nó sẽ hoạt động tốt trong trường hợp phân phối bootstrap là đối xứng và tập trung vào thống kê quan sát được [46] và khi thống kê mẫu là trung bình không được điều trị và có nồng độ tối đa (hoặc rủi ro tối thiểu đối với hàm mất giá trị tuyệt đối). Khi làm việc với các cỡ mẫu nhỏ (nghĩa là, dưới 50), khoảng tin cậy phần trăm và phần trăm cơ bản và phần trăm cho (ví dụ), thống kê phương sai sẽ quá hẹp. Vì vậy, với một mẫu 20 điểm, khoảng tin cậy 90% sẽ bao gồm phương sai thực sự chỉ 78% thời gian. [47] Khoảng tin cậy phần trăm cơ bản / ngược lại dễ dàng để biện minh về mặt toán học [48] [45] nhưng chúng ít chính xác hơn là khoảng tin cậy phần trăm và một số tác giả không khuyến khích việc sử dụng chúng. [45] denotes the percentile of the bootstrapped coefficients .See Davison and Hinkley (1997, equ. 5.18 p. 203) and Efron and Tibshirani (1993, equ 13.5 p. 171).This method can be applied to any statistic. It will work well in cases where the bootstrap distribution is symmetrical and centered on the observed statistic[46] and where the sample statistic is median-unbiased and has maximum concentration (or minimum risk with respect to an absolute value loss function). When working with small sample sizes (i.e., less than 50), the basic / reversed percentile and percentile confidence intervals for (for example) the variance statistic will be too narrow. So that with a sample of 20 points, 90% confidence interval will include the true variance only 78% of the time.[47] The basic / reverse percentile confidence intervals are easier to justify mathematically[48][45] but they are less accurate in general than percentile confidence intervals, and some authors discourage their use.[45]
  • Bootstrap sinh viên. Bootstrap sinh viên, còn được gọi là bootstrap-T, được tính toán tương tự với khoảng tin cậy tiêu chuẩn, nhưng thay thế các lượng tử từ xấp xỉ bình thường hoặc học sinh bằng các lượng tử từ phân phối bootstrap của bài kiểm tra t của học sinh (xem Davison và Hinkley 1997, Equare . 5,7 p. & NBSP;. The studentized bootstrap, also called bootstrap-t, is computed analogously to the standard confidence interval, but replaces the quantiles from the normal or student approximation by the quantiles from the bootstrap distribution of the Student's t-test (see Davison and Hinkley 1997, equ. 5.7 p. 194 and Efron and Tibshirani 1993 equ 12.22, p. 160):
trong đó biểu thị tỷ lệ phần trăm của bài kiểm tra t của học sinh bootstrapping và là lỗi tiêu chuẩn ước tính của hệ số trong mô hình gốc. Bài kiểm tra sinh viên được hưởng các thuộc tính tối ưu vì thống kê được bootstrapping là mấu chốt (nghĩa là nó không phụ thuộc vào các tham số phiền toái như Thử nghiệm t tuân theo phân phối N (0,1) không đối xứng), không giống như bootstrap phần trăm. denotes the percentile of the bootstrapped Student's t-test , and is the estimated standard error of the coefficient in the original model.The studentized test enjoys optimal properties as the statistic that is bootstrapped is pivotal (i.e. it does not depend on nuisance parameters as the t-test follows asymptotically a N(0,1) distribution), unlike the percentile bootstrap.
  • Bootstrap được điều chỉnh sai lệch-Điều chỉnh cho sự thiên vị trong phân phối bootstrap. – adjusts for bias in the bootstrap distribution.
  • Bootstrap tăng tốc-Bootstrap được điều chỉnh và tăng tốc (BCA), bởi Efron (1987), [14] điều chỉnh cho cả sai lệch và độ lệch trong phân phối bootstrap. Cách tiếp cận này là chính xác trong một loạt các cài đặt, có các yêu cầu tính toán hợp lý và tạo ra các khoảng thời gian hẹp hợp lý. [14] – The bias-corrected and accelerated (BCa) bootstrap, by Efron (1987),[14] adjusts for both bias and skewness in the bootstrap distribution. This approach is accurate in a wide variety of settings, has reasonable computation requirements, and produces reasonably narrow intervals.[14]

Kiểm tra giả thuyết bootstrap [Chỉnh sửa][edit]

Efron và Tibshirani [1] đề xuất thuật toán sau để so sánh các phương tiện của hai mẫu độc lập: hãy là một mẫu ngẫu nhiên từ phân phối F với giá trị trung bình mẫu và phương sai mẫu. Đặt một mẫu ngẫu nhiên độc lập khác từ phân phối g với giá trị trung bình và phương sai be a random sample from distribution F with sample mean and sample variance . Let be another, independent random sample from distribution G with mean and variance

  1. Tính toán thống kê kiểm tra
  2. Tạo hai bộ dữ liệu mới có giá trị và giá trị trung bình của mẫu kết hợp. and where is the mean of the combined sample.
  3. Vẽ một mẫu ngẫu nhiên () kích thước với sự thay thế từ và một mẫu ngẫu nhiên () khác có kích thước với sự thay thế từ.) of size with replacement from and another random sample () of size with replacement from .
  4. Tính toán thống kê kiểm tra
  5. Tạo hai bộ dữ liệu mới có giá trị và giá trị trung bình của mẫu kết hợp. times (e.g. ) to collect values of the test statistic.
  6. Vẽ một mẫu ngẫu nhiên () kích thước với sự thay thế từ và một mẫu ngẫu nhiên () khác có kích thước với sự thay thế từ. where when condition is true and 0 otherwise.

Lặp lại 3 và 4 lần (ví dụ) để thu thập các giá trị của thống kê kiểm tra.[edit]

Ước tính giá trị p như khi điều kiện là đúng và 0 nếu không.[edit]

Ứng dụng ví dụ [Chỉnh sửa]

Phân phối Bootstrap cho dữ liệu của Newcomb xuất hiện bên dưới. Chúng ta có thể giảm sự phân biệt của phân phối bootstrap bằng cách thêm một lượng nhỏ nhiễu ngẫu nhiên vào mỗi mẫu bootstrap. Một lựa chọn thông thường là thêm nhiễu với độ lệch chuẩn cho kích thước mẫu n; Tiếng ồn này thường được rút ra từ phân phối sinh viên-T với mức độ tự do N-1. [50] Điều này dẫn đến một công cụ ước tính xấp xỉ không phù hợp cho phương sai của giá trị trung bình mẫu. Điều này có nghĩa là các mẫu được lấy từ phân phối bootstrap sẽ có phương sai, trung bình, bằng phương sai của tổng dân số. for a sample size n; this noise is often drawn from a Student-t distribution with n-1 degrees of freedom.[50] This results in an approximately-unbiased estimator for the variance of the sample mean. This means that samples taken from the bootstrap distribution will have a variance which is, on average, equal to the variance of the total population.

Biểu đồ của phân phối bootstrap và phân phối bootstrap trơn tru xuất hiện dưới đây. Phân phối bootstrap của Mẫu-Median chỉ có một số lượng nhỏ các giá trị. Phân phối bootstrap được làm mịn có sự hỗ trợ phong phú hơn. Tuy nhiên, lưu ý rằng liệu quy trình bootstrap được làm mịn hay tiêu chuẩn là thuận lợi là từng trường hợp cụ thể và được chứng minh là phụ thuộc vào cả chức năng phân phối cơ bản và vào số lượng được ước tính. [51]

Hướng dẫn what is a bootstrap hypothesis test? - thử nghiệm giả thuyết bootstrap là gì?

Trong ví dụ này, khoảng thời gian tin cậy 95% (phần trăm) cho trung bình dân số là (26, 28.5), gần với khoảng thời gian (25,98, 28,46) cho bootstrap được làm mịn.

Liên quan đến các phương pháp khác để suy luận [chỉnh sửa][edit]

Mối quan hệ với các phương pháp lấy mẫu khác [Chỉnh sửa][edit]

Bootstrap được phân biệt từ:

  • Thủ tục Jackknife, được sử dụng để ước tính các sai lệch của số liệu thống kê mẫu và để ước tính phương sai, và
  • Xác thực chéo, trong đó các tham số (ví dụ: trọng số hồi quy, tải hệ số) được ước tính trong một mẫu phụ được áp dụng cho mẫu phụ khác.

Để biết thêm chi tiết, hãy xem lại mẫu.

Tập hợp Bootstrap (đóng gói) là một tính toán tổng hợp dựa trên các dự đoán mô hình trung bình thu được từ các mô hình được đào tạo trên nhiều mẫu bootstrap.

U-statistics[edit][edit]

Trong các tình huống mà một thống kê rõ ràng có thể được đưa ra để đo lường một đặc điểm cần thiết chỉ sử dụng một số lượng nhỏ, r, của các mục dữ liệu, một thống kê tương ứng dựa trên toàn bộ mẫu có thể được xây dựng. Đưa ra một thống kê mẫu R, người ta có thể tạo ra một thống kê mẫu N bằng một cái gì đó tương tự như bootstrapping (lấy trung bình của thống kê trên tất cả các mẫu con có kích thước r). Thủ tục này được biết là có một số tính chất tốt nhất định và kết quả là một điều trị U. Phương sai trung bình và mẫu mẫu của mẫu có dạng này, cho R & NBSP; = & NBSP; 1 và R & NBSP; = & NBSP; 2.

Xem thêm [sửa][edit]

  • Độ chính xác và độ chính xác
  • Bootstrap tổng hợp
  • Bootstrapping
  • Khả năng thực nghiệm
  • Cắt bỏ (Thống kê)
  • Độ tin cậy (Thống kê)
  • Khả năng tái lập
  • Lấy mẫu lại

References[edit][edit]

  1. ^ abcdeefron, B .; Tibshirani, R. (1993). Giới thiệu về Bootstrap. Boca Raton, FL: Chapman & Hall/CRC. ISBN & NBSP; 0-412-04231-2. Phần mềm được lưu trữ 2012-07-12 tại Archive.Todaya b c d e Efron, B.; Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC. ISBN 0-412-04231-2. software Archived 2012-07-12 at archive.today
  2. ^Suy nghĩ thứ hai về bootstrap - Bradley Efron, 2003 Second Thoughts on the Bootstrap – Bradley Efron, 2003
  3. ^Varian, H. (2005). "Hướng dẫn bootstrap". Tạp chí Mathicala, 9, 768 Từ775. Varian, H.(2005). "Bootstrap Tutorial". Mathematica Journal, 9, 768–775.
  4. ^Weisstein, Eric W. "Phương pháp bootstrap." Từ Mathworld-một tài nguyên web Wolfram. http://mathworld.wolfram.com/bootstrapmethods.html Weisstein, Eric W. "Bootstrap Methods." From MathWorld--A Wolfram Web Resource. http://mathworld.wolfram.com/BootstrapMethods.html
  5. ^Ghi chú cho việc sử dụng sớm nhất của một số từ toán học: Bootstrap (John Aldrich) Notes for Earliest Known Uses of Some of the Words of Mathematics: Bootstrap (John Aldrich)
  6. ^Cách sử dụng sớm nhất của một số từ của toán học (b) (Jeff Miller) Earliest Known Uses of Some of the Words of Mathematics (B) (Jeff Miller)
  7. ^Efron, B. (1979). "Phương pháp bootstrap: Một cái nhìn khác về jackknife". Biên niên sử thống kê. 7 (1): 1 trận26. doi: 10.1214/AOS/1176344552. Efron, B. (1979). "Bootstrap methods: Another look at the jackknife". The Annals of Statistics. 7 (1): 1–26. doi:10.1214/aos/1176344552.
  8. ^Quenouille M (1949) Các thử nghiệm gần đúng về mối tương quan trong chuỗi thời gian. J Roy Statist Soc Ser B 11 68 Từ84 Quenouille M (1949) Approximate tests of correlation in time-series. J Roy Statist Soc Ser B 11 68–84
  9. ^Tukey J (1958) Bias và sự tự tin trong các mẫu lớn không hoàn toàn (Tóm tắt). Ann Math Statist 29 614 Tukey J (1958) Bias and confidence in not-quite large samples (abstract). Ann Math Statist 29 614
  10. ^Jaeckel L (1972) Jackknife vô hạn. Bản ghi nhớ MM72-1215-11, Bell Lab Jaeckel L (1972) The infinitesimal jackknife. Memorandum MM72-1215-11, Bell Lab
  11. ^Bickel P, Freeman D (1981) Một số lý thuyết tiệm cận cho bootstrap. Ann Statist 9 1196 Từ1217 Bickel P, Freeman D (1981) Some asymptotic theory for the bootstrap. Ann Statist 9 1196–1217
  12. ^Singh K (1981) về độ chính xác tiệm cận của Efron xông Bootstrap. Ann Statist 9 1187 Từ1195 Singh K (1981) On the asymptotic accuracy of Efron’s bootstrap. Ann Statist 9 1187–1195
  13. ^Rubin D (1981). Các bootstrap Bayes. Ann Statist 9 130 Từ134 Rubin D (1981). The Bayesian bootstrap. Ann Statist 9 130–134
  14. ^ Abcefron, B. (1987). "Khoảng tin cậy bootstrap tốt hơn". Tạp chí của Hiệp hội thống kê Hoa Kỳ. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, Tập. 82, số 397. 82 (397): 171 Từ185. doi: 10.2307/2289144. JStor & NBSP; 2289144.a b c Efron, B. (1987). "Better Bootstrap Confidence Intervals". Journal of the American Statistical Association. Journal of the American Statistical Association, Vol. 82, No. 397. 82 (397): 171–185. doi:10.2307/2289144. JSTOR 2289144.
  15. ^Diciccio T, Efron B (1992) Khoảng tin cậy chính xác hơn ở các gia đình theo cấp số nhân. Biometrika 79 231 Từ245 Diciccio T, Efron B (1992) More accurate confidence intervals in exponential families. Biometrika 79 231–245
  16. ^ ABC "21 Mô hình hồi quy bootstrapping" (pdf). Lưu trữ (PDF) từ bản gốc vào năm 2015-07-24.a b c "21 Bootstrapping Regression Models" (PDF). Archived (PDF) from the original on 2015-07-24.
  17. ^Diciccio TJ, Efron B (1996) Khoảng niềm tin bootstrap (với thảo luận). Khoa học thống kê 11: 189 DiCiccio TJ, Efron B (1996) Bootstrap confidence intervals (with Discussion). Statistical Science 11: 189–228
  18. ^Hinkley, David (1994-08-01). "[Bootstrap: Hơn một cú đâm trong bóng tối?]: Nhận xét". Khoa học thống kê. 9 (3). doi: 10.1214/ss/1177010387. ISSN & NBSP; 0883-4237. Hinkley, David (1994-08-01). "[Bootstrap: More than a Stab in the Dark?]: Comment". Statistical Science. 9 (3). doi:10.1214/ss/1177010387. ISSN 0883-4237.
  19. ^Goodhue, D.L., Lewis, W., & Thompson, R. (2012). PLS có lợi thế cho cỡ mẫu nhỏ hoặc dữ liệu không bình thường không? MIS hàng quý, 36 (3), 981 Từ1001. Goodhue, D.L., Lewis, W., & Thompson, R. (2012). Does PLS have advantages for small sample size or non-normal data? MIS Quarterly, 36(3), 981–1001.
  20. ^Efron, B., Rogosa, D., & Tibshirani, R. (2004). Phương pháp lấy mẫu của ước tính. Trong N.J. Smelser, & P.B. Baltes (eds.). Bách khoa toàn thư quốc tế về khoa học xã hội & hành vi (trang 13216 Từ13220). New York, NY: Elsevier. Efron, B., Rogosa, D., & Tibshirani, R. (2004). Resampling methods of estimation. In N.J. Smelser, & P.B. Baltes (Eds.). International Encyclopedia of the Social & Behavioral Sciences (pp. 13216–13220). New York, NY: Elsevier.
  21. ^Adèr, H. J., Mellenbergh G. J., & Hand, D. J. (2008). Tư vấn về phương pháp nghiên cứu: Bạn đồng hành của một nhà tư vấn. Huizen, Hà Lan: Nhà xuất bản Johannes Van Kessel. ISBN & NBSP; 978-90-79418-01-5. Adèr, H. J., Mellenbergh G. J., & Hand, D. J. (2008). Advising on research methods: A consultant's companion. Huizen, The Netherlands: Johannes van Kessel Publishing. ISBN 978-90-79418-01-5.
  22. ^Bootstrap của giá trị trung bình trong trường hợp phương sai vô hạn Athreya, K.B. ANN Thống kê Vol 15 (2) 1987 724 Mạnh731 Bootstrap of the mean in the infinite variance case Athreya, K.B. Ann Stats vol 15 (2) 1987 724–731
  23. ^"Có bao nhiêu mẫu bootstrap khác nhau? Statweb.stanford.edu". Được lưu trữ từ bản gốc vào năm 2019-09-14. Truy cập 2019-12-09. "How many different bootstrap samples are there? Statweb.stanford.edu". Archived from the original on 2019-09-14. Retrieved 2019-12-09.
  24. ^Jenkins, David G .; Quintana-Accencio, Pedro F. (2020-02-21). "Một giải pháp cho kích thước mẫu tối thiểu cho hồi quy". Plos một. 15 (2): E0229345. Bibcode: 2020ploso..1529345J. doi: 10.1371/tạp chí.pone.0229345. ISSN & NBSP; 1932-6203. PMC & NBSP; 7034864. PMID & NBSP; 32084211. Jenkins, David G.; Quintana-Ascencio, Pedro F. (2020-02-21). "A solution to minimum sample size for regressions". PLOS ONE. 15 (2): e0229345. Bibcode:2020PLoSO..1529345J. doi:10.1371/journal.pone.0229345. ISSN 1932-6203. PMC 7034864. PMID 32084211.
  25. ^Lumley, Thomas (2002). "Tầm quan trọng của giả định tính bình thường trong các bộ dữ liệu y tế công cộng lớn". Đánh giá hàng năm về sức khỏe cộng đồng. 23: 151 Từ169. doi: 10.1146/annurev.publhealth.23.100901.140546. PMID & NBSP; 11910059. Lumley, Thomas (2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23: 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. PMID 11910059.
  26. ^Li, Xiang; Wong, wanling; Lamoureux, Ecosse L .; Wong, Tien Y. (2012-05-01). "Các kỹ thuật hồi quy tuyến tính có phù hợp để phân tích khi biến phụ thuộc (kết quả) không được phân phối bình thường?". Nhãn khoa điều tra & Khoa học thị giác. 53 (6): 3082 Từ3083. doi: 10.1167/iovs.12-9967. ISSN & NBSP; 1552-5783. PMID & NBSP; 22618757. Li, Xiang; Wong, Wanling; Lamoureux, Ecosse L.; Wong, Tien Y. (2012-05-01). "Are Linear Regression Techniques Appropriate for Analysis When the Dependent (Outcome) Variable Is Not Normally Distributed?". Investigative Ophthalmology & Visual Science. 53 (6): 3082–3083. doi:10.1167/iovs.12-9967. ISSN 1552-5783. PMID 22618757.
  27. ^Rubin, D. B. (1981). "The Bayesian Bootstrap". Biên niên sử thống kê, 9, 130. Rubin, D. B. (1981). "The Bayesian bootstrap". Annals of Statistics, 9, 130.
  28. ^ Abwang, Suojin (1995). "Tối ưu hóa bootstrap được làm mịn". Ann. Inst. Thống kê. Môn Toán. 47: 65 bóng80. doi: 10.1007/bf00773412. S2CID & NBSP; 122041565.a b WANG, SUOJIN (1995). "Optimizing the smoothed bootstrap". Ann. Inst. Statist. Math. 47: 65–80. doi:10.1007/BF00773412. S2CID 122041565.
  29. ^Giới thiệu hiện đại về xác suất và thống kê & nbsp ;: Hiểu tại sao và làm thế nào. Dekking, Michel, 1946-. London: Springer. 2005. ISBN & NBSP; 978-1-85233-896-1. OCLC & NBSP; 262680588 .________ 0: CS1 Duy trì: Những người khác (liên kết) A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  30. ^ ABCKIRK, Paul (2009). "Bootstrapping hồi quy quy trình Gaussian: Khám phá ảnh hưởng của sự không chắc chắn trong dữ liệu khóa học thời gian". Tin sinh học. 25 (10): 1300 Từ1306. doi: 10.1093/tin sinh học/btp139. PMC & NBSP; 2677737. PMID & NBSP; 19289448.a b c Kirk, Paul (2009). "Gaussian process regression bootstrapping: exploring the effects of uncertainty in time course data". Bioinformatics. 25 (10): 1300–1306. doi:10.1093/bioinformatics/btp139. PMC 2677737. PMID 19289448.
  31. ^Wu, C.F.J. (1986). "Jackknife, bootstrap và các phương pháp lấy mẫu lại khác trong phân tích hồi quy (với các cuộc thảo luận)" (pdf). Biên niên sử thống kê. 14: 1261 Từ1350. doi: 10.1214/AOS/1176350142. Wu, C.F.J. (1986). "Jackknife, bootstrap and other resampling methods in regression analysis (with discussions)" (PDF). Annals of Statistics. 14: 1261–1350. doi:10.1214/aos/1176350142.
  32. ^Mammen, E. (tháng 3 năm 1993). "Bootstrap và bootstrap hoang dã cho các mô hình tuyến tính có chiều cao". Biên niên sử thống kê. 21 (1): 255 bóng285. doi: 10.1214/AOS/1176349025. Mammen, E. (Mar 1993). "Bootstrap and wild bootstrap for high dimensional linear models". Annals of Statistics. 21 (1): 255–285. doi:10.1214/aos/1176349025.
  33. ^Künsch, H. R. (1989). "Jackknife và bootstrap cho các quan sát đứng yên nói chung". Biên niên sử thống kê. 17 (3): 1217 Từ1241. doi: 10.1214/AOS/1176347265. Künsch, H. R. (1989). "The Jackknife and the Bootstrap for General Stationary Observations". Annals of Statistics. 17 (3): 1217–1241. doi:10.1214/aos/1176347265.
  34. ^Politis, D. N .; Romano, J. P. (1994). "Bootstrap đứng yên". Tạp chí của Hiệp hội thống kê Hoa Kỳ. 89 (428): 1303 Từ1313. doi: 10.1080/01621459.1994.10476870. HDL: 10983/25607. Politis, D. N.; Romano, J. P. (1994). "The Stationary Bootstrap". Journal of the American Statistical Association. 89 (428): 1303–1313. doi:10.1080/01621459.1994.10476870. hdl:10983/25607.
  35. ^Vinod, Hd (2006). "Các bản hòa tấu tối đa cho chuỗi thời gian suy luận về kinh tế". Tạp chí Kinh tế châu Á. 17 (6): 955 Từ978. doi: 10.1016/j.asieco.2006.09.001. Vinod, HD (2006). "Maximum entropy ensembles for time series inference in economics". Journal of Asian Economics. 17 (6): 955–978. doi:10.1016/j.asieco.2006.09.001.
  36. ^Vinod, Hrishikesh; López-de-Lacalle, Javier (2009). "Maximum Entropy Bootstrap cho chuỗi thời gian: Gói Meboot R". Tạp chí phần mềm thống kê. 29 (5): 1 trận19. doi: 10.18637/jsss.v029.i05. Vinod, Hrishikesh; López-de-Lacalle, Javier (2009). "Maximum entropy bootstrap for time series: The meboot R package". Journal of Statistical Software. 29 (5): 1–19. doi:10.18637/jss.v029.i05.
  37. ^Cameron, A. C .; Gelbach, J. B .; Miller, D. L. (2008). "Những cải tiến dựa trên bootstrap cho suy luận với các lỗi phân cụm" (pdf). Đánh giá về kinh tế và thống kê. 90 (3): 414 Từ427. doi: 10.1162/rest.90.3.414. Cameron, A. C.; Gelbach, J. B.; Miller, D. L. (2008). "Bootstrap-based improvements for inference with clustered errors" (PDF). Review of Economics and Statistics. 90 (3): 414–427. doi:10.1162/rest.90.3.414.
  38. ^Chamandy, n; Muralidharan, O; Najmi, a; N Nikol, S (2012). "Ước tính độ không đảm bảo cho các luồng dữ liệu lớn". Chamandy, N; Muralidharan, O; Najmi, A; Naidu, S (2012). "Estimating Uncertainty for Massive Data Streams".
  39. ^Hanley, James A. và Brenda MacGibbon. "Tạo các mẫu bootstrap không tham số bằng tần số Poisson." Phương pháp và chương trình máy tính trong y sinh 83.1 (2006): 57-62. PDF Hanley, James A., and Brenda MacGibbon. "Creating non-parametric bootstrap samples using Poisson frequencies." computer methods and programs in biomedicine 83.1 (2006): 57-62. pdf
  40. ^Babu, G. Jogesh, P. K. Pathak và C. R. Rao. "Sự đúng đắn thứ hai của Poisson Bootstrap." Biên niên sử thống kê 27,5 (1999): 1666-1683. liên kết Babu, G. Jogesh, P. K. Pathak, and C. R. Rao. "Second-order correctness of the Poisson bootstrap." The Annals of Statistics 27.5 (1999): 1666-1683. link
  41. ^Shoemaker, Owen J. và P. K. Pathak. "Bootstrap tuần tự: So sánh với bootstrap thông thường." Truyền thông về Thống kê-Lý thuyết và Phương pháp 30.8-9 (2001): 1661-1674. liên kết Shoemaker, Owen J., and P. K. Pathak. "The sequential bootstrap: a comparison with regular bootstrap." Communications in Statistics-Theory and Methods 30.8-9 (2001): 1661-1674. link
  42. ^Jiménez-Gamero, María Dolores, Joaquín Muñoz-García và Rafael Pino-Mejías. "Giảm bootstrap cho trung bình." Statistica Sinica (2004): 1179-1198. liên kết Jiménez-Gamero, María Dolores, Joaquín Muñoz-García, and Rafael Pino-Mejías. "Reduced bootstrap for the median." Statistica Sinica (2004): 1179-1198. link
  43. ^Kleiner, a; Talwalkar, a; Sarkar, p; Jordan, M. I. (2014). "Một bootstrap có thể mở rộng cho dữ liệu lớn". Tạp chí của Hiệp hội Thống kê Hoàng gia, Sê -ri B (Phương pháp thống kê). 76 (4): 795 Từ816. ARXIV: 1112.5016. doi: 10.1111/rssb.12050. ISSN & NBSP; 1369-7412. S2CID & NBSP; 3064206. Kleiner, A; Talwalkar, A; Sarkar, P; Jordan, M. I. (2014). "A scalable bootstrap for massive data". Journal of the Royal Statistical Society, Series B (Statistical Methodology). 76 (4): 795–816. arXiv:1112.5016. doi:10.1111/rssb.12050. ISSN 1369-7412. S2CID 3064206.
  44. ^ Abdavison, A. C .; Hinkley, D. V. (1997). Phương pháp bootstrap và ứng dụng của chúng. Series Cambridge trong toán học thống kê và xác suất. Nhà xuất bản Đại học Cambridge. ISBN & NBSP; 0-521-57391-2. phần mềm.a b Davison, A. C.; Hinkley, D. V. (1997). Bootstrap methods and their application. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press. ISBN 0-521-57391-2. software.
  45. ^ Abchesterberg, Tim C (2014). "Những gì giáo viên nên biết về bootstrap: lấy mẫu lại trong chương trình giảng dạy thống kê đại học". arxiv: 1411.5279 [stat.ot].a b c Hesterberg, Tim C (2014). "What Teachers Should Know about the Bootstrap: Resampling in the Undergraduate Statistics Curriculum". arXiv:1411.5279 [stat.OT].
  46. ^Efron, B. (1982). Jackknife, bootstrap và các kế hoạch lấy mẫu khác. Tập & NBSP; 38. Hiệp hội Toán học công nghiệp và ứng dụng CBMS-NSF. ISBN & NBSP; 0-89871-179-7. Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans. Vol. 38. Society of Industrial and Applied Mathematics CBMS-NSF Monographs. ISBN 0-89871-179-7.
  47. ^Scheiner, S. (1998). Thiết kế và phân tích các thí nghiệm sinh thái. Báo chí CRC. ISBN & NBSP; 0412035618. Scheiner, S. (1998). Design and Analysis of Ecological Experiments. CRC Press. ISBN 0412035618.
  48. ^Gạo, John. Thống kê toán học và phân tích dữ liệu (2 & nbsp; ed.). p. & nbsp; 272. "Mặc dù phương trình trực tiếp của các lượng tử của phân phối lấy mẫu bootstrap với giới hạn tự tin có vẻ hấp dẫn ban đầu, nhưng lý do của nó có phần khó hiểu." Rice, John. Mathematical Statistics and Data Analysis (2 ed.). p. 272. "Although this direct equation of quantiles of the bootstrap sampling distribution with confidence limits may seem initially appealing, it’s rationale is somewhat obscure."
  49. ^Dữ liệu từ các ví dụ trong phân tích dữ liệu Bayes Data from examples in Bayesian Data Analysis
  50. ^Chihara, Laura; Hesterberg, Tim (3 tháng 8 năm 2018). Thống kê toán học với lấy mẫu lại và r (2nd & nbsp; ed.). John Wiley & Sons, Inc. DOI: 10.1002/9781119505969. ISBN & NBSP; 9781119416548. S2CID & NBSP; 60138121. Chihara, Laura; Hesterberg, Tim (3 August 2018). Mathematical Statistics with Resampling and R (2nd ed.). John Wiley & Sons, Inc. doi:10.1002/9781119505969. ISBN 9781119416548. S2CID 60138121.
  51. ^Trẻ, G. A. (tháng 7 năm 1990). "Bootstraps được làm mịn thay thế". Tạp chí của Hiệp hội Thống kê Hoàng gia, Sê -ri B (Phương pháp học). 52 (3): 477 Từ484. doi: 10.1111/j.2517-6161.1990.tb01801.x. ISSN & NBSP; 0035-9246. Young, G. A. (July 1990). "Alternative Smoothed Bootstraps". Journal of the Royal Statistical Society, Series B (Methodological). 52 (3): 477–484. doi:10.1111/j.2517-6161.1990.tb01801.x. ISSN 0035-9246.

Đọc thêm [Chỉnh sửa][edit]

  • Diaconis, P .; Efron, B. (tháng 5 năm 1983). "Phương pháp sử dụng nhiều máy tính trong thống kê" (PDF). Khoa học người Mỹ. 248 (5): 116 Từ130. Bibcode: 1983sciam.248e.116d. doi: 10.1038/Khoa họcAmerican0583-116. Được lưu trữ từ bản gốc (PDF) vào ngày 2016-03-13. Truy cập 2016-01-19. khoa học Phổ Thông(PDF). Scientific American. 248 (5): 116–130. Bibcode:1983SciAm.248e.116D. doi:10.1038/scientificamerican0583-116. Archived from the original (PDF) on 2016-03-13. Retrieved 2016-01-19. popular-science
  • Efron, B. (1981). "Ước tính không tham số của lỗi tiêu chuẩn: jackknife, bootstrap và các phương pháp khác". Biometrika. 68 (3): 589 Từ599. doi: 10.1093/sinh học/68.3.589.68 (3): 589–599. doi:10.1093/biomet/68.3.589.
  • Hesterberg, T. C .; D. S. Moore; S. Monaghan; A. Clipson & R. Epstein (2005). "Phương pháp bootstrap và kiểm tra hoán vị" (PDF). Trong David S. Moore & George McCabe (chủ biên). Giới thiệu về thực hành thống kê. phần mềm. Được lưu trữ từ bản gốc (PDF) vào ngày 2006-02-15. Truy cập 2007-03-23.(PDF). In David S. Moore & George McCabe (eds.). Introduction to the Practice of Statistics. software. Archived from the original (PDF) on 2006-02-15. Retrieved 2007-03-23.
  • Efron, Bradley (1979). "Phương pháp bootstrap: Một cái nhìn khác về jackknife". Biên niên sử thống kê. 7: 1 bóng26. doi: 10.1214/AOS/1176344552.7: 1–26. doi:10.1214/aos/1176344552.
  • Efron, Bradley (1981). "Ước tính không tham số của lỗi tiêu chuẩn: jackknife, bootstrap và các phương pháp khác". Biometrika. 68 (3): 589 Từ599. doi: 10.2307/2335441. JStor & NBSP; 2335441.68 (3): 589–599. doi:10.2307/2335441. JSTOR 2335441.
  • Efron, Bradley (1982). Jackknife, The Bootstrap và các kế hoạch lấy mẫu khác, trong Hiệp hội các chuyên khảo CBMS-NSF của Hiệp hội Toán học Công nghiệp và Ứng dụng, 38.
  • Diaconis, P .; Efron, Bradley (1983), "Phương pháp sử dụng nhiều máy tính trong thống kê", Khoa học Mỹ, tháng 5, 116.
  • Efron, Bradley; Tibshirani, Robert J. (1993). Giới thiệu về The Bootstrap, New York: Chapman & Hall, Phần mềm.
  • Davison, A. C. và Hinkley, D. V. (1997): Phương pháp bootstrap và ứng dụng của chúng, phần mềm.
  • Mooney, C Z & Duval, R D (1993). Bootstrapping. Một cách tiếp cận không tham số để suy luận thống kê. SAGE SAGE SERIES SERIES về các ứng dụng định lượng trong Khoa học xã hội, 07-095. Công viên Newbury, CA: Sage.
  • Simon, J. L. (1997): Thay đổi lại: Thống kê mới.
  • Wright, D.B., London, K., Field, A.P. sử dụng ước tính bootstrap và nguyên tắc cắm điện cho dữ liệu tâm lý học lâm sàng. 2011 Textrum Ltd. Trực tuyến: https://www.researchgate.net/publication/236647074_using_bootstrap_estimation_and_the_plug-in_principle_for_clinical_psychology_data. Truy cập ngày 25/04/2016.
  • Giới thiệu về Bootstrap. Chuyên khảo về thống kê và xác suất ứng dụng 57. Chapman & Hall/CHC. 1998. Online https://books.google.it/books?id=gLlpIUxRntoC&pg=PA35&lpg=PA35&dq=plug+in+principle&source=bl&ots=A8AsW5K6E2&sig=7WQVzL3ujAnWC8HDNyOzKlKVX0k&hl=en&sa=X&sqi=2&ved=0ahUKEwiU5c-Ho6XMAhUaOsAKHS_PDJMQ6AEIPDAG#v=onepage&q=plug %20in%20principle & f = false. Truy cập ngày 25 04 2016.

Liên kết bên ngoài [Chỉnh sửa][edit]

  • Hướng dẫn lấy mẫu bootstrap sử dụng MS Excel
  • Ví dụ về Bootstrap để mô phỏng giá cổ phiếu bằng cách sử dụng MS Excel
  • Hướng dẫn bootstrapping
  • Bootstrap là gì?

Software[edit][edit]

  • Statistics101: Respling, Bootstrap, Monte Carlo Môn chương trình mô phỏng. Chương trình miễn phí được viết bằng Java để chạy trên bất kỳ hệ điều hành nào.

Khi nào bạn sẽ sử dụng bài kiểm tra giả thuyết bootstrap?

Các thử nghiệm bootstrap rất hữu ích khi giả thuyết thay thế không được chỉ định rõ. Trong trường hợp có giả thuyết thay thế tham số, khả năng hoặc phương pháp Bayes có thể thích hợp hơn.when the alternative hypothesis is not well specified. In cases where there is parametric alternative hypothesis, likelihood or Bayesian methods might be preferable.

Bài kiểm tra bootstrap là gì?

Bootstrapping là bất kỳ thử nghiệm hoặc số liệu nào sử dụng lấy mẫu ngẫu nhiên với sự thay thế (ví dụ: bắt chước quy trình lấy mẫu) và thuộc nhóm phương pháp lấy mẫu rộng hơn.Bootstrapping gán các biện pháp chính xác (sai lệch, phương sai, khoảng tin cậy, lỗi dự đoán, v.v.) cho các ước tính mẫu.any test or metric that uses random sampling with replacement (e.g. mimicking the sampling process), and falls under the broader class of resampling methods. Bootstrapping assigns measures of accuracy (bias, variance, confidence intervals, prediction error, etc.) to sample estimates.

Mẫu bootstrap được sử dụng để làm gì?

Phương pháp Bootstrap là một kỹ thuật lấy mẫu lại được sử dụng để ước tính số liệu thống kê về dân số bằng cách lấy mẫu bộ dữ liệu với sự thay thế.Nó có thể được sử dụng để ước tính số liệu thống kê tóm tắt như trung bình hoặc độ lệch chuẩn.to estimate statistics on a population by sampling a dataset with replacement. It can be used to estimate summary statistics such as the mean or standard deviation.

Bootstrapping có nghĩa là gì trong thống kê?

Bootstrapping đang lấy mẫu với sự thay thế từ dữ liệu được quan sát để ước tính sự thay đổi trong một thống kê quan tâm.Xem thêm các bài kiểm tra hoán vị, một hình thức lấy mẫu liên quan.Một ứng dụng phổ biến của bootstrap là đánh giá độ chính xác của ước tính dựa trên một mẫu dữ liệu từ một dân số lớn hơn.sampling with replacement from observed data to estimate the variability in a statistic of interest. See also permutation tests, a related form of resampling. A common application of the bootstrap is to assess the accuracy of an estimate based on a sample of data from a larger population.