Thanh khoảng tin cậy biểu đồ Python

Chúng tôi cung cấp nhiều lựa chọn các khóa học từ các trường đại học và tổ chức văn hóa hàng đầu từ khắp nơi trên thế giới. Chúng được cung cấp từng bước một và có thể truy cập được trên thiết bị di động, máy tính bảng và máy tính để bàn, vì vậy bạn có thể phù hợp với việc học xung quanh cuộc sống của mình

Nội dung chính Show

máy tính C. Tôi đã đưa ra bản phân phối cơ bản bằng cách sử dụng lineplot()
máy tính C. I. đưa ra phân phối cơ bản bằng cách sử dụng regplot()
máy tính C. I. sử dụng Bootstrapping

Chúng tôi tin rằng việc học phải là một trải nghiệm xã hội, thú vị, vì vậy các khóa học của chúng tôi mang đến cơ hội thảo luận những gì bạn đang học với những người khác trong quá trình học, giúp bạn có những khám phá mới mẻ và hình thành những ý tưởng mới
Bạn có thể mở khóa những cơ hội mới với quyền truy cập không giới hạn vào hàng trăm khóa học ngắn hạn trực tuyến trong một năm bằng cách đăng ký gói Không giới hạn của chúng tôi. Xây dựng kiến thức của bạn với các trường đại học và tổ chức hàng đầu

Tìm hiểu thêm về cách FutureLearn đang thay đổi cách tiếp cận giáo dục

nhập khẩu cốt truyện. graph_objs as go x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] y = [1, 2, 7, 4, 5, 6, 7, 8, 9, 10] y_upper . Hình([ đi. Phân tán( x=x, y=y, line=dict(color='rgb(0,100,80)'), mode='lines' ), đi. Phân tán ( x=x+x[. -1], # x, sau đó x đảo ngược y=y_upper+y_lower[. -1], # phía trên, sau đó đảo ngược phía dưới fill='toself', fillcolor='rgba(0,100,80,0. 2)', line=dict(color='rgba(255,255,255,0)'), hoverinfo="skip", showlegend=False ) ]) hình. chỉ()

Trong matplotlib, các thanh lỗi có thể có "giới hạn". Áp dụng các giới hạn cho các thanh lỗi về cơ bản làm cho lỗi trở nên đơn hướng. Do đó, các giới hạn trên và dưới có thể được áp dụng theo cả hướng y và x thông qua các tham số uplims, lolims, xuplims và xlolims tương ứng. Các tham số này có thể là mảng vô hướng hoặc boolean

Ví dụ: nếu xlolims là True, các thanh lỗi x sẽ chỉ mở rộng từ dữ liệu theo hướng tăng giá trị. Nếu uplims là một mảng chứa đầy False ngoại trừ giá trị thứ 4 và thứ 7, tất cả các thanh lỗi y sẽ có hai chiều, ngoại trừ thanh thứ 4 và thứ 7, sẽ mở rộng từ dữ liệu theo hướng giảm giá trị y

Khoảng tin cậy là một loại ước tính được tính toán từ số liệu thống kê của dữ liệu được quan sát, đưa ra một loạt các giá trị có khả năng chứa tham số tổng thể với mức độ tin cậy cụ thể

Khoảng tin cậy cho giá trị trung bình là một phạm vi giá trị mà giá trị trung bình của tổng thể có thể nằm trong khoảng đó. Nếu tôi đưa ra dự đoán thời tiết cho ngày mai ở đâu đó trong khoảng từ -100 độ đến +100 độ, tôi có thể chắc chắn 100% rằng điều này sẽ đúng. Tuy nhiên, nếu tôi đưa ra dự đoán là từ 20. 4 và 20. 5 độ C, tôi kém tự tin. Lưu ý cách độ tin cậy giảm, khi khoảng thời gian giảm. Điều tương tự cũng áp dụng cho khoảng tin cậy thống kê, nhưng chúng cũng dựa vào các yếu tố khác

Khoảng tin cậy 95%, sẽ cho tôi biết rằng nếu chúng ta lấy vô số mẫu từ dân số của tôi, tính khoảng thời gian mỗi lần, thì trong 95% các khoảng đó, khoảng đó sẽ chứa trung bình dân số thực. Vì vậy, với một mẫu, chúng ta có thể tính giá trị trung bình của mẫu và từ đó lấy một khoảng xung quanh nó, rất có thể sẽ chứa giá trị trung bình của tổng thể thực

Khu vực dưới hai đường màu đen cho thấy khoảng tin cậy 95%

Khoảng tin cậy là một khái niệm được đưa ra bởi Jerzy Neyman trong một bài báo xuất bản năm 1937. Có nhiều loại khoảng tin cậy, một số loại được sử dụng phổ biến nhất là. CI cho giá trị trung bình, CI cho số trung vị, CI cho sự khác biệt giữa các giá trị trung bình, CI cho tỷ lệ và CI cho sự khác biệt về tỷ lệ

Hãy xem điều này diễn ra như thế nào với Python

máy tính C. Tôi đã đưa ra bản phân phối cơ bản bằng cách sử dụng lineplot()

Hàm lineplot() có sẵn trong Seaborn, một thư viện trực quan hóa dữ liệu cho Python là tốt nhất để hiển thị các xu hướng trong một khoảng thời gian, tuy nhiên, nó cũng giúp vẽ sơ đồ khoảng tin cậy

cú pháp

sns. lineplot(x=None, y=None, hue=None, size=None, style=None, data=None, palette=None, hue_order=None, hue_norm=None, dimensions=None, size_order=None, size_norm=None,
Thông số
x, y. Các biến dữ liệu đầu vào; . Có thể truyền dữ liệu trực tiếp hoặc cột tham chiếu trong dữ liệu
màu sắc. Biến nhóm sẽ tạo ra các dòng có màu khác nhau. Có thể là phân loại hoặc số, mặc dù ánh xạ màu sẽ hoạt động khác trong trường hợp sau
Phong cách. Biến nhóm sẽ tạo ra các dòng có dấu gạch ngang và/hoặc dấu khác nhau. Có thể có một dtype số nhưng sẽ luôn được coi là phân loại
dữ liệu. Khung dữ liệu (“dạng dài”) gọn gàng trong đó mỗi cột là một biến và mỗi hàng là một quan sát
đánh dấu. Đối tượng xác định cách vẽ các điểm đánh dấu cho các cấp độ khác nhau của biến kiểu
huyền thoại. Cách vẽ huyền thoại. Nếu các biến "brief", số "hue" và "size" sẽ được biểu diễn bằng một mẫu gồm các giá trị cách đều nhau
Trở lại. Đối tượng Axes chứa đồ thị

Theo mặc định, biểu đồ tổng hợp trên nhiều giá trị y tại mỗi giá trị của x và hiển thị ước tính về xu hướng trung tâm và khoảng tin cậy cho ước tính đó

Thí dụ

Python3

________số 8_______

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

# generate random data

np.random.seed(import0import1

import2import3 import4_______9_______0_______9_______6import7import6import9import1

numpy as np1import3 import2_______10_______4_______10_______5import0import6numpy as np8_______9_______6_______9_______9import1

import3

import4import3 import6

Trong đoạn mã trên, biến x sẽ lưu trữ 100 số nguyên ngẫu nhiên từ 0 (bao gồm) đến 30 (loại trừ) và biến y sẽ lưu trữ 100 mẫu từ phân phối Gaussian (Bình thường) có tâm là 0 với độ lệch chuẩn/độ lệch chuẩn 1. Các thao tác NumPy thường được thực hiện trên các cặp mảng trên cơ sở từng phần tử. Trong trường hợp đơn giản nhất, hai mảng phải có hình dạng hoàn toàn giống nhau, như trong ví dụ trên. Cuối cùng, một biểu đồ đường được tạo với sự trợ giúp của thư viện seaborn với khoảng tin cậy 95% theo mặc định. Khoảng tin cậy có thể dễ dàng thay đổi bằng cách thay đổi giá trị của tham số ‘ci’ nằm trong khoảng [0, 100], ở đây mình chưa truyền tham số này nên nó coi giá trị mặc định là 95

Bóng màu xanh nhạt cho biết mức độ tin cậy xung quanh điểm đó nếu nó có độ tin cậy cao hơn, đường bóng mờ sẽ dày hơn

máy tính C. I. đưa ra phân phối cơ bản bằng cách sử dụng regplot()

sinh ra biển. regplot() giúp vẽ dữ liệu và phù hợp với mô hình hồi quy tuyến tính. Hàm này cũng cho phép vẽ khoảng tin cậy

cú pháp

sinh ra biển. regplot( x, y, data=None, x_estimator=None, x_bins=None, x_ci='ci', scatter=True, fit_reg=True, ci=95, n_boot=1000, units=None, order=1, logistic=
Thông số. Mô tả của một số thông số chính được đưa ra dưới đây
x, y. Đây là các biến đầu vào. Nếu là chuỗi, chúng phải tương ứng với tên cột trong “dữ liệu”. Khi các đối tượng gấu trúc được sử dụng, các trục sẽ được gắn nhãn bằng tên sê-ri
dữ liệu. Đây là khung dữ liệu trong đó mỗi cột là một biến và mỗi hàng là một quan sát
hạ đẳng. (tùy chọn) Tham số này nhận giá trị boolean. Nếu “Đúng”, hãy sử dụng “mô hình thống kê” để ước tính mô hình mức thấp không tham số (hồi quy tuyến tính có trọng số cục bộ)
màu. (tùy chọn) Màu để áp dụng cho tất cả các thành phần cốt truyện
đánh dấu. (tùy chọn) Điểm đánh dấu để sử dụng cho biểu tượng biểu đồ phân tán
Trở lại. Đối tượng Axes chứa đồ thị

Về cơ bản, nó bao gồm một đường hồi quy trong biểu đồ phân tán và giúp nhìn thấy bất kỳ mối quan hệ tuyến tính nào giữa hai biến. Ví dụ dưới đây sẽ chỉ ra cách nó cũng có thể được sử dụng để vẽ khoảng tin cậy

Thí dụ

Python3

________số 8_______

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

seaborn as sns5

np.random.seed(import0import1

import2import3 import4_______9_______0_______9_______6import4import6import4import1

numpy as np1import3 import2_______10_______4_______10_______5import0import6numpy as np8_______9_______6import4import1

import4import3 3_______9_______3 5import1

Hàm regplot() hoạt động giống như hàm lineplot() với khoảng tin cậy 95% theo mặc định. Có thể dễ dàng thay đổi khoảng tin cậy bằng cách thay đổi giá trị của tham số 'ci' nằm trong khoảng [0, 100]. Ở đây tôi đã chuyển ci=80 có nghĩa là thay vì khoảng tin cậy 95% mặc định, khoảng tin cậy 80% được vẽ

Chiều rộng của bóng màu xanh lam nhạt cho biết mức độ tin cậy xung quanh đường hồi quy

máy tính C. I. sử dụng Bootstrapping

Bootstrapping là một bài kiểm tra/số liệu sử dụng lấy mẫu ngẫu nhiên có thay thế. Nó đưa ra thước đo độ chính xác (độ lệch, phương sai, khoảng tin cậy, lỗi dự đoán, v.v. ) để ước tính mẫu. Nó cho phép ước tính phân phối lấy mẫu cho hầu hết các số liệu thống kê bằng phương pháp lấy mẫu ngẫu nhiên. Nó cũng có thể được sử dụng để xây dựng các bài kiểm tra giả thuyết.

Thí dụ

Python3

________số 8_______

import 9

import # generate random data1

# generate random data2 # generate random data3import # generate random data5

# generate random data2 # generate random data7import # generate random data9

# generate random data2 np.random.seed(1import np.random.seed(3

np.random.seed(5

import2import3 np.random.seed(8np.random.seed(9_______9_______6import01import6import03import6import05import6import07import6import09import6import11_______9_______6_______9_______13_______9_______6_______9_______ 8_______1

import20

import21import3 import23 import24

import25import3 import27_______9_______28import29import30

import32

import33_______9_______3 import35import36

import37 import38_______9_______39 import40_______9_______41

import42_______9_______43_______9_______3 import45_______9_______3_______9_______47

import42_______9_______49import3 import51

import42_______9_______53

import55

import56

import57

import59

import60import3 import62

import63import3 import65_______9_______66import67import68import69import70import1import72 import9

import74import3 import76

import63import3 import79numpy as np4_______9_______65import66import67import68import69import70import87import72 import9

import90import3 import76

import94import95import96import1

Sau khi nhập tất cả các thư viện cần thiết, hãy tạo một mẫu S có kích thước n=10 và lưu trữ nó trong một biến x. Sử dụng một vòng lặp đơn giản tạo ra 1000 mẫu nhân tạo (=k) với kích thước mỗi mẫu m=10 (vì m