Nếu biết lập trình, bạn đã có kĩ năng chuyển đổi dữ liệu thành kiến thức bằng cách dùng các công cụ xác suất và thống kê. Cuốn sách hướng dẫn này chỉ cho bạn cách thực hiện tính toán phân tích thống kê trên máy tính, thay vì dùng công thức toán học, với những chương trình viết bằng Python. Bạn sẽ làm việc với một nghiên cứu cụ thể xuyên suốt cuốn sách, nhằm giúp bạn nắm được toàn bộ quá trình phân tích dữ liệu—từ thu thập dữ liệu và phát sinh các đặc trưng thống kê đến nhận diện các dạng mẫu và kiểm định giả thiết. Đồng thời, bạn cũng làm quen với các dạng phân bố, định luật xác suất, cách hiển thị, cùng nhiều công cụ và khái niệm khác. Lời đề tựa của tác giảTôi viết cuốn sách này cho lớp học mà tôi dạy tại Olin College. Mục đích của lớp học là dạy cho sinh viên biết cách dùng công cụ thống kê để khám phá các bộ số liệu thực sự và trả lời những câu hỏi thú vị. Trang web của lớp học là: sites.google.com/site/thinkstats2011a — trong đó bao gồm bài giảng, bài tập trên lớp, bài về nhà, v.v. Các ví dụ trong sách được viết bằng Python, nhưng là một phần nhỏ của ngôn ngữ lập trình này. Nếu bạn đã đọc hết 14 chương đầu tiên trong cuốn Think Python, bạn có thể sẵn sàng tiếp thu nội dung sách. Tác giả, Allen Downey là giáo sư ngành Khoa học máy tính tại Olin College of Engineering. Ông đã dạy khoa học máy tính tại Wellesley College, Colby College và U.C. Berkeley. Ông nhận bằng tiến sĩ khoa học máy tính từ U.C. Berkeley và bằng thạc sĩ từ MIT. Mục lục
Lời nói đầuLí do thôi thúc tôi viết quyển sách nàyThink Stats: Xác suất thống kê dành cho người lập trình là một cuốn giáo trình nhập môn theo kiểu mới dành cho khóa học xác suất thống kê. Cuốn sách nhấn mạnh cách dùng thống kê để khảo sát những tập dữ liệu lớn. Cách tiếp cận là dùng máy tính, vốn có một số ưu điểm:
Cuốn sách này thích hợp cho cách dùng với bài tập lớn. Trong lớp tôi, sinh viên phải hoàn thành một bài tập lớn trong một học kì, trong đó yêu cầu họ đặt ra một câu hỏi thống kê, tìm một tập số liệu phục vụ cho nhận định đó, rồi áp dụng từng kĩ thuật mới học được vào cho chính dữ liệu họ đã chọn. Để giới thiệu về kiểu phân tích mà tôi muốn sinh viên làm theo, cuốn sách này giới thiệu một nghiên cứu cụ thể xuyên suốt các chương. Nó dùng số liệu từ hai nguồn:
Các ví dụ khác đã dùng số liệu từ IRS, U.S. Census, và Boston Marathon. Tôi đã viết cuốn sách này thế nàoKhi một tác giả viết cuốn sách mới, họ thường bắt đầu bằng việc đọc một chồng sách cũ. Vì vậy, phần lớn những cuốn sách mới đều có chứa cùng nội dung theo thứ tự gần như giống các cuốn sách trước đó. Thường có những cụm từ, những lỗi sai lan truyền từ quyển cũ sang quyển mới. Stephen Jay Gould đã viết một bài luận với tựa đề “The Case of the Creeping Fox Terrier Clone” có đề cập đến ví dụ kiểu này. Tôi thì không làm như vậy. Thật ra, khi viết sách này tôi gần như không dùng tài liệu in ấn nào, với một số lí do:
Tài liệu tôi tham khảo nhiều nhất là Wikipedia, “ông ba bị” đối với mọi thư viện. Nói chung, các bài báo tôi đọc về những chủ đề thống kê đều rất tốt (dù tôi đã đồng thời sửa chữa một số chỗ). Tôi ghi chú suốt quyển sách những tham khảo đến các trang Wikipedia, và khuyên bạn nên theo các đường link đó để tìm hiểu thêm; nhiều khi trang Wikipedia nói tiếp vào đúng những chỗ tôi tạm ngừng lại. Những thuật ngữ và kí hiệu dùng trong sách này nói chung đều thống nhất với Wikipedia, trừ khi tôi có một lý do thỏa đáng để viết khác. Những nguồn tham khảo khác mà tôi thấy có ích gồm Wolfram MathWorld và (dĩ nhiên là) Google. Tôi cũng dùng hai cuốn sách khác, Information Theory, Inference, and Learning Algorithms của David McKay, quyển sách khiến tôi đam mê thống kê Bayes, và Numerical Recipes in C của Press và nnk. Nhưng cả hai quyển đều xem được trên mạng miễn phí, vì vậy tôi cũng không quá xấu hổ. Allen B. Downey Danh sách độc giả góp ý sửa chữaNếu bạn có góp ý sửa chữa cuốn sách, hãy gửi thư điện tử đến {[email protected]}. Nếu tôi thực hiện thay đổi theo trong thư của bạn, tôi sẽ điền tên bạn vào danh sách dưới đây (trừ khi bạn từ chối). Nếu bạn ghi cả một phần đoạn câu chứa lỗi thì sẽ tiện hơn nhiều để tôi tìm ra câu lỗi đó. Nếu ghi trang sách và số đề mục thì cũng được nhưng không tiện bằng. Cám ơn bạn! |