Tính tất cả các thống kê mô tả tiêu chuẩn cho tập dữ liệu của bạn cùng lúc — xu hướng trung tâm (trung bình, trung vị, mốt), độ phân tán (phương sai, độ lệch chuẩn, IQR), ranh giới tứ phân vị và điểm z — mà không cần rời trang. Dán các số phân cách bằng dấu phẩy, khoảng trắng, tab hoặc xuống dòng; máy tính sẽ sắp xếp dữ liệu, chạy công thức và hiển thị từng bước trung gian để bạn kiểm tra mọi con số.
Thống kê là gì?
Thống kê là ngành toán học của việc thu thập, tổ chức, tóm tắt, phân tích và diễn giải dữ liệu. Nó tồn tại bởi vì các con số thô — chẳng hạn danh sách 200 điểm thi — quá nhiễu để nắm bắt trong một cái nhìn. Các thống kê tóm tắt chắt lọc nhiễu đó thành một vài con số mô tả dữ liệu nằm ở đâu, trải rộng đến mức nào và từng giá trị riêng so với phần còn lại ra sao.
Đo lường xu hướng trung tâm
Trả lời câu hỏi "giá trị tiêu biểu là bao nhiêu?". Mỗi đại lượng nắm bắt một ý nghĩa khác nhau của "trung tâm":
- Trung bình (bình quân số học): tổng tất cả giá trị chia cho số lượng. Nhạy với giá trị bất thường — chỉ một giá trị rất lớn có thể kéo nó ra xa phần còn lại.
- Trung vị: giá trị nằm chính giữa khi dữ liệu được sắp xếp. Một nửa tập nằm dưới, một nửa nằm trên. Vững chãi trước giá trị bất thường, vì thế báo cáo giá nhà luôn dẫn trung vị chứ không phải trung bình.
- Mốt: giá trị xuất hiện thường xuyên nhất. Hữu ích cho dữ liệu phân loại ("màu phổ biến nhất") nhưng có thể không xác định hoặc không duy nhất với dữ liệu liên tục.
Đo lường độ phân tán
Độ phân tán cho biết dữ liệu thay đổi nhiều thế nào. Một lớp mà ai cũng đạt 70 có cùng trung bình với lớp có điểm từ 30 đến 100, nhưng lớp thứ hai có độ phân tán khổng lồ.
- Khoảng: max trừ min. Tính nhanh, nhưng bỏ qua mọi giá trị giữa hai đầu.
- Phương sai: trung bình bình phương các sai lệch so với giá trị trung bình. Bình phương làm sai lệch âm và dương đều được tính và nhấn mạnh khoảng cách lớn.
- Độ lệch chuẩn: căn bậc hai của phương sai, cùng đơn vị với dữ liệu gốc. Đại khái là "khoảng cách tiêu biểu tới trung bình".
- Khoảng tứ phân vị (IQR): Q3 − Q1, độ rộng của 50% dữ liệu ở giữa. Vững chãi trước giá trị bất thường, là nền tảng của biểu đồ hộp và quy tắc phát hiện outlier chuẩn.
Điểm Z
Điểm z biểu thị mọi điểm dữ liệu theo đơn vị độ lệch chuẩn so với giá trị trung bình. Công thức là:
z = (x - μ) / σ
Điểm z bằng 0 nghĩa là giá trị nằm đúng tại trung bình; +2 là hai độ lệch chuẩn trên trung bình, −1,5 là một rưỡi độ lệch dưới. Với dữ liệu xấp xỉ chuẩn, quy tắc 68-95-99,7 nói rằng ~68% giá trị nằm trong z = ±1, ~95% trong ±2 và ~99,7% trong ±3 — nên z trên 3 hoặc dưới −3 đủ bất thường để xem xét.
Ứng dụng của thống kê
Thống kê là nền tảng của hầu hết các ngành định lượng:
- Khoa học: phân tích thí nghiệm, kiểm định giả thuyết, khoảng tin cậy, giá trị p
- Kinh doanh: nghiên cứu thị trường, kiểm soát chất lượng (Six Sigma được đặt tên theo ngưỡng độ lệch chuẩn), A/B testing
- Y học: thử nghiệm lâm sàng, dịch tễ học, đường cong liều-đáp ứng, độ nhạy và độ đặc hiệu của xét nghiệm
- Khoa học xã hội: phân tích khảo sát, biên độ sai số thăm dò, nghiên cứu nhân khẩu
- Tài chính: phương sai danh mục, tỷ số Sharpe, Value at Risk, toàn bộ giao dịch định lượng
Câu hỏi thường gặp
Dùng trung bình khi dữ liệu xấp xỉ đối xứng và không có giá trị bất thường cực đoan — điểm thi của một lớp điển hình, chiều cao người trưởng thành trong một quốc gia, nhiệt độ hằng ngày trong một tháng. Trung bình dùng tất cả các giá trị nên nắm trọn thông tin của tập dữ liệu. Dùng trung vị khi dữ liệu bị lệch hoặc có giá trị bất thường. Thu nhập là ví dụ kinh điển: chỉ một tỷ phú trong mẫu 100 người sẽ kéo trung bình lên trên xa thu nhập điển hình, nhưng hầu như không làm dịch chuyển trung vị. Giá nhà, thời gian phản hồi máy chủ web và thời gian chờ trong bệnh viện đều báo cáo bằng trung vị vì lý do tương tự. Lý do toán học: trung bình tối thiểu hóa tổng bình phương sai số, trung vị tối thiểu hóa tổng sai số tuyệt đối. Bình phương sai số trừng phạt nặng một cú trượt lớn, nên trung bình bị giá trị bất thường "kéo theo". Kiểm tra thực tế: nếu trung bình và trung vị chênh nhau hơn ~10% độ lệch chuẩn, dữ liệu của bạn có lẽ bị lệch và trung vị là tóm tắt an toàn hơn.
Độ lệch chuẩn tổng thể chia cho N (số phần tử); độ lệch chuẩn mẫu chia cho N−1. N−1 này gọi là hiệu chỉnh Bessel. Vì sao trừ một? Khi bạn tính trung bình mẫu rồi đo các sai lệch so với nó, dữ liệu gần trung bình mẫu hơn so với trung bình tổng thể thực — do cách xây dựng. Nếu chia cho N, bạn ước lượng thấp hơn phương sai tổng thể một cách hệ thống. Chia cho N−1 hiệu chỉnh sai lệch đó trung bình, cho ước lượng không chệch của phương sai tổng thể. Quy tắc thực hành: nếu bạn có toàn bộ tổng thể (mọi nhân viên của công ty nhỏ, mọi điểm thi của lớp bạn dạy), dùng N. Nếu bạn có mẫu lấy ra từ tổng thể lớn hơn (1.000 cử tri trong 30 triệu, 50 bóng đèn từ sản lượng mỗi ngày của nhà máy) và muốn suy ra điều gì về tổng thể, dùng N−1. Phần lớn phần mềm mặc định dùng N−1: STDEV.S của Excel, std của NumPy với ddof=1, STDEV của Google Sheets. Sự khác biệt quan trọng nhất với mẫu nhỏ — với N=1.000 thì hầu như không đáng kể, với N=4 thì khổng lồ. Dùng nút chọn Mẫu/Tổng thể phía trên nút Tính để đổi mẫu số: chỉ một cú nhấp, công cụ tính lại phương sai, độ lệch chuẩn, sai số chuẩn, hệ số biến thiên và các công thức độ lệch/độ nhọn. Ở chế độ mẫu, sai số chuẩn là độ lệch chuẩn mẫu chia cho √n; ở chế độ tổng thể là độ lệch chuẩn tổng thể chia cho √n.
Các phần mềm khác nhau cho ra Q1 và Q3 khác nhau vì không có một định nghĩa phân vị thống nhất cho tập dữ liệu hữu hạn. Máy tính này dùng nội suy tuyến tính loại trừ trên hạng (n−1)·p: sắp xếp dữ liệu, tính vị trí phân số pos = (n−1)·p với p là 0,25 cho Q1 và 0,75 cho Q3, rồi nội suy tuyến tính giữa hai giá trị đã sắp xếp bao quanh. Đây chính là phương pháp đằng sau PERCENTILE.INC và QUARTILE.INC của Excel, PERCENTILE của Google Sheets, percentile mặc định của NumPy (nội suy tuyến tính) và quantile loại 7 của R. Nó KHÔNG giống PERCENTILE.EXC của Excel (dùng vị trí (n+1)·p) hay phương pháp bản lề Tukey/Moore-McCabe dạy trong nhiều khóa nhập môn — cả hai có thể trả về IQR lớn hơn chút ít trên tập nhỏ. Vậy nếu sách giáo khoa hay công cụ khác báo Q1/Q3 lệch chút so với chúng tôi, nguyên nhân gần như luôn là quy ước phân vị, không phải lỗi — với tập lớn các phương pháp hội tụ và khác biệt biến mất. IQR (Q3 − Q1) và hàng rào outlier 1,5·IQR của Tukey được tính từ các tứ phân vị nội suy này.
Ba lý do. Thứ nhất, bình phương khiến sai lệch dương và âm đều được tính là "khoảng cách tới trung bình" — không bình phương (hay giá trị tuyệt đối), các sai lệch cộng lại bằng 0 do cấu trúc, và như vậy là vô dụng. Thứ hai, bình phương phạt nặng sai lệch lớn hơn sai lệch nhỏ. Hai giá trị cách trung bình 10 đơn vị có trọng số tương đương 50 giá trị cách 2 đơn vị (10² = 100 so với 50 × 2² = 200), nên phương sai nhạy với những cú trượt lớn không thường xuyên — vốn quan trọng hơn trong quản trị rủi ro và kiểm soát chất lượng. Thứ ba, sai lệch bình phương thuận tiện về mặt toán: chúng khả vi mọi nơi (giá trị tuyệt đối thì không tại 0), kết nối gọn ghẽ với phân phối chuẩn và khiến phương sai của tổng bằng tổng phương sai cho các biến độc lập. Bất lợi là phương sai có đơn vị sai — dollar bình phương, kilogram bình phương — vì thế ta thường công bố độ lệch chuẩn, căn bậc hai của phương sai, trở về đúng đơn vị gốc. Độ lệch tuyệt đối trung bình (MAD) tồn tại và vững chãi, nhưng thiếu các tính chất đại số sạch sẽ khiến phương sai trở thành mặc định trong thống kê cổ điển.
Điểm z cho bạn biết một giá trị bất thường đến đâu, theo đơn vị độ lệch chuẩn. z = (x − μ) / σ, trong đó x là giá trị, μ là trung bình tập, σ là độ lệch chuẩn. z dương = trên trung bình, z âm = dưới trung bình, |z| = cách bao nhiêu độ lệch chuẩn. Với dữ liệu xấp xỉ chuẩn, quy tắc thực nghiệm (68-95-99,7) nói khoảng 68% giá trị rơi vào z ∈ [−1, +1], 95% trong [−2, +2] và 99,7% trong [−3, +3]. Vậy z = 1,5 là hơi cao hơn trung bình (cao hơn ~93% giá trị), z = 2,5 cao rõ rệt (top ~0,6%), z = −3 hiếm đến mức đáng nghi là lỗi hoặc trường hợp đặc biệt. Điểm z là cách các kỳ thi SAT/IQ tự hiệu chỉnh (trung bình 100, SD 15 nghĩa IQ 130 là z = +2, top 2,3%), cách bác sĩ đánh dấu kết quả xét nghiệm ngoài khoảng tham chiếu và cách những người làm machine learning phát hiện outlier trước khi huấn luyện. Cảnh báo: quy tắc thực nghiệm chỉ đúng với phân phối xấp xỉ chuẩn. Với dữ liệu lệch hoặc đuôi dày, z bằng 3 có thể không hiếm chút nào — lợi suất hàng ngày của bitcoin nổi tiếng phá luật này.
Khoảng tứ phân vị (IQR) là Q3 trừ Q1 — độ rộng của 50% dữ liệu nằm giữa. Q1 là phân vị thứ 25 (một phần tư giá trị dưới nó), Q3 là phân vị thứ 75. IQR là thước đo độ phân tán vững chãi tiêu chuẩn vì, khác với độ lệch chuẩn, nó miễn nhiễm với giá trị cực đoan: thay đổi điểm lớn nhất từ 100 thành 1.000.000 không làm Q1, Q3 và IQR thay đổi. Quy tắc Tukey (1977) định nghĩa outlier là giá trị dưới Q1 − 1,5·IQR hoặc trên Q3 + 1,5·IQR; vượt 3·IQR gọi là "xa". Biểu đồ hộp vẽ hộp từ Q1 đến Q3, đường ở trung vị, râu đến điểm không-outlier cực đoan nhất, và chấm cho outlier. Hệ số 1,5 được chọn vì, với dữ liệu chuẩn, nó đánh dấu khoảng 0,7% giá trị — gần với ngưỡng z ±2,7. Dùng phát hiện outlier theo IQR khi dữ liệu có thể bị lệch hoặc đuôi dày; dùng theo điểm z khi bạn biết phân phối xấp xỉ chuẩn và muốn tiêu chí sắc nét hơn.
Vì mỗi giá trị xuất hiện đúng một lần. Mốt là giá trị thường gặp nhất, nhưng nếu 100 phép đo đều là số thập phân khác nhau — chiều cao của 100 học sinh đo đến milimét, thời gian phản hồi tính bằng mili giây — không giá trị nào lặp và mốt không xác định. Máy tính này báo cáo "Không có mốt" trong trường hợp đó thay vì chọn tùy ý. Hai trường hợp liên quan: dữ liệu hai mốt có hai giá trị đồng hạng nhất (lớp có nhiều học sinh yếu và nhiều học sinh xuất sắc có thể có hai đỉnh), và dữ liệu đa mốt có hơn hai. Cách xử lý thực tế: chia giá trị vào khoảng (ví dụ chiều cao theo bậc 5 cm) rồi báo cáo bậc nhiều nhất thay vì giá trị. Với dữ liệu liên tục, mốt của histogram được làm trơn (ước lượng mật độ kernel) hữu ích hơn mốt thô. Đây cũng là lý do trung bình và trung vị được chú ý nhiều hơn trong thống kê — chúng luôn tồn tại và là một con số duy nhất, trong khi mốt có thể vắng, một, hoặc nhiều.
Skewness đo độ bất đối xứng của phân phối. Phân phối đối xứng (như chuẩn) có skew = 0. Skew dương nghĩa là đuôi phải dài (ví dụ thu nhập, với vài người rất giàu), skew âm nghĩa là đuôi trái dài (ví dụ tuổi tử vong ở nước phát triển). Kiểm tra đơn giản: nếu trung bình > trung vị, dữ liệu lệch phải; nếu trung bình < trung vị, lệch trái. Kurtosis đo mức độ dày của đuôi so với phân phối chuẩn. Kurtosis cao (leptokurtic) nghĩa là nhiều giá trị cực đoan hơn dự đoán bởi phân phối chuẩn — lợi suất tài chính nổi tiếng là leptokurtic, đó là lý do mô hình dựa trên giả thuyết chuẩn (Black-Scholes, VaR ngây thơ) đánh giá thấp rủi ro sụp đổ. Kurtosis thấp (platykurtic) nghĩa là đuôi mỏng hơn. Vì sao quan trọng? Nhiều kiểm định thống kê giả thiết tính chuẩn, đòi hỏi skew ≈ 0 và kurtosis dư ≈ 0. Với độ lệch mạnh hoặc đuôi dày, trung bình và độ lệch chuẩn trở nên gây hiểu lầm, và bạn nên chuyển sang thống kê vững chãi (trung vị, IQR, trung bình cắt) hoặc biến đổi dữ liệu (biến đổi log sửa dữ liệu dương lệch phải).
Ba lỗi kinh điển mà mọi nhà phân tích nên biết. (1) Nghịch lý Simpson: xu hướng xuất hiện trong nhóm con có thể đảo ngược khi gộp nhóm lại. UC Berkeley bị kiện vì phân biệt giới tính năm 1973 vì phụ nữ có tỷ lệ trúng tuyển toàn trường thấp hơn, nhưng từng khoa thì phụ nữ trúng cao hơn — phụ nữ chỉ ứng tuyển không cân đối vào những khoa khó hơn. (2) Sai số sống sót: nghiên cứu chỉ những người sống sót cho kết luận sai lệch. Các kỹ sư Thế chiến II muốn bọc giáp máy bay trở về tại chỗ có nhiều lỗ đạn nhất; nhà thống kê Abraham Wald chỉ ra họ nên bọc giáp nơi máy bay trở về KHÔNG có lỗ — đó chính là chỗ khiến những chiếc bị bắn hạ rơi. (3) Nhầm tương quan với nhân quả: doanh số kem tương quan với số người chết đuối; cả hai đều do ngày hè nóng nực, không gây nhau. Các bẫy khác gồm ngụy biện công tố (nhầm P(A|B) với P(B|A)), p-hacking (chạy 20 kiểm định rồi chỉ báo cái có ý nghĩa), luật Goodhart ("khi một thước đo trở thành mục tiêu, nó hết là thước đo tốt") và báo cáo trung bình chính xác cho dữ liệu lệch. Bất cứ khi nào tóm tắt thống kê làm bạn ngạc nhiên, hãy nhìn vào phân phối trước khi rút ra kết luận.