Xác suất & thống kê

Bài 3: Trung bình và trung vị

Trung bình (mean)trung vị (median) là hai thước đo phổ biến nhất trong việc đo xu hướng tập trung (central tendency) của dữ liệu.

Cách tính trung bình và trung vị

  • Để tìm trung vị, việc đầu tiên là sắp xếp dãy số theo thứ tự từ nhỏ đến lớn. Nếu dãy số có số phần tử là lẻ thì trung vị chính là phần tử nằm ở chính giữa. Nếu dãy số có số phần tử là chẵn thì trung vị được tính bằng trung bình cộng của 2 phần tử chính giữa.
  • Để tìm trung bình, ta cộng tất cả giá trị các phần tử của dãy số lại rồi chia cho tổng số phần tử.

Trung bình của tổng thể : \mu = \frac{\sum X}{N}

Trung bình của mẫu: \overline{x} = \frac{\sum x}{n}

\sum X là tổng tất cả các quan sát của tổng thể, N là số lượng quan sát của tổng thể. \sum x là tổng các quan sát của mẫu, và n là số lượng quan sát của mẫu. (Cần chú ý sự khác nhau về mặt kí hiệu giữa 2 công thức tính trung bình của mẫu và tổng thể).

Giả sử, ta có số liệu về tuổi các học viên trong một lớp học tiếng Anh như sau: 10, 15, 13, 17, 18, 65, 20, 19, 22, 16, 21, 14

Để tính số trung vị, đầu tiên ta sắp xếp các giá trị của dữ liệu theo thứ tự từ nhỏ đến lớn: 10, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 65

Ta nhận thấy, ở đây có 12 giá trị (quan sát), nên trung vị của dãy số này là trung bình cộng của 2 số ở giữa, đó là các giá trị thứ sáu và thứ bảy.

Trung vị: (17+18) / 2 = 17,5

Trung bình: (10+13+14+15+16+17+18+19+20+21+22+65) / 12 = 20,83

Giả sử tập dữ liệu này thay đổi, tăng thêm một quan sát nữa là 27:

10, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 27, 65

Lúc này trung vị chính là giá trị ở chính giữa: 18

Trong Excel, trung bình được tính bằng hàm AVERAGE, còn trung vị được tính bằng hàm MEDIAN.

So sánh số trung bình và trung vị

Cả hai đại lượng này đều nhằm mục đích đo lường xu hướng tập trung của tập dữ liệu. Tuy nhiên, mỗi đại lượng đều có điểm yếu và điểm mạnh riêng.

  • Trung vị là đại lượng tốt hơn trong trường hợp dữ liệu có những giá trị ngoại lai (outliers). Một giá trị được gọi là ngoại lai khi nó chênh lệch với các giá trị còn lại một cách bất thường.
  • Tuy nhiên, khi kích thước của mẫu lớn và không có những giá trị ngoại lai, thì trung bình lại đo lường chính xác hơn về xu hướng tập trung của dữ liệu.

Trong ví dụ ở trên, 65 được coi là một giá trị ngoại lai, vì nó lớn hơn các giá trị còn lại một cách bất thường. Và nó kéo số trung bình chênh lệch khá lớn so với số trung vị (20,83 vs 17,5)

*****

Đừng vội rời đi, blog của tôi còn có một loạt các bài viết giúp bạn rèn luyện tư duy, khai mở nhiều điều trong thế giới quan của bạn.

Leave a Reply