Xác suất & thống kê

Bài 4: Các số đo thể hiện độ biến động của dữ liệu

Khi phân tích, các nhà thống kê rất quan tâm đến một tiêu chí gọi là độ biến động (variability), hay độ rộng (spread) của tập dữ liệu. Những số đo phổ biến nhất để đo lường tiêu chí này là khoảng phần tư (IQR), phương sai (variance) và độ lệch chuẩn (standard deviation).

Khoảng giá trị (range)

Khoảng giá trị là sự chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất trong một tập giá trị. Ví dụ, có dãy số sau: 1, 3, 4, 5, 5, 6, 7, 11.  Đối với dãy này, khoảng giá trị là 11-1 (bằng 10).

Khoảng phần tư / Khoảng tứ phân vị (Interquartile Range)

Đây là thước đo dựa trên việc chia một tập dữ liệu thành 4 phần bằng nhau.

Ba điểm mốc chia tập dữ liệu thành 4 phần được ký hiệu lần lượt là Q1, Q2 và Q3.

  • Q1 là giá trị “ở giữa” của nửa đầu tập dữ liệu “đã được sắp xếp”
  • Q2 chính là trung vị của tập dữ liệu
  • Q3 là giá trị “ở giữa” của nửa cuối tập dữ liệu “đã được sắp xếp”

IQR là khoảng giữa Q1 và Q3.

Ví dụ, ta có dãy số sau: 1, 2, 3, 4, 5, 6, 7, 8.

Q2 là trung vị của toàn bộ tập dữ liệu. Trong ví dụ này, ta có tổng số giá trị là chẵn, vì vậy trung vị là trung bình của 2 giá trị ở giữa. Do đó Q2 = (4+5)/2 = 4,5. Q1 là giá trị chính giữa của nửa dữ liệu đầu tiên. Nửa dữ liệu đầu tiên có tổng số giá chị là chẵn nên Q1 là trung bình của 2 giá trị ở giữa, Q1 = (2+3)/2 = 2,5. Q3 là giá trị giữa của nửa dữ liệu thứ hai. Tương tự như Q1, Q3= (6+7)/2 = 6,5. IQR = Q3-Q1 = 6,5 – 2,5 = 4.

Phương sai (Variance)

Trong một tổng thể, phương sai là trung bình cộng của bình phương độ lệch của các giá trị so với trung bình của tổng thể. Phương sai được tính bằng công thức sau.

\sigma^2 = \frac{\sum (X_i - \mu)^2}{N}

Trong đó \sigma^2 là phương sai của tổng thể, \mutrung bình của tổng thể, X_i  là thành phần thứ i của tổng thể, và N là số thành phần của tổng thể.

Các quan sát từ một mẫu ngẫu nhiên có thể được sử dụng để ước lượng phương sai của tổng thể. Trong trường hợp này, công thức tính phương sai có sự khác biệt một chút so với công thức áp dụng cho Tổng thể.

s^2 = \frac{\sum (x_i - \overline{x})^2}{n - 1}

Trong đó s^2 là phương sai của mẫu, \overline{x} là trung bình của mẫu, x_i  là phần tử thứ i của mẫu, và n là số thành phần của mẫu. Ta thấy, so với công thức phương sai của tổng thể, công thức này ta đã chia tổng thu được cho n-1. Mục đích của việc này là nhằm tránh thành kiến trong việc đánh giá phương sai của tổng thể. Nếu bạn cần ước lượng phương sai của một tổng thể mà bạn không biết rõ số lượng mà chỉ có một mẫu ngẫu nhiên, thì đây là công thức bạn cần sử dụng.

Độ lệch chuẩn (standard deviation)

Độ lệch chuẩn là căn bậc hai của phương sai. Do đó, công thức của độ lệch chuẩn của tổng thể là:

\sigma = \sqrt{ \frac{\sum (X_i - \mu)^2}{N}}

Trong đó \sigma là độ lệch chuẩn của của tổng thể, \mu là trung bình của tổng thể. X_i là phần tử thứ i của tổng thể, và N là số thành phần của tổng thể.

Tương tự, độ lệch chuẩn của mẫu được tính bằng công thức:

s = \sqrt{\frac{\sum (x_i - \overline{x})^2}{n - 1}}

Trong đó, s là độ lệch chuẩn của mẫu, \overline{x} là trung bình của mẫu, x_i là thành phần thứ i của mẫu, và n là tổng số thành phần của mẫu

Tác động của việc thay đổi đơn vị

Đôi khi, các nhà nghiên cứu phải thay đổi đơn vị (phút sang giờ, feet thành mét …).

  • Nếu bạn cộng thêm một hằng số vào mỗi giá trị, khoảng cách giữa các giá trị không thay đổi. Kết quả là, tất cả các số đo độ biến động như (khoảng giá trị, khoảng phần tư, độ lệch chuẩn, và phương sai) vẫn giữ nguyên.
  • Nếu bạn nhân mỗi giá trị với một hằng số khoảng giá trị, khoảng phần tư, độ lệch chuẩn cũng được nhân với bấy nhiêu lần. Tuy nhiên phương sai bị tác động lớn hơn. Nó nhân phương sai với bình phương của hằng số đó.

Leave a Reply