XSTK căn bản

Bài 10: Biểu đồ Boxplots (box and whiskers)

Biểu đồ boxplots, hay còn được gọi là box and whiskers, là một loại biểu đồ thể hiện các khuôn hình của dữ liệu định tính (quantitative data).

Cơ bản về boxplots

Một biểu đồ boxplots chia tập dữ liệu thành các khoảng phần tư (quartiles). Phần thân của biểu đồ bao gồm một chiếc hộp box (vì thế mới có tên gọi là boxplots), đi từ Q1 đến Q3.

Trong box này, đường thẳng đứng kẻ xuống đi qua Q2, là trung vị của tập dữ liệu. 2 đường kẻ ngang, trông như hai cái ria mép được gọi là whiskers, trải rộng ở mặt trước và mặt sau của cái hộp. Cái ria mép bên trái đi từ Q1 đến giá trị nhỏ nhất không ngoại lai của tập dữ liệu, ria mép bên phải đi từ Q3 đến giá trị lớn nhất không ngoại lai của tập dữ liệu.

Nếu tập dữ liệu bao gồm một hay nhiều giá trị ngoại lai, chúng được đánh dấu tách biệt bằng các điểm trên biểu đồ. Trong biểu đồ trên, 2 điểm ngoại lai được biểu diễn bằng 2 chấm bên cạnh ria mép bên phải.

Cách đọc hiểu biểu đồ boxplots

Trung vị được biểu thị bằng đường thẳng đứng ở giữa cái hộp. Trong ví dụ trên, trung vị nằm giữa 4 và 6, xấp xỉ 5

Thêm vào đó, biểu đồ boxplot còn thể hiện 2 đại lượng phổ biến khi nói về độ rộng của một tập dữ liệu:

  • Khoảng dữ liệu (range): Nếu bạn quan tâm đến độ rộng của tất cả dữ liệu thì, đó đơn giản là khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu. Còn nếu bạn muốn loại trừ các giá trị ngoại lai, thì đó là khoảng cách giữa 2 đầu ria mép!
  • Khoảng liên phần tư (IQR): là nửa giữa của tập dữ liệu nằm giữa 2 điểm Q3 và Q1. Trong biểu đồ trên, IQR là khoảng 7 – 3 = 4

Và cuối cùng, biểu đồ boxplots còn cung cấp thông tin cho chúng ta về hình dạng của tập dữ liệu:

Đây là 3 hình dạng chủ yếu về độ lệch. Nếu đường trung vị chia chiếc hộp thành 2 nửa đều nhau, thì tập dữ liệu này đối xứng (symmetric). Nếu nửa phải lớn hơn (nửa trái) thì tập dữ liệu bị lệch phải (right-skewed), và ngược lại, nếu nửa trái lớn hơn thì tập dữ liệu bị lệch trái (left-skewed).

Leave a Reply