Xác suất & thống kê

Bài 7: Những cách mô tả hình dạng của một tập dữ liệu (phân phối)

Số liệu một khi được biểu diễn dưới dạng đồ hoạ sẽ giúp ta dễ dàng nhận ra các đặc điểm của nó, từ đó có thể so sánh tập dữ liệu này với tập dữ liệu khác. Nhưng các nhà thống kê thường quan tâm đến những đặc tính gì ở một tập dữ liêu, đó là: trung tâm (center), độ rộng (spread), hình dạng (shape) và các đặc điểm dị biệt (unusual features).

*** Trong những biểu đồ minh hoạ dưới đây, độ cao của mỗi cột thể hiện tần số xuất hiện các quan sát tương ứng của giá trị đó.

Trung tâm (Center)

Trong biểu đồ bên dưới, trung vị của tập dữ liệu là phần tử số 4. Vị trí này chia tập dữ liệu thành hai nửa. Ta nhận thấy, 2 nửa của tập dữ liệu có tổng tần suất bằng nhau. Ta nói tập dữ liệu này có trung tâm là 4.

Độ rộng (spread)

Độ rộng của một phân phối nhằm ám chỉ sự đa dạng của dữ liệu. Nếu giá trị của các quan sát trải rộng hơn, ta nói phân phối đó rộng hơn. Nếu giá trị của các quan sát có xu hướng co về một giá trị đơn lẻ, ta nói phân phối đó hẹp hơn.

Quan hát hai biểu đồ trên. Bên trái, giá trị các quan sát nằm trong khoảng từ 3 đến 7, trong khi đó bên phải, các giá trị nằm trong khoảng từ 1 đến 9. Ta nói phân phối bên phải rộng hơn phân phối bên trái.

Hình dạng (shape)

Hình dáng của một phân phối được mô tả bởi những đặc tính sau:

  • Sự đối xứng (symmetry). khi dữ liệu được biểu diễn bằng đồ thị, một phân phối đối xứng có thể được chia đôi tại điểm trung tâm, tạo ra 2 nửa mà mỗi nửa là hình ảnh phản chiếu của nửa còn lại.
  • Số đỉnh (number of peaks). Các phân phối có thể có một hoặc nhiều đỉnh. Những phân phối với một đỉnh rõ ràng được gọi là đơn đỉnh (unimodal), 2 đỉnh được gọi là song đỉnh (bimodal). Nếu một phân phối đối xứng và có một đỉnh ở trung tâm thì ta gọi phân phối đó có dạng cái chuông (bell-shaped).
  • Độ lệch (skewness). Khi được thể hiện dưới dạng đồ thị, một số phân phối có thể có nhiều quan sát  ở một phía hơn so với phía còn lại. Các phân phối có ít quan sát hơn ở phía bên phải được gọi là lệch phải (right-skewed), các phân phối có ít quan sát hơn ở phía trái được gọi là lệch trái (left-skewed).
  • Độ đồng đều (uniform). Khi các quan sát trong một tập dữ liệu bằng nhau trong suốt khoảng rộng của phân phối, thì phân phối đó được gọi là đồng đều (uniform). Một phân phối được gọi là đồng đều thì không có đỉnh.

Dưới đây là một số hình dáng tiêu biểu:

Những đặc tính dị thường (unusual features)

Đôi khi, các nhà thống kê thường nhắc đến những đặc tính dị thường trong một tập dữ liệu.

  • Khoảng trống (gap). Khoảng trống là những vùng của một phân phói mà không có quan sát nào. Hình dưới đây có một khoảng trống, không có dữ liệu quan sát được ở giữa phân phối này.
  • Các giá trị ngoại lai (outliers). Đôi khi, một số phân phối xuất hiện những giá trị khác biệt đáng kể so với các quan sát khác. Những giá trị cực đoan này được gọi là giá trị ngoại lai. Trong ví dụ dưới đây, tất cả các giá trị đều nằm trong khoảng từ 0 và 4 ngoại trừ một giá trị ở mãi điểm thứ 9.

Leave a Reply