XSTK căn bản

Bài 11: Biểu đồ Scatterplot

Khái niệm

Biểu đồ scatterplots được sử dụng để biểu thị mối quan hệ giữa hai biến định lượng (quantitative variable)

Cách đọc biểu đồ scatterplots

Một biểu đồ scatterplots bao gồm một trục X (trục hoành) và một trục Y (trục tung) và một loạt các chấm (dots). Mỗi chấm thể hiện một quan sát từ một tập dữ liệu với giá trị X và Y tương ứng. Biểu đồ này thực chất không khác với đồ thị hàm số là mấy.

Ví dụ, ta có bảng số liệu về chiều cao và cân nặng của của 5 cầu thủ trong một đội bóng rổ như sau:

Và đây là biểu đồ scatterplots thể hiện bảng dữ liệu trên.

Mỗi cầu thủ trong bảng dữ liệu được thể hiện bằng một chấm xanh. Chấm đầu tiên, thể hiện cầu thủ thấp nhất, nhẹ cân nhất, người này cao 67 inches và nặng khoảng 155 pounds. Tương tự, ta có thể đọc được chiều cao và cân nặng của các cầu thủ khác dựa vào biểu đồ.

HÌnh dạng của dữ liệu trong biểu đồ scatterplots

Biểu đồ scatterplots được dùng để phân tích hình dạng của các tập dữ liệu song biến (bivariate data – tức là có 2 biến).  Các hình dạng này được mô tả bằng các thuật ngữ như Độ tuyến tính (linearity), độ dốc (slope)độ chặt chẽ (strength)

  • Độ tuyến tính thể hiện dữ liệu tuyến tính (thẳng) hay không tuyến tính (cong)
  • Độ dốc thể hiện chiều hướng thay đổi của Y khi X tăng dần. Nếu Y cũng tăng dần, thì độ dốc là dương, nhưng nếu Y giảm dần, thì độ dốc là âm.
  • Độ cứng thể hiện mức độ phân tán của các chấm. Nếu các chấm cách xa nhau, thì mối quan hệ giữa các biến là yếu. Nếu các chấm càng gần sát vào nhau xung quanh một đường, thì mối quan hệ này là chặt chẽ

Thêm vào đó, biểu đồ scatterplots còn có thể thể hiện nhiều đặc tính dị thường trong tập dữ liệu, như là phân nhóm (clusters), các khoảng trống (gap) và điểm ngoại lai (outliers).  Các biểu đồ dưới đây thể hiện một số hình dạng phổ biến.

HÌnh dạng trong ví dụ cuối cùng (nonlinear, zero slope, weak) thể hiện hai biến này không có liên quan gì đến nhau.

Leave a Reply