XSTK

Bài 1: Biến thống kê.

Biến thống kê là gì?

Trong thống kê, một đại lượng sẽ được gọi là biến (variable) nếu đại lượng này có 2 đặc điểm xác định:

  • Là một thuộc tính mô tả sự vật hiện tượng.
  • Có thể nhận các giá trị có thể khác nhau tùy vào từng chủ thể.

Cụ thể hơn, hãy nhìn vào một tập dữ liệu mẫu dưới đây. Thảo là một sinh viên theo học ngành kế toán. Ngoài việc đến trường, Thảo còn làm thêm bằng việc bán nước mía.

Dữ liệu về việc bán nước mía của Thảo trong tháng Một năm 2017.

Trong ví dụ trên, các đại lượng được gọi là biến là: Ngày, Thứ, Tờ rơi, Nhiệt độ, Lượng mưa, Giá, Doanh số, Doanh thu

Phân loại biến thống kê

Biến định tính và biến định lượng

Biến thống kê có thể được phân loại thành 2 loại:

  • Định tính (qualitative hay categorical). Biến định tính là những biến có giá trị là những tên gọi, hay nói cách khác, kiểu dữ liệu của những biến định tính là dạng chuỗi (string). Trong ví dụ của Thảo, các biến NgàyThứ  là các biến định tính.
  • Định lượng (quantiative). Biến định lượng là những biến có giá trị là những con số, hay kiểu dữ liệu dạng số (numeric). Chúng thể hiện những đại lượng có thể đo lường được. Trong ví dụ của Thảo, các biến Tờ rơi, Giá, Doanh thu, Doanh số, Nhiệt độ, Lượng mưa là các biến định lượng.

Ở những phương trình đại số, các biến định lượng được biểu diễn bởi các biểu tượng (ví dụ: x, y, z)

Biến liên tục và biến đứt đoạn

Biến định lượng có thể được chia tiếp ra làm 2 loại là đứt đoạn (discrete)liên tục (continuous). Nếu một biến có thể nhận bất kì giá trị nào giữa giá trị nhỏ nhất và giá trị lớn nhất của nó, nó được gọi là một biến liên tục; ngược lại, nó được gọi là biến đứt đoạn.

Trong ví dụ của Thảo, nhiệt độ là biến liên tục bởi vì biến này có thể nhận bất kì giá trị nào chúng ta đo được, ví dụ 30, 23.5, 23.1… Tuy nhiên, biến doanh số (được tính theo số cốc nước mía) là biến đứt đoạn bởi vì một ngày Thảo không thể bán được 20.5 cốc hay 40.3 cốc nước mía. Chúng ta chỉ có thể đếm từng cốc nước mía một.

Phân tích đơn biến và phân tích song biến

Phân tích thống kê thường được phân loại theo số lượng biến được nghiên cứu.

  • Phân tích đơn biến (Univariate analysis). Khi tiến hành nghiên cứu một biến số duy nhất, ta gọi đó là phân tích đơn biến. Ví dụ, chúng ta tiến hành một khảo sát để ước lượng doanh số bán nước mía trung bình của Thảo trong 1 năm.
  • Phân tích song biến (Bivariate analysis). Khi tiến hành nghiên cứu mối quan hệ giữa 2 biến số với nhau, ta gọi đó là phân tích song biến. Ví dụ, chúng ta tiến hành nghiên cứu mối quan hệ giữa nhiệt độ và doanh số bán nước mía của Thảo.

Ý nghĩa của việc phân loại biến thống kê.

Phân biệt các kiểu biến đóng một vai trò cực kì quan trọng trong phân tích thống kê. Biết được kiểu biến, chúng ta mới có thể thực hiện các phép tính toán phù hợp với những giá trị của chúng. Hãy quan sát hình dưới đây:

Tôi thực hiện phép tính tổng cho tất cả các giá trị của biến trong ví dụ nước mía. Ta có thể thấy ngay, phép tính tổng (sum) cho ra kết quả bằng 0 đối với biến Thứ, ta có thể tính được Tổng nhiệt độTổng giá nhưng 2 con số này hoàn toàn vô nghĩa. Hàm AVERAGE sẽ có ý nghĩa hơn đối với 2 biến này.

Vì vậy, khi phân tích việc đầu tiên chúng ta cần xem xét đó là kiểu dữ liệu của các biến liên quan là gì.

Leave a Reply