XSTK

Bài 2: Tổng thể và mẫu

Việc nghiên cứu thống kê liên quan trực tiếp đến các tập dữ liệu (dataset). Bài học này mô tả 2 kiểu tập dữ liệu quan trọng là Tổng thể (populations)Mẫu (Samples). Cuối bài học sẽ là một ví dụ về cách lấy mẫu ngẫu nhiên bằng Excel.

Tổng thể vs Mẫu

Sự khác biệt chính giữa một tổng thể và mẫu là cách các quan sát (observation) được gán vào tập dữ liệu như thế nào

  • Một tổng thể bao gồm tất cả các thành phần từ một tập dữ liệu
  • Một mẫu bao gồm một hay nhiều quan sát được rút ra từ tổng thể

Tùy thuộc vào phương pháp lấy mẫu, một mẫu có thể có ít, bằng, hoặc nhiều quan sát hơn tổng thể. Từ một tổng thể, ta có thể lấy ra nhiều mẫu khác nhau.

Ngoài ra, còn có thể kể đến những sự khác biệt giữa Tổng thể và Mẫu như sau:

  • Các đặc tính có thể đo đạc được của một tổng thể, như trung bình hay độ lệch chuẩn, được gọi là một tham số (parameter), nhưng đối với một mẫu thì chỉ được gọi là một thống kê (statistic).
  • Các đặc tính của tổng thể và mẫu được kí hiệu khác nhau. Chẳng hạn, trung bình của tổng thể được kí hiệu là \mu, nhưng trung bình của mẫu được kí hiệu là \overline{x}
  • Một số công thức sẽ khác nhau khi áp dụng cho Tổng thể và Mẫu. Chẳng hạn như công thức tính độ lệch chuẩn mà chúng ta sẽ học ở những bài sau.

Lấy mẫu ngẫu nhiên là gì?

Lấy mẫu là quá trình chọn lọc các thành phần của mẫu từ một tổng thể. Lấy mẫu ngẫu nhiên là phương pháp lấy mẫu có những đặc tính sau đây:

  • Tổng thể bao gồm N đối tượng (objects)
  • Mẫu bao gồm n đối tượng
  • Tất cả những mẫu có thể của n đối tượng đều có khả năng xảy ra ngang nhau

Một lợi ích quan trọng của việc lấy mẫu ngẫu nhiên là nó cho phép các nhà nghiên cứu sử dụng các phương pháp thống kê để phân tích kết quả mẫu. Ví dụ, cho một mẫu ngẫu nhiên, các nhà nghiên cứu có thể sử dụng các phương pháp thống kê để xác định khoảng tin cậy xung quanh trung bình cộng của mẫu. Các phương pháp thống thê phân tích sẽ không phù hợp để sử dụng cho các mẫu không ngẫu nhiên.

Có nhiều cách để lấy mẫu ngẫu nhiên. Một trong số đó là sử dụng phương pháp xổ số. Mỗi phần tử của Tổng thể N được gán cho một con số duy nhất. Các con số được đặt trong một cái rổ và được trộn kĩ. Sau đó, một người được bịt mắt kín lần lượt chọn ra n con số. Các phần tử của Tổng thể có số được trọn sẽ được dùng ở trong mẫu.

Cách chọn mẫu ngẫu nhiên bằng Excel.

Giả sử ta có một tập dữ liệu về việc bán nước mía của Thảo trong năm 2017. Download ở đây.

Bây giờ, muốn chọn ngẫu nhiên một mẫu trong tổng thể này, ta cần làm thế nào.

  • Bước 1: Thêm một cột, có tiêu đề là RandomID trước cột Ngày
  • Bước 2: dùng hàm RAND() để tự động lấy các giá trị ngẫu nhiên từ 0 – 1 cho cột này
  • Bước 3: Sắp xếp các giá trị trong cột RandomID theo thứ tự từ nhỏ đến lớn

Ta có được một tập dữ liệu bị trộn lẫn một cách ngẫu nhiên. Giờ đây, ta chỉ cần chọn lấy một lượng thành phần mà chúng ta cần để đưa vào mẫu:

Leave a Reply