GIÁO TRÌNH

Kinh Tế Lượng

Science and Technology

Thống kê suy diễn

Tác giả: Phạm Trí Cao

Thống kê suy diễn - vấn đề ước lượng

Ước lượng

Chúng ta tìm hiểu bản chất, đặc trưng và yêu cầu của ước lượng thống kê thông qua một ví dụ đơn giản là ước lượng giá trị trung bình của tổng thể.

Ví dụ 11. Giả sử chúng ta muốn khảo sát chi phí cho học tập của học sinh tiểu học tại trường tiểu học Y. Chúng ta muốn biết trung bình chi phí cho học tập của một học sinh tiểu học là bao nhiêu. Gọi X là biến ngẫu nhiên ứng với chi phí cho học tập của một học sinh tiểu học (X tính bằng ngàn đồng/học sinh/tháng). Giả sử chúng ta biết phương sai của X là σx2 size 12{σ rSub { size 8{x} } rSup { size 8{2} } } {}=100. Trung bình thực của X là μ size 12{μ} {} là một số chưa biết. Chúng ta tìm cách ước lượng μ size 12{μ} {} dựa trên một mẫu gồm n=100 học sinh được lựa chọn một cách ngẫu nhiên.

Hàm ước lượng cho μ size 12{μ} {}

Chúng ta dùng giá trị trung bình mẫu X__ size 12{ {X} cSup { size 8{"__"} } } {} để ước lượng cho giá trị trung bình của tổng thể μ size 12{μ} {}. Hàm ước lượng như sau

Xˉ size 12{ { bar {X}}} {} là một biến ngẫu nhiên. Ứng với một mẫu cụ thể thì Xˉ size 12{ { bar {X}}} {} nhận một giá trị xác định.

Ước lượng điểm

Ứng với một mẫu cụ thể, giả sử chúng ta tính được Xˉ size 12{ { bar {X}}} {} = 105 (ngàn đồng/học sinh). Đây là một ước lượng điểm.

Xác suất để một ước lượng điểm như trên đúng bằng trung bình thực là bao nhiêu? Rất thấp hay có thể nói hầu như bằng 0.

Ước lượng khoảng

Ước lượng khoảng cung cấp một khoảng giá trị có thể chứa giá trị chi phí trung bình cho học tập của một học sinh tiểu học. Ví dụ chúng ta tìm được Xˉ size 12{ { bar {X}}} {} = 105. Chúng ta có thể nói μ size 12{μ} {}có thể nằm trong khoảng Xˉ±10 size 12{ { bar {X}} +- "10"} {} hay 95μ115 size 12{"95" <= μ <= "115"} {}.

Khoảng ước lượng càng rộng thì càng có khả năng chứa giá trị trung bình thực nhưng một khoảng ước lượng quá rộng như khoảng Xˉ±100 size 12{ { bar {X}} +- "100"} {} hay 5μ205 size 12{5 <= μ <= "205"} {} thì hầu như không giúp ích được gì cho chúng ta trong việc xác định μ size 12{μ} {}. Như vậy có một sự đánh đổi trong ước lượng khoảng với cùng một phương pháp ước lượng nhất định: khoảng càng hẹp thì mức độ tin cậy càng nhỏ.

Phân phối của Xˉ size 12{ { bar {X}}} {}

Theo định lý giới hạn trung tâm 1 thì Xˉ size 12{ { bar {X}}} {} là một biến ngẫu nhiên có phân phối chuẩn. Vì Xˉ size 12{ { bar {X}}} {} có phân phối chuẩn nên chúng ta chỉ cần tìm hai đặc trưng của nó là kỳ vọng và phương sai.

Kỳ vọng của Xˉ size 12{ { bar {X}}} {}

E X ˉ size 12{E left ( { bar {X}} right )} {}

Phương sai của Xˉ size 12{ { bar {X}}} {}

Vậy độ lệch chuẩn của Xˉ size 12{ { bar {X}}} {}

.

Từ thông tin này, áp dụng quy tắc 2 σ size 12{σ} {} thì xác suất khoảng Xˉ±2σxn size 12{ { bar {X}} +- 2 { {σ rSub { size 8{x} } } over { sqrt {n} } } } {} chứa μ size 12{μ} {} sẽ xấp xỉ 95%. Ước lượng khoảng với độ tin cậy 95% cho μ size 12{μ} {}

Lưu ý: Mặc dù về mặt kỹ thuật ta nói khoảng

chứa μ size 12{μ} {} với xác suất 95% nhưng không thể nói một khoảng cụ thể như (103; 107) có xác suất chứa μ size 12{μ} {} là 95%. Khoảng (103;107) chỉ có thể hoặc chứa μ size 12{μ} {} hoặc không chứa μ size 12{μ} {}.

Ý nghĩa chính xác của độ tin cậy 95% cho ước lượng khoảng cho μ size 12{μ} {} như sau: Với quy tắc xây dựng khoảng là

và chúng ta tiến hành lấy một mẫu với cỡ mẫu n và tính được một khoảng ước lượng. Chúng ta cứ lặp đi lặp lại quá trình lấy mẫu và ước lượng khoảng như trên thì khoảng 95% khoảng ước lượng chúng ta tìm được sẽ chứa μ size 12{μ} {}.

Tổng quát hơn, nếu trị thống kê cần ước lượng là

và ta tính được hai ước lượng θˆ1 size 12{ { hat {θ}} rSub { size 8{1} } } {}θˆ2 size 12{ { hat {θ}} rSub { size 8{2} } } {} sao cho

P(θˆ1μθˆ1)=1α size 12{P \( { hat {θ}} rSub { size 8{1} } <= μ <= { hat {θ}} rSub { size 8{1} } \) =1 - α} {} với 0 < α size 12{α} {} < 1

hay xác suất khoảng từ θˆ1 size 12{ { hat {θ}} rSub { size 8{1} } } {} đến θˆ2 size 12{ { hat {θ}} rSub { size 8{2} } } {} chứa giá trị thật θ size 12{θ} {} là 1- α size 12{α} {} thì 1- α size 12{α} {} được gọi là độ tin cậy của ước lượng, α size 12{α} {} được gọi là mức ý nghĩa của ước lượng và cũng là xác suất mắc sai lầm loại I.

Nếu α size 12{α} {}= 5% thì 1- α size 12{α} {} là 95%. Mức ý nghĩa 5% hay độ tin cậy 95% thường được sử dụng trong thống kê và trong kinh tế lượng.

Các tính chất đáng mong đợi của một ước lượng được chia thành hai nhóm, nhóm tính chất của ước lượng trên cỡ mẫu nhỏ và nhóm tính chất ước lượng trên cỡ mẫu lớn.

Các tính chất ứng với mẫu nhỏ

Không thiên lệch(không chệch)

Một ước lượng là không thiên lệch nếu kỳ vọng của θˆ size 12{ { hat {θ}}} {} đúng bằng θ size 12{θ} {}.

E ( θ ˆ ) = θ size 12{E \( { hat {θ}} \) =θ} {}

Như đã chứng minh ở phần trên, Xˉ size 12{ { bar {X}}} {} là ước lượng không thiên lệch của μ size 12{μ} {}.

Hình 2.4. Tính không thiên lệch của ước lượng.

θ size 12{θ} {}1 là ước lượng không thiên lệch của μ size 12{μ} {} trong khi θ size 12{θ} {}2 là ước lượng thiên lệch của μ size 12{μ} {}.

Phương sai nhỏ nhất

Hàm ước lượng θˆ1 size 12{ { hat {θ}} rSub { size 8{1} } } {} có phương sai nhỏ nhất khi với bất cứ hàm ước lượng θˆ2 size 12{ { hat {θ}} rSub { size 8{2} } } {} nào ta cũng có var(θˆ1)var(θˆ2) size 12{"var" \( { hat {θ}} rSub { size 8{1} } \) <= "var" \( { hat {θ}} rSub { size 8{2} } \) } {}.

Không thiên lệch tốt nhất hay hiệu quả

Một ước lượng là hiệu quả nếu nó là ước lượng không thiên lệch và có phương sai nhỏ nhất.

Hình 2.5. Ước lượng hiệu quả. Hàm ước lượng θ size 12{θ} {}2 hiệu quả hơn θ size 12{θ} {}1.

Tuyến tính

Một ước lượng θˆ size 12{ { hat {θ}}} {} của θ size 12{θ} {} được gọi là ước lượng tuyến tính nếu nó là một hàm số tuyến tính của các quan sát mẫu.

Ta có

Vậy Xˉ size 12{ { bar {X}}} {} là ước lượng tuyến tính cho μ size 12{μ} {}.

Ước lượng không thiên lệch tuyến tính tốt nhất (Best Linear Unbiased Estimator-BLUE)

Một ước lượng θˆ size 12{ { hat {θ}}} {} được gọi là BLUE nếu nó là ước lượng tuyến tính, không thiên lệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không thiên lệch của θ size 12{θ} {}. Có thể chứng minh được Xˉ size 12{ { bar {X}}} {} là BLUE.

Sai số bình phương trung bình nhỏ nhất

Sai số bình phương trung bình: MSE( θˆ size 12{ { hat {θ}}} {})=E( θˆ size 12{ { hat {θ}}} {}- θ size 12{θ} {})2

Sau khi biến đổi chúng ta nhận được: MSE( θˆ size 12{ { hat {θ}}} {})=var( θˆ size 12{ { hat {θ}}} {})+E[E( θˆ size 12{ { hat {θ}}} {})- θ size 12{θ} {}]2

MSE( θˆ size 12{ { hat {θ}}} {})=var( θˆ size 12{ { hat {θ}}} {})+bias( θˆ size 12{ { hat {θ}}} {})

Sai số bình phương trung bình bằng phương sai của ước lượng cộng với thiên lệch của ước lượng. Chúng ta muốn ước lượng ít thiên lệch đồng thời có phương sai nhỏ. Người ta sử dụng tính chất sai số bình phương trung bình nhỏ khi không thể chọn ước lượng không thiên lệch tốt nhất.

Tính chất của mẫu lớn

Một số ước lượng không thoả mãn các tính chất thống kê mong muốn khi cỡ mẫu nhỏ nhưng khi cỡ mẫu lớn đến vô hạn thì lại có một số tính chất thống kê mong muốn. Các tính chất thống kê này được gọi là tính chất của mẫu lớn hay tính tiệm cận.

Tính không thiên lệch tiệm cận

Ước lượng θˆ size 12{ { hat {θ}}} {} được gọi là không thiên lệch tiệm cận của θ size 12{θ} {} nếu limnE(θˆn)=θ size 12{ {"lim"} cSub { size 8{n rightarrow infinity } } E \( { hat {θ}} rSub { size 8{n} } \) =θ} {}

Ví dụ 2.12. Xét phương sai mẫu của biến ngẫu nhiên X:

Có thể chứng minh được

Vậy sx2 size 12{s rSub { size 8{x} } rSup { size 8{2} } } {} là ước lượng không thiên lệch của σx2 size 12{σ rSub { size 8{x} } rSup { size 8{2} } } {}, trong khi σˆx2 size 12{ { hat {σ}} rSub { size 8{x} } rSup { size 8{2} } } {} là ước lượng không thiên lệch tiệm cận của σx2 size 12{σ rSub { size 8{x} } rSup { size 8{2} } } {}.

Nhất quán

Một ước lượng

được gọi là nhất quán nếu xác suất nếu nó tiến đến giá trị đúng của
khi cỡ mẫu ngày càng lớn.

là nhất quán thì
với 1 là một số dương nhỏ tuỳ ý.

Hình 2.6. Ước lượng nhất quán

Quy luật chuẩn tiệm cận

Một ước lượng

được gọi là phân phối chuẩn tiệm cận khi phân phối mẫu của nó tiến đến phân phối chuẩn khi cỡ mẫu n tiến đến vô cùng.

Trong phần trên chúng ta đã thấy biến X có phân phối chuẩn với trung bình μ và phương sai σ2 thì Xˉ size 12{ { bar {X}}} {} có phân phối chuẩn với trung bình μ và phương sai σ2/n với cả cỡ mẫu nhỏ và lớn.

Nếu X là biến ngẫu nhiên có trung bình μ và phương sai σ2 nhưng không theo phân phân phối chuẩn thì

cũng sẽ có phân phối chuẩn với trung bình μ và phương sai σ2/n khi n tiến đến vô cùng. Đây chính là định lý giới hạn trung tâm 2.