Twierdzenie Gaussa-Markowa – twierdzenie statystyki mówiące, że estymator najmniejszych kwadratów jest (o ile jest on stosowalny) najlepszym (tj. mającym najmniejszą wariancję) estymatorem spośród liniowych, nieobciążonych estymatorów liniowego modelu regresji[1].
Niech dany będzie model regresji liniowej, zapisany w notacji macierzowej:

tj.

gdzie
są współczynnikami modelu,
są zmiennymi objaśniającymi natomiast
są zmiennymi losowymi błędu (nazywanymi czasami szumem). W przypadku modelu regresji ze stałą, wprowadza się dodatkowy współczynnik
oraz odpowiadającą mu kolumnę jedynek:
dla wszelkich
Założenia twierdzenia Gaussa-Markowa:
- wartość oczekiwana szumu wynosi 0:
dla wszelkich 

- szumy są parami nieskorelowane:

Liniowy estymator
jest po prostu kombinacją liniową

w której współczynniki
nie zależą od
ale mogą zależeć od
Z definicji, estymator
jest nieobciążony, gdy
![{\displaystyle {\mathsf {E}}\left[{\widehat {\beta }}_{j}\right]=\beta _{j}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cbdfb059a567b934d531db4dad94b031cf9a6c2c)
Niech

będzie kombinacją liniową współczynników. Wówczas błąd średniokwadratowy odpowiadający takiemu oszacowaniu wynosi
![{\displaystyle {\mathsf {E}}\left[\left(\sum _{j=1}^{K}\lambda _{j}\left({\widehat {\beta }}_{j}-\beta _{j}\right)\right)^{2}\right],}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f957adf4740a8935182328ea858dd6df1c1a8642)
Z uwagi na to, że rozważane tu estymatory są nieobciążone, błąd średniokwadratowy jest równy wariancji rzeczonej kombinacji liniowej. Najlepszym nieobciążonym estymatorem (ang. BLUE) jest wektor
o parametrach
którego błąd średniokwadratowy jest najmniejszy spośród wszystkich wektorów
będących kombinacjami liniowymi parametrów. Równoważnie, macierz

jest nieujemnie określona dla każdego liniowego, nieobciążonego estymatora
(zob. uwagi o dowodzie). Estymator najmniejszych kwadratów (ang. OLS) to funkcja

zależna od
oraz
(gdzie
oznacza transpozycję macierzy
). Funkcja ta minimalizuje sumę kwadratów błędów przypadkowych, tj.

Twierdzenie Gaussa-Markowa orzeka, że
- estymator średniokwadraowy (OLS) jest najlepszym nieobciążonym liniowym estymatorem (BLUE)[2].
Niech
będzie dowolnym liniowym etymatorem
gdzie
a
jest
niezerową macierzą. Zakładając nieobciążoność, najlepszy estymator nieobciążony to estymator o minimalnej wariancji. By zakończyć dowód należy wykazać, że wariancja
nie jest mniejsza od wariancji
tj. estymatora najmniejszych kwadratów.
![{\displaystyle {\begin{aligned}{\mathsf {E}}\left[{\tilde {\beta }}\right]&={\mathsf {E}}[Cy]\\&={\mathsf {E}}\left[\left((X'X)^{-1}X'+D\right)(X\beta +\varepsilon )\right]\\&=\left((X'X)^{-1}X'+D\right)X\beta +\left((X'X)^{-1}X'+D\right){\mathsf {E}}[\varepsilon ]\\&=\left((X'X)^{-1}X'+D\right)X\beta &&{\mathsf {E}}[\varepsilon ]=0\\&=(X'X)^{-1}X'X\beta +DX\beta \\&=(I_{K}+DX)\beta .\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8de10b3ab08dda270fe4175a71bb419a2d5867cf)
Oznacza to, że estymator
jest nieobciążony wtedy i tylko wtedy, gdy
W tym wypadku:

Macierz DD' jest nieujemnie określona,
dominuje zatem
poprzez macierz nieujemnie określoną[3] (zob. uwagi o dowodzie).
Powyższy dowód opiera się na równoważności warunku

z tym, że najlepszym (tj. mającym minimalną wariancję) estymatorem
jest
Zależność taka istotnie zachodzi. Niech
będzie dowolnym liniowym, nieobciążonym estymatorem
Wówczas

W tym wypadku, równość zachodzi wtedy i tylko wtedy, gdy
Zachodzi wówczas

Oznacza to, że równość zachodzi wtedy i tylko wtedy, gdy

co implikuje jedyność estymatora najmniejszych kwadratów (OLS) jako estymatora BLUE[4].
- N.H. Bingham, J.M. Fry, Regression: Linear Models in Statistics, Springer Undergraduate Mathematics Series, 2010.
- A. Sen, M. Srivastava, Regression Analysis Theory, Methods, and Applications, Springer-Verlag, New York, 1990.