Jak i gdzie stosuje się metodę najmniejszych kwadratów. Metoda najmniejszych kwadratów w Excelu

17.10.2019

Aproksymacja danych eksperymentalnych to metoda polegająca na zastąpieniu danych uzyskanych eksperymentalnie funkcją analityczną, która najbardziej odpowiada lub pokrywa się w punktach węzłowych z wartościami początkowymi (danymi uzyskanymi podczas eksperymentu lub eksperymentu). Obecnie istnieją dwa sposoby definiowania funkcji analitycznej:

Konstruując wielomian interpolacyjny n-stopniowy, który przechodzi bezpośrednio przez wszystkie punkty podana tablica danych. W tym przypadku funkcja aproksymująca jest reprezentowana jako: wielomian interpolacyjny w postaci Lagrange'a lub wielomian interpolacyjny w postaci Newtona.

Konstruując wielomian przybliżający n-stopni, który przechodzi blisko punktów z podanej tablicy danych. W ten sposób funkcja aproksymująca wygładza wszystkie przypadkowe szumy (lub błędy), które mogą wystąpić podczas eksperymentu: zmierzone wartości podczas eksperymentu zależą od czynników losowych, które zmieniają się zgodnie z własnymi losowymi prawami (błędy pomiaru lub instrumentu, niedokładność lub eksperymentalna błędy). W tym przypadku funkcja aproksymująca jest określana metodą najmniejszych kwadratów.

Metoda najmniejszych kwadratów(w literaturze angielskiej Ordinary Least Squares, OLS) to metoda matematyczna oparta na definicji funkcji aproksymującej, która jest budowana w najbliższym sąsiedztwie punktów z danej tablicy danych eksperymentalnych. Bliskość funkcji początkowej i aproksymującej F(x) określa się miarą numeryczną, a mianowicie: suma kwadratów odchyleń danych eksperymentalnych od krzywej aproksymującej F(x) powinna być najmniejsza.

Krzywa dopasowania skonstruowana metodą najmniejszych kwadratów

Stosowana jest metoda najmniejszych kwadratów:

Rozwiązywać nadokreślone układy równań, gdy liczba równań przekracza liczbę niewiadomych;

Poszukiwanie rozwiązania w przypadku zwyczajnych (nienadokreślonych) nieliniowych układów równań;

Do przybliżania wartości punktowych przez pewną funkcję przybliżającą.

Funkcja aproksymująca metodą najmniejszych kwadratów jest wyznaczana z warunku minimalnej sumy kwadratów odchyleń obliczonej funkcji aproksymującej z danej tablicy danych eksperymentalnych. To kryterium metody najmniejszych kwadratów jest zapisane jako następujące wyrażenie:

Wartości obliczonej funkcji aproksymującej w punktach węzłowych,

Określona tablica danych eksperymentalnych w punktach węzłowych.

Kryterium kwadratowe ma szereg „dobrych” właściwości, takich jak różniczkowalność, zapewniając unikalne rozwiązanie problemu aproksymacji z wielomianowymi funkcjami aproksymującymi.

W zależności od warunków problemu funkcja aproksymująca jest wielomianem stopnia m

Stopień funkcji aproksymującej nie zależy od liczby punktów węzłowych, ale jej wymiar musi być zawsze mniejszy niż wymiar (liczba punktów) danej tablicy danych eksperymentalnych.

∙ Jeżeli stopień funkcji aproksymującej wynosi m=1, to aproksymujemy funkcję tablicową linią prostą (regresja liniowa).

∙ Jeżeli stopień funkcji aproksymującej wynosi m=2, to funkcję tablicową aproksymujemy parabolą kwadratową (przybliżenie kwadratowe).

∙ Jeżeli stopień funkcji aproksymującej wynosi m=3, to funkcję tablicową aproksymujemy parabolą sześcienną (przybliżenie sześcienne).

W ogólnym przypadku, gdy wymagane jest skonstruowanie wielomianu aproksymującego stopnia m dla danych wartości tabelarycznych, warunek na minimalną sumę kwadratów odchyleń we wszystkich punktach węzłowych przepisuje się w następującej postaci:

- nieznane współczynniki wielomianu aproksymującego stopnia m;

Liczba określonych wartości tabeli.

Warunkiem koniecznym istnienia minimum funkcji jest równość do zera jej pochodnych cząstkowych względem nieznanych zmiennych . W rezultacie otrzymujemy następujący układ równań:

Przekształćmy wynikowy liniowy układ równań: otwórzmy nawiasy i przenieśmy wyrazy swobodne na prawą stronę wyrażenia. W rezultacie otrzymany układ liniowych wyrażeń algebraicznych zostanie zapisany w następującej postaci:

Ten system liniowych wyrażeń algebraicznych można zapisać w postaci macierzowej:

W rezultacie otrzymano układ równań liniowych o wymiarze m + 1, który składa się z m + 1 niewiadomych. Układ ten można rozwiązać dowolną metodą rozwiązywania liniowych równań algebraicznych (na przykład metodą Gaussa). W wyniku rozwiązania zostaną znalezione nieznane parametry funkcji aproksymującej, które zapewniają minimalną sumę kwadratów odchyleń funkcji aproksymującej od danych pierwotnych, tj. najlepsze możliwe przybliżenie kwadratowe. Należy pamiętać, że jeśli zmieni się choćby jedna wartość danych początkowych, wszystkie współczynniki zmienią swoje wartości, ponieważ są one całkowicie zdeterminowane przez dane początkowe.

Aproksymacja danych początkowych przez zależność liniową

(regresja liniowa)

Jako przykład rozważ metodę wyznaczania funkcji aproksymującej, która jest podana jako zależność liniowa. Zgodnie z metodą najmniejszych kwadratów warunek na minimalną sumę kwadratów odchyleń zapisuje się następująco:

Współrzędne punktów węzłowych tabeli;

Nieznane współczynniki funkcji aproksymującej, która jest podana jako zależność liniowa.

Warunkiem koniecznym istnienia minimum funkcji jest równość do zera jej pochodnych cząstkowych względem nieznanych zmiennych. W rezultacie otrzymujemy następujący układ równań:

Przekształćmy otrzymany liniowy układ równań.

Rozwiązujemy powstały układ równań liniowych. Współczynniki funkcji aproksymującej w postaci analitycznej wyznacza się następująco (metoda Cramera):

Współczynniki te zapewniają konstrukcję liniowej funkcji aproksymującej zgodnie z kryterium minimalizacji sumy kwadratów funkcji aproksymującej z danych wartości tabelarycznych (dane eksperymentalne).

Algorytm implementacji metody najmniejszych kwadratów

1. Dane początkowe:

Biorąc pod uwagę tablicę danych eksperymentalnych z liczbą pomiarów N

Podano stopień przybliżonego wielomianu (m).

2. Algorytm obliczeń:

2.1. Współczynniki są wyznaczane do konstruowania układu równań z wymiarem

Współczynniki układu równań (lewa strona równania)

- indeks numeru kolumny macierzy kwadratowej układu równań

Wolne elementy układu równań liniowych (prawa strona równania)

- indeks numeru wiersza macierzy kwadratowej układu równań

2.2. Tworzenie układu równań liniowych o wymiarze .

2.3. Rozwiązanie układu równań liniowych w celu wyznaczenia nieznanych współczynników wielomianu aproksymującego stopnia m.

2.4 Wyznaczanie sumy kwadratów odchyleń wielomianu aproksymującego od wartości początkowych we wszystkich punktach węzłowych

Znaleziona wartość sumy kwadratów odchyleń jest minimalną możliwą wartością.

Aproksymacja z innymi funkcjami

Należy zauważyć, że podczas aproksymacji danych początkowych zgodnie z metodą najmniejszych kwadratów funkcja logarytmiczna, funkcja wykładnicza i funkcja potęgowa są czasami używane jako funkcja aproksymująca.

Przybliżenie dziennika

Rozważmy przypadek, gdy funkcja aproksymująca jest dana funkcją logarytmiczną postaci:

Metoda najmniejszych kwadratów (LSM) pozwala oszacować różne wielkości na podstawie wyników wielu pomiarów zawierających błędy losowe.

Charakterystyczny MNK

Główną ideą tej metody jest to, że suma kwadratów błędów jest uważana za kryterium dokładności rozwiązania problemu, który ma być zminimalizowany. Korzystając z tej metody, można zastosować zarówno podejście numeryczne, jak i analityczne.

W szczególności, jako implementacja numeryczna, metoda najmniejszych kwadratów wymaga wykonania jak największej liczby pomiarów nieznanej zmiennej losowej. Co więcej, im więcej obliczeń, tym dokładniejsze będzie rozwiązanie. Na podstawie tego zestawu obliczeń (danych początkowych) uzyskuje się kolejny zestaw proponowanych rozwiązań, z którego następnie wybiera się najlepsze. Jeżeli zbiór rozwiązań zostanie sparametryzowany, to metoda najmniejszych kwadratów zostanie sprowadzona do znalezienia optymalnej wartości parametrów.

Jako analityczne podejście do implementacji LSM na zbiorze danych początkowych (pomiarów) i proponowanym zbiorze rozwiązań definiuje się pewien (funkcjonalny), który można wyrazić wzorem otrzymanym jako pewna hipoteza, którą należy potwierdzić. W tym przypadku metoda najmniejszych kwadratów sprowadza się do znalezienia minimum tego funkcjonału na zbiorze błędów kwadratów danych początkowych.

Zauważ, że nie same błędy, ale kwadraty błędów. Czemu? Faktem jest, że często odchylenia pomiarów od dokładnej wartości są zarówno dodatnie, jak i ujemne. Przy określaniu średniej proste sumowanie może prowadzić do błędnego wniosku o jakości oszacowania, ponieważ wzajemne anulowanie wartości dodatnich i ujemnych zmniejszy moc próbkowania zestawu pomiarów. A co za tym idzie trafność oceny.

Aby temu zapobiec, kwadraty odchyleń są sumowane. Co więcej, w celu wyrównania wymiaru wartości mierzonej i ostatecznego oszacowania, suma kwadratów błędów służy do wyodrębnienia

Niektóre zastosowania MNC

MNC jest szeroko stosowany w różnych dziedzinach. Na przykład w teorii prawdopodobieństwa i statystyce matematycznej metoda służy do wyznaczania takiej cechy zmiennej losowej, jak odchylenie standardowe, które określa szerokość zakresu wartości zmiennej losowej.

  • instruktaż

Wprowadzenie

Jestem programistą komputerowym. Zrobiłem największy skok w mojej karierze, kiedy nauczyłem się mówić: "Niczego nierozumiem!" Teraz nie wstydzę się powiedzieć luminarzowi nauki, że daje mi wykład, że nie rozumiem, o czym on, luminarz, do mnie mówi. I to jest bardzo trudne. Tak, przyznanie się, że się nie wie, jest trudne i krępujące. Kto lubi przyznawać się, że nie zna podstaw czegoś - nie. Z racji wykonywanego zawodu muszę uczestniczyć w bardzo wielu prezentacjach i wykładach, na których, przyznaję, w zdecydowanej większości przypadków czuję się senny, bo nic nie rozumiem. A ja tego nie rozumiem, bo ogromny problem obecnej sytuacji w nauce tkwi w matematyce. Zakłada ona, że ​​wszyscy studenci znają absolutnie wszystkie dziedziny matematyki (co jest absurdem). Przyznanie się, że nie wiesz, co to jest pochodna (że to trochę później) jest wstydem.

Ale nauczyłem się mówić, że nie wiem, co to mnożenie. Tak, nie wiem, czym jest podalgebra nad algebrą Liego. Tak, nie wiem po co w życiu potrzebne są równania kwadratowe. Nawiasem mówiąc, jeśli jesteś pewien, że wiesz, mamy o czym rozmawiać! Matematyka to seria sztuczek. Matematycy próbują zmylić i zastraszyć opinię publiczną; gdzie nie ma zamieszania, reputacji, autorytetu. Tak, prestiżowe jest mówienie w najbardziej abstrakcyjnym języku, co samo w sobie jest kompletnym nonsensem.

Czy wiesz, co to jest pochodna? Najprawdopodobniej powiesz mi o granicy relacji różnicowej. Na pierwszym roku matematyki na Uniwersytecie Państwowym w Petersburgu Wiktor Pietrowicz Khavin mnie zdefiniowane pochodna jako współczynnik pierwszego wyrazu szeregu Taylora funkcji w punkcie (osobną gimnastyką było wyznaczenie szeregu Taylora bez pochodnych). Długo śmiałem się z tej definicji, aż w końcu zrozumiałem, o co w niej chodzi. Pochodna to nic innego jak miara tego, jak bardzo różniczkowana funkcja jest podobna do funkcji y=x, y=x^2, y=x^3.

Mam teraz zaszczyt prowadzić wykłady dla studentów, którzy przestraszony matematyka. Jeśli boisz się matematyki - jesteśmy w drodze. Gdy tylko spróbujesz przeczytać jakiś tekst i wydaje ci się, że jest zbyt skomplikowany, to wiedz, że jest źle napisany. Twierdzę, że nie ma ani jednej dziedziny matematyki, o której nie można mówić „na palcach” bez utraty dokładności.

Wyzwanie na najbliższą przyszłość: Poinstruowałem moich uczniów, aby zrozumieli, czym jest regulator liniowo-kwadratowy. Nie wstydź się, zmarnuj trzy minuty swojego życia, skorzystaj z linku. Jeśli czegoś nie rozumiesz, jesteśmy w drodze. Ja (zawodowy matematyk-programista) też nic nie rozumiałem. I zapewniam cię, że można to załatwić „na palcach”. W tej chwili nie wiem, co to jest, ale zapewniam, że będziemy w stanie to rozgryźć.

Tak więc pierwszym wykładem, jaki zamierzam wygłosić moim studentom po tym, jak przybiegną do mnie przerażeni słowami, że regulator liniowo-kwadratowy to straszny bug, którego nigdy w życiu nie opanujecie, jest metody najmniejszych kwadratów. Czy potrafisz rozwiązywać równania liniowe? Jeśli czytasz ten tekst, to najprawdopodobniej nie.

Tak więc, biorąc pod uwagę dwa punkty (x0, y0), (x1, y1), na przykład (1,1) i (3,2), zadaniem jest znalezienie równania prostej przechodzącej przez te dwa punkty:

ilustracja

Ta prosta powinna mieć następujące równanie:

Tutaj alfa i beta są nam nieznane, ale znane są dwa punkty tej prostej:

Możesz zapisać to równanie w postaci macierzowej:

W tym miejscu należy zrobić liryczną dygresję: czym jest matrix? Macierz to nic innego jak tablica dwuwymiarowa. Jest to sposób przechowywania danych, nie należy mu nadawać więcej wartości. To od nas zależy, jak dokładnie zinterpretujemy daną matrycę. Okresowo będę to interpretować jako odwzorowanie liniowe, okresowo jako formę kwadratową, a czasem po prostu jako zbiór wektorów. To wszystko zostanie wyjaśnione w kontekście.

Zastąpmy określone macierze ich symboliczną reprezentacją:

Następnie (alfa, beta) można łatwo znaleźć:

Dokładniej dla naszych poprzednich danych:

Co prowadzi do następującego równania prostej przechodzącej przez punkty (1,1) i (3,2):

Ok, tutaj wszystko jest jasne. I znajdźmy równanie prostej przechodzącej przez nią trzy punkty: (x0,y0), (x1,y1) i (x2,y2):

Oh-oh-oh, ale mamy trzy równania dla dwóch niewiadomych! Zwykły matematyk powie, że nie ma rozwiązania. Co powie programista? I najpierw przepisze poprzedni układ równań w następującej postaci:

W naszym przypadku wektory i, j, b są trójwymiarowe, dlatego (w ogólnym przypadku) nie ma rozwiązania tego układu. Dowolny wektor (alpha\*i + beta\*j) leży na płaszczyźnie rozpiętej przez wektory (i, j). Jeśli b nie należy do tej płaszczyzny, to nie ma rozwiązania (nie można osiągnąć równości w równaniu). Co robić? Szukajmy kompromisu. Oznaczmy przez e(alfa, beta) jak dokładnie nie osiągnęliśmy równości:

A my postaramy się zminimalizować ten błąd:

Dlaczego kwadrat?

Szukamy nie tylko minimum normy, ale także minimum kwadratu normy. Czemu? Sam punkt minimalny pokrywa się, a kwadrat daje funkcję gładką (funkcję kwadratową argumentów (alfa, beta)), natomiast sama długość daje funkcję w postaci stożka, nieróżniczkowalną w punkcie minimalnym. brr. Kwadrat jest wygodniejszy.

Oczywiście błąd jest zminimalizowany, gdy wektor mi prostopadła do płaszczyzny rozpiętej przez wektory ja oraz j.

Ilustracja

Innymi słowy: szukamy takiej prostej, aby suma kwadratów długości odległości od wszystkich punktów do tej prostej była minimalna:

AKTUALIZACJA: tutaj mam ościeżnicę, odległość do linii powinna być mierzona w pionie, a nie w rzucie ortograficznym. Ten komentator ma rację.

Ilustracja

Zupełnie innymi słowami (ostrożnie, słabo sformalizowane, ale powinno być jasne na palcach): bierzemy wszystkie możliwe linie między wszystkimi parami punktów i szukamy linii średniej między wszystkimi:

Ilustracja

Kolejne wyjaśnienie na palcach: przyczepiamy sprężynę między wszystkimi punktami danych (tutaj mamy trzy) a linią, której szukamy, a linia stanu równowagi jest dokładnie tym, czego szukamy.

Minimum formy kwadratowej

Więc biorąc pod uwagę wektor b oraz płaszczyzna rozpięta przez kolumny-wektory macierzy A(w tym przypadku (x0,x1,x2) i (1,1,1)), szukamy wektora mi o minimalnej długości kwadratu. Oczywiście minimum jest osiągalne tylko dla wektora mi, ortogonalna do płaszczyzny rozpiętej przez kolumny-wektory macierzy A:

Innymi słowy, szukamy wektora x=(alfa, beta) takiego, że:

Przypominam, że ten wektor x=(alfa, beta) jest minimum funkcji kwadratowej ||e(alfa, beta)||^2:

Tutaj warto pamiętać, że macierz może być interpretowana tak samo jak postać kwadratowa, na przykład macierz tożsamości ((1,0),(0,1)) może być interpretowana jako funkcja x^2 + y ^ 2:

forma kwadratowa

Cała ta gimnastyka jest znana jako regresja liniowa.

Równanie Laplace'a z warunkiem brzegowym Dirichleta

Teraz najprostszy prawdziwy problem: jest pewna trójkątna powierzchnia, trzeba ją wygładzić. Na przykład załadujmy mój model twarzy:

Oryginalne zatwierdzenie jest dostępne. Aby zminimalizować zależności zewnętrzne, wziąłem kod renderera mojego oprogramowania, już na Habré. Aby rozwiązać system liniowy, używam OpenNL , to świetny solver, ale bardzo trudny w instalacji: musisz skopiować dwa pliki (.h + .c) do folderu projektu. Całe wygładzanie odbywa się za pomocą następującego kodu:

Dla (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&twarz = twarze[i]; dla (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Współrzędne X, Y i Z są rozdzielne, wygładzam je osobno. Oznacza to, że rozwiązuję trzy układy równań liniowych, każdy z taką samą liczbą zmiennych, jak liczba wierzchołków w moim modelu. Pierwsze n wierszy macierzy A ma tylko jedną 1 na wiersz, a pierwszych n wierszy wektora b ma oryginalne współrzędne modelu. Oznacza to, że wiążę sprężynę między nową pozycją wierzchołka a starą pozycją wierzchołka - nowe nie powinny być zbyt daleko od starych.

Wszystkie kolejne wiersze macierzy A (faces.size()*3 = liczba krawędzi wszystkich trójkątów w siatce) mają jedno wystąpienie 1 i jedno wystąpienie -1, podczas gdy wektor b ma zerowe składowe przeciwne. Oznacza to, że umieściłem sprężynę na każdej krawędzi naszej trójkątnej siatki: wszystkie krawędzie starają się uzyskać ten sam wierzchołek, co ich punkt początkowy i końcowy.

Jeszcze raz: wszystkie wierzchołki są zmiennymi i nie mogą odbiegać daleko od swojego pierwotnego położenia, ale jednocześnie starają się upodobnić do siebie.

Oto wynik:

Wszystko byłoby dobrze, model jest naprawdę wygładzony, ale odsunął się od swojej pierwotnej krawędzi. Zmieńmy trochę kod:

Dla (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

W naszej macierzy A dla wierzchołków leżących na krawędzi dodaję nie wiersz z kategorii v_i = verts[i][d], ale 1000*v_i = 1000*verts[i][d]. Co to zmienia? A to zmienia naszą kwadratową postać błędu. Teraz pojedyncze odchylenie od góry na krawędzi będzie kosztować nie jedną jednostkę, jak poprzednio, ale 1000 * 1000 jednostek. Oznacza to, że zawiesiliśmy mocniejszą sprężynę na skrajnych wierzchołkach, rozwiązanie woli mocniej rozciągnąć inne. Oto wynik:

Podwojmy siłę sprężyn między wierzchołkami:
nlWspółczynnik(twarz[ j ], 2); nlWspółczynnik(twarz[(j+1)%3], -2);

Logiczne jest, że powierzchnia stała się gładsza:

A teraz nawet sto razy mocniejszy:

Co to jest? Wyobraź sobie, że zanurzyliśmy druciany pierścień w wodzie z mydłem. W rezultacie powstały film mydlany będzie starał się mieć jak najmniejszą krzywiznę, dotykając tej samej granicy - naszego drucianego pierścienia. Dokładnie to uzyskaliśmy, ustalając granicę i prosząc o gładką powierzchnię wewnątrz. Gratulacje, właśnie rozwiązaliśmy równanie Laplace'a z warunkami brzegowymi Dirichleta. Brzmi nieźle? Ale w rzeczywistości tylko jeden układ równań liniowych do rozwiązania.

Równanie Poissona

Miejmy kolejną fajną nazwę.

Powiedzmy, że mam taki obraz:

Wszyscy są dobrzy, ale krzesło mi się nie podoba.

Przeciąłem zdjęcie na pół:



I wybiorę krzesło własnymi rękami:

Następnie przeciągnę wszystko, co jest białe w masce, na lewą stronę obrazu i jednocześnie powiem na całym obrazie, że różnica między dwoma sąsiednimi pikselami powinna być równa różnicy między dwoma sąsiednimi pikselami prawy obraz:

Dla (int i=0; i

Oto wynik:

Kod i zdjęcia są dostępne

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów ( MNK, OLS, Zwykła metoda najmniejszych kwadratów) - jedna z podstawowych metod analizy regresji do estymacji nieznanych parametrów modeli regresji z danych próbnych. Metoda opiera się na minimalizacji sumy kwadratów reszt regresji.

Należy zauważyć, że samą metodę najmniejszych kwadratów można nazwać metodą rozwiązywania problemu w dowolnym obszarze, jeśli rozwiązanie składa się lub spełnia określone kryterium minimalizacji sumy kwadratów niektórych funkcji nieznanych zmiennych. Dlatego metoda najmniejszych kwadratów może być również wykorzystana do przybliżonego odwzorowania (przybliżenia) danej funkcji przez inne (prostsze) funkcje, przy znajdowaniu zbioru wielkości spełniających równania lub ograniczenia, których liczba przekracza liczbę tych wielkości itp.

Esencja MNC

Niech jakiś (parametryczny) model zależności probabilistycznej (regresji) między zmienną (wyjaśnianą). y i wiele czynników (zmienne objaśniające) x

gdzie jest wektorem nieznanych parametrów modelu

- Losowy błąd modelu.

Niech będą też przykładowe obserwacje wartości wskazanych zmiennych. Niech będzie liczbą obserwacji (). Następnie są wartości zmiennych w -tej obserwacji. Wówczas dla danych wartości parametrów b możliwe jest obliczenie teoretycznych (modelowych) wartości zmiennej objaśnianej y:

Wartość reszt zależy od wartości parametrów b.

Istotą LSM (zwykłej, klasycznej) jest znalezienie takich parametrów b, dla których suma kwadratów reszt (ang. Pozostała suma kwadratów) będzie minimalne:

W ogólnym przypadku problem ten można rozwiązać numerycznymi metodami optymalizacji (minimalizacji). W tym przypadku mówi się o nieliniowe metody najmniejszych kwadratów(NLS lub NLLS — angielski. Nieliniowe metody najmniejszych kwadratów). W wielu przypadkach można uzyskać rozwiązanie analityczne. Aby rozwiązać problem minimalizacji, należy znaleźć punkty stacjonarne funkcji, różniczkując ją po nieznanych parametrach b, przyrównując pochodne do zera i rozwiązując powstały układ równań:

Jeśli losowe błędy modelu mają rozkład normalny, mają taką samą wariancję i nie są ze sobą skorelowane, oszacowania parametrów metodą najmniejszych kwadratów są takie same, jak oszacowania metodą największej wiarygodności (MLM).

LSM w przypadku modelu liniowego

Niech zależność regresji będzie liniowa:

Pozwalać y- wektor kolumnowy obserwacji zmiennej objaśnianej, oraz - macierz obserwacji czynników (wiersze macierzy - wektory wartości czynnika w danej obserwacji, przy kolumnach - wektor wartości danego czynnika we wszystkich obserwacjach) . Macierzowa reprezentacja modelu liniowego ma postać:

Wtedy wektor oszacowań zmiennej objaśnianej i wektor reszt regresji będą równe

w związku z tym suma kwadratów reszt regresji będzie równa

Różniczkując tę ​​funkcję względem wektora parametrów i przyrównując pochodne do zera, otrzymujemy układ równań (w postaci macierzowej):

.

Rozwiązanie tego układu równań daje ogólny wzór na oszacowania metodą najmniejszych kwadratów dla modelu liniowego:

Dla celów analitycznych przydatna okazuje się ostatnia reprezentacja tej formuły. Jeśli dane w modelu regresji wyśrodkowany, to w tej reprezentacji pierwsza macierz ma znaczenie przykładowej macierzy kowariancji czynników, a druga jest wektorem kowariancji czynników ze zmienną zależną. Jeśli dodatkowo dane są również znormalizowane w SKO (czyli docelowo znormalizowane), to pierwsza macierz ma znaczenie próbnej macierzy korelacji czynników, drugi wektor - wektor próbnych korelacji czynników ze zmienną zależną.

Ważna właściwość oszacowań LLS dla modeli ze stałą- linia konstruowanej regresji przechodzi przez środek ciężkości danych z próby, czyli równość jest spełniona:

W szczególności w skrajnym przypadku, gdy jedynym regresorem jest stała, stwierdzamy, że estymata OLS pojedynczego parametru (samej stałej) jest równa średniej wartości wyjaśnianej zmiennej. Czyli średnia arytmetyczna, znana ze swoich dobrych właściwości z praw wielkich liczb, jest również estymatorem najmniejszych kwadratów – spełnia kryterium minimalnej sumy kwadratów odchyleń od niej.

Przykład: regresja prosta (parami).

W przypadku sparowanej regresji liniowej formuły obliczeniowe są uproszczone (można obejść się bez algebry macierzowej):

Właściwości oszacowań OLS

Przede wszystkim zauważamy, że dla modeli liniowych estymatory metodą najmniejszych kwadratów są estymatorami liniowymi, co wynika z powyższego wzoru. Dla nieobciążonych oszacowań OLS konieczne i wystarczające jest spełnienie najważniejszego warunku analizy regresji: matematyczne oczekiwanie błędu losowego zależnego od czynników musi być równe zeru. Warunek ten jest spełniony w szczególności, jeżeli

  1. matematyczne oczekiwanie błędów losowych wynosi zero, oraz
  2. czynniki i błędy losowe są niezależnymi zmiennymi losowymi.

Drugi warunek – warunek czynników egzogenicznych – jest fundamentalny. Jeśli ta właściwość nie jest spełniona, możemy założyć, że prawie wszystkie oszacowania będą skrajnie niezadowalające: nie będą nawet spójne (to znaczy nawet bardzo duża ilość danych nie pozwala w tym przypadku na uzyskanie szacunków jakościowych). W przypadku klasycznym przyjmuje się silniejsze założenie o determinizmie czynników, w przeciwieństwie do błędu losowego, co automatycznie oznacza, że ​​warunek egzogeniczny jest spełniony. W ogólnym przypadku dla spójności oszacowań wystarczy spełnić warunek egzogeniczności wraz ze zbieżnością macierzy do jakiejś macierzy nieosobliwej wraz ze wzrostem liczebności próby do nieskończoności.

Aby oprócz spójności i bezstronności oszacowania (zwykłych) najmniejszych kwadratów były również skuteczne (najlepsze w klasie liniowych oszacowań nieobciążonych), konieczne jest spełnienie dodatkowych właściwości błędu losowego:

Założenia te można sformułować dla macierzy kowariancji wektora błędu losowego

Nazywa się model liniowy spełniający te warunki klasyczny. Oszacowania OLS dla klasycznej regresji liniowej są nieobciążonymi, spójnymi i najbardziej wydajnymi estymatorami w klasie wszystkich nieobciążonych estymatorów liniowych (w literaturze angielskiej czasami używany jest skrót niebieski (Najlepszy estymator liniowy bez podstawy) jest najlepszym liniowym nieobciążonym oszacowaniem; w literaturze krajowej częściej cytowane jest twierdzenie Gaussa-Markowa). Jak łatwo pokazać, macierz kowariancji wektora oszacowań współczynników będzie równa:

Uogólnione metody najmniejszych kwadratów

Metoda najmniejszych kwadratów pozwala na szerokie uogólnienie. Zamiast minimalizować sumę kwadratów reszt, można zminimalizować pewną dodatnio określoną postać kwadratową wektora resztkowego , gdzie jest pewną symetryczną dodatnio określoną macierzą wag. Szczególnym przypadkiem tego podejścia jest metoda najmniejszych kwadratów zwyczajnych, gdy macierz wag jest proporcjonalna do macierzy tożsamości. Jak wiadomo z teorii macierzy (lub operatorów) symetrycznych, dla takich macierzy istnieje dekompozycja. Dlatego określony funkcjonał można przedstawić w następujący sposób, to znaczy ten funkcjonał można przedstawić jako sumę kwadratów niektórych przekształconych „reszt”. W ten sposób możemy wyróżnić klasę metod najmniejszych kwadratów - metody LS (najmniejszych kwadratów).

Udowodniono (twierdzenie Aitkena), że dla uogólnionego modelu regresji liniowej (w którym nie nakłada się żadnych ograniczeń na macierz kowariancji błędów losowych) najbardziej efektywne (w klasie liniowych oszacowań nieobciążonych) są oszacowania tzw. uogólnione OLS (OMNK, GLS - uogólnione metody najmniejszych kwadratów)- Metoda LS z macierzą wag równą odwrotnej macierzy kowariancji błędów losowych: .

Można wykazać, że wzór na oszacowania GLS parametrów modelu liniowego ma postać

Macierz kowariancji odpowiednio tych oszacowań będzie równa

W rzeczywistości istota OLS polega na pewnym (liniowym) przekształceniu (P) oryginalnych danych i zastosowaniu zwykłych najmniejszych kwadratów do przekształconych danych. Celem tej transformacji jest to, aby dla przekształconych danych błędy losowe spełniały już klasyczne założenia.

Ważone metody najmniejszych kwadratów

W przypadku diagonalnej macierzy wag (a więc macierzy kowariancji błędów losowych) mamy do czynienia z tzw. ważonymi najmniejszymi kwadratami (WLS – Weighted Least Squares). W tym przypadku ważona suma kwadratów reszt modelu jest minimalizowana, to znaczy każda obserwacja otrzymuje „wagę”, która jest odwrotnie proporcjonalna do wariancji błędu losowego w tej obserwacji: . W rzeczywistości dane są przekształcane przez ważenie obserwacji (dzielenie przez wielkość proporcjonalną do przyjętego odchylenia standardowego błędów losowych), a do danych ważonych stosowana jest normalna metoda najmniejszych kwadratów.

Niektóre szczególne przypadki zastosowania LSM w praktyce

Przybliżenie liniowe

Rozważmy przypadek, gdy w wyniku badania zależności pewnej wielkości skalarnej od określonej wielkości skalarnej (Może to być np. zależność napięcia od natężenia prądu: , gdzie jest wartością stałą, rezystancja przewodnika ), zmierzono te wielkości, w wyniku czego wartości i odpowiadające im wartości. Dane pomiarowe należy zapisać w tabeli.

Stół. Wyniki pomiarów.

Nr pomiaru
1
2
3
4
5
6

Pytanie brzmi tak: jaką wartość współczynnika można wybrać, aby najlepiej opisać zależność? Według najmniejszych kwadratów wartość ta powinna być taka, aby suma kwadratów odchyleń wartości od wartości

był minimalny

Suma kwadratów odchyleń ma jedno ekstremum - minimum, które pozwala nam zastosować ten wzór. Znajdźmy wartość współczynnika z tego wzoru. Aby to zrobić, przekształcamy jego lewą stronę w następujący sposób:

Ostatni wzór pozwala nam znaleźć wartość współczynnika , która była wymagana w zadaniu.

Historia

Do początku XIX wieku. naukowcy nie mieli pewnych zasad rozwiązywania układu równań, w którym liczba niewiadomych jest mniejsza niż liczba równań; Do tego czasu stosowano określone metody, w zależności od rodzaju równań i pomysłowości kalkulatorów, dlatego różne kalkulatory, wychodząc z tych samych danych obserwacyjnych, dochodziły do ​​różnych wniosków. Gaussowi (1795) przypisuje się pierwsze zastosowanie metody, a Legendre (1805) niezależnie ją odkrył i opublikował pod jej współczesną nazwą (fr. Methode des moindres quarres ) . Laplace powiązał tę metodę z teorią prawdopodobieństwa, a amerykański matematyk Adrain (1808) rozważał jej probabilistyczne zastosowania. Metoda jest szeroko rozpowszechniona i udoskonalona dzięki dalszym badaniom prowadzonym przez Encke, Bessela, Hansena i innych.

Alternatywne wykorzystanie MNC

Idea metody najmniejszych kwadratów może być wykorzystana także w innych przypadkach niezwiązanych bezpośrednio z analizą regresji. Faktem jest, że suma kwadratów jest jedną z najczęstszych miar bliskości wektorów (metryka euklidesowa w przestrzeniach o skończonych wymiarach).

Jednym z zastosowań jest „rozwiązywanie” układów równań liniowych, w których liczba równań jest większa niż liczba zmiennych

gdzie macierz nie jest kwadratowa, ale prostokątna.

Taki układ równań w ogólnym przypadku nie ma rozwiązania (jeśli rząd jest rzeczywiście większy niż liczba zmiennych). Dlatego układ ten można „rozwiązać” tylko w sensie doboru takiego wektora, aby zminimalizować „odległość” między wektorami a . W tym celu można zastosować kryterium minimalizacji sumy kwadratów różnic lewej i prawej części równań układu, czyli . Łatwo pokazać, że rozwiązanie tego problemu minimalizacji prowadzi do rozwiązania następującego układu równań

Jeśli jakaś wielkość fizyczna zależy od innej wielkości, to zależność tę można zbadać, mierząc y przy różnych wartościach x. W wyniku pomiarów uzyskuje się szereg wartości:

x 1 , x 2 , ..., x ja , ... , x n ;

y 1 , y 2 , ..., y ja , ... , y n .

Na podstawie danych z takiego eksperymentu można wykreślić zależność y = ƒ(x). Otrzymana krzywa pozwala ocenić postać funkcji ƒ(x). Jednak stałe współczynniki, które wchodzą w tę funkcję, pozostają nieznane. Można je wyznaczyć metodą najmniejszych kwadratów. Punkty doświadczalne z reguły nie leżą dokładnie na krzywej. Metoda najmniejszych kwadratów wymaga, aby suma kwadratów odchyleń punktów doświadczalnych od krzywej, tj. 2 był najmniejszy.

W praktyce metoda ta jest najczęściej (i najprościej) stosowana w przypadku zależności liniowej, tj. gdy

y=kx lub y = a + bx.

Zależność liniowa jest bardzo rozpowszechniona w fizyce. I nawet gdy zależność jest nieliniowa, zwykle starają się zbudować wykres w taki sposób, aby uzyskać linię prostą. Np. jeśli założymy, że współczynnik załamania szkła n jest powiązany z długością fali λ fali świetlnej zależnością n = a + b/λ 2 , to zależność n od λ -2 rysuje się na wykresie .

Rozważ zależność y=kx(linia prosta przechodząca przez początek). Skomponujmy wartość φ z sumy kwadratów odchyleń naszych punktów od prostej

Wartość φ jest zawsze dodatnia i okazuje się tym mniejsza, im bliżej prostej leżą nasze punkty. Metoda najmniejszych kwadratów mówi, że dla k należy wybrać taką wartość, przy której φ ma minimum


lub
(19)

Z obliczeń wynika, że ​​średni kwadratowy błąd wyznaczania wartości k jest równy

, (20)
gdzie n jest liczbą wymiarów.

Rozważmy teraz nieco trudniejszy przypadek, gdy punkty muszą spełniać wzór y = a + bx(linia prosta nie przechodząca przez początek).

Zadanie polega na znalezieniu najlepszych wartości a i b z podanego zestawu wartości x i , y i .

Ponownie tworzymy postać kwadratową φ równą sumie kwadratów odchyleń punktów x i , y i od prostej

i znajdź wartości aib, dla których φ ma minimum

;

.

.

Łączne rozwiązanie tych równań daje

(21)

Średniokwadratowe błędy wyznaczania a i b są równe

(23)

.  (24)

Podczas przetwarzania wyników pomiarów tą metodą wygodnie jest zestawić wszystkie dane w tabeli, w której wstępnie obliczono wszystkie wielkości zawarte we wzorach (19)(24). Formy tych tabel pokazano w poniższych przykładach.

Przykład 1 Zbadano podstawowe równanie dynamiki ruchu obrotowego ε = M/J (prosta przechodząca przez początek układu współrzędnych). Dla różnych wartości momentu M zmierzono przyspieszenie kątowe ε pewnego ciała. Należy wyznaczyć moment bezwładności tego ciała. Wyniki pomiarów momentu siły i przyspieszenia kątowego zestawiono w drugiej i trzeciej kolumnie stoły 5.

Tabela 5
n M, N m ε, s-1 M2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Za pomocą wzoru (19) określamy:

.

Aby określić pierwiastek błędu kwadratowego, używamy wzoru (20)

0.005775kg-1 · m -2 .

Według wzoru (18) mamy

; .

SJ = (2,996 0,005775)/0,3337 = 0,05185 kgm2.

Mając rzetelność P = 0,95 , zgodnie z tablicą współczynników Studenta dla n = 5, znajdujemy t = 2,78 i wyznaczamy błąd bezwzględny ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kgm2.

Wyniki zapisujemy w postaci:

J = (3,0 ± 0,2) kgm2;


Przykład 2 Obliczamy współczynnik temperaturowy oporu metalu metodą najmniejszych kwadratów. Rezystancja zależy od temperatury zgodnie z prawem liniowym

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Termin wolny określa rezystancję R 0 w temperaturze 0 ° C, a współczynnik kątowy jest iloczynem współczynnika temperaturowego α i rezystancji R 0 .

Wyniki pomiarów i obliczeń podano w tabeli ( patrz tabela 6).

Tabela 6
n t°, s r, Om t-¯t (t-¯t) 2 (t-¯t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Za pomocą wzorów (21), (22) określamy

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Om.

Znajdźmy błąd w definicji α. Skoro , to ze wzoru (18) mamy:

.

Używając wzorów (23), (24) mamy

;

0.014126 Om.

Mając rzetelność P = 0,95, zgodnie z tabelą współczynników Studenta dla n = 6, znajdujemy t = 2,57 i wyznaczamy błąd bezwzględny Δα = 2,57 0,000132 = 0,000338 stopnie -1.

α = (23 ± 4) 10 -4 grad-1 przy P = 0,95.


Przykład 3 Wymagane jest określenie promienia krzywizny soczewki z pierścieni Newtona. Zmierzono promienie pierścieni Newtona r m i wyznaczono liczbę tych pierścieni m. Promienie pierścieni Newtona są powiązane z promieniem krzywizny soczewki R i liczbą pierścieni za pomocą równania

r 2 m = mλR - 2d 0 R,

gdzie d 0 grubość szczeliny między soczewką a płytką płasko-równoległą (lub odkształcenie soczewki),

λ to długość fali padającego światła.

λ = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

wtedy równanie przyjmie postać y = a + bx.

.

Wpisuje się wyniki pomiarów i obliczeń tabela 7.

Tabela 7
n x = m y \u003d r 2, 10 -2 mm 2 m-¯m (m-¯m) 2 (m-¯m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –



Podobne artykuły