Ako a kde sa používa metóda najmenších štvorcov. Najmenšie štvorce v Exceli

17.10.2019

Aproximácia experimentálnych údajov je metóda založená na nahradení experimentálne získaných údajov analytickou funkciou, ktorá sa v uzlových bodoch najviac zhoduje s počiatočnými hodnotami (údaje získané počas experimentu alebo experimentu). V súčasnosti existujú dva spôsoby, ako definovať analytickú funkciu:

Zostrojením n-stupňového interpolačného polynómu, ktorý prejde priamo cez všetky body dané pole údajov. V tomto prípade je aproximačná funkcia reprezentovaná ako: interpolačný polynóm v Lagrangeovom tvare alebo interpolačný polynóm v Newtonovom tvare.

Zostrojením n-stupňového aproximačného polynómu, ktorý prejde blízko k bodom z daného dátového poľa. Aproximačná funkcia teda vyhladzuje všetok náhodný šum (alebo chyby), ktoré sa môžu vyskytnúť počas experimentu: namerané hodnoty počas experimentu závisia od náhodných faktorov, ktoré kolíšu podľa vlastných náhodných zákonov (chyby merania alebo prístroja, nepresnosť alebo experimentálne chyby). V tomto prípade je aproximačná funkcia určená metódou najmenších štvorcov.

Metóda najmenších štvorcov(v anglickej literatúre Ordinary Least Squares, OLS) je matematická metóda založená na definícii aproximačnej funkcie, ktorá je postavená v tesnej blízkosti bodov z daného poľa experimentálnych údajov. Blízkosť začiatočnej a aproximačnej funkcie F(x) je určená numerickou mierou, a to: súčet kvadrátov odchýlok experimentálnych dát od aproximačnej krivky F(x) by mal byť najmenší.

Fitovacia krivka vytvorená metódou najmenších štvorcov

Používa sa metóda najmenších štvorcov:

Riešiť preurčené sústavy rovníc, keď počet rovníc presahuje počet neznámych;

Hľadať riešenie v prípade obyčajných (nie preurčených) nelineárnych sústav rovníc;

Na aproximáciu bodových hodnôt pomocou nejakej aproximačnej funkcie.

Aproximačná funkcia metódou najmenších štvorcov je určená z podmienky minimálneho súčtu štvorcových odchýlok vypočítanej aproximačnej funkcie z daného poľa experimentálnych dát. Toto kritérium metódy najmenších štvorcov je napísané ako nasledujúci výraz:

Hodnoty vypočítanej aproximačnej funkcie v uzlových bodoch,

Špecifikované pole experimentálnych údajov v uzlových bodoch.

Kvadratické kritérium má množstvo „dobrých“ vlastností, ako je diferencovateľnosť, ktorá poskytuje jedinečné riešenie aproximačného problému s polynomiálnymi aproximačnými funkciami.

V závislosti od podmienok úlohy je aproximačná funkcia polynóm stupňa m

Stupeň aproximačnej funkcie nezávisí od počtu uzlových bodov, ale jej rozmer musí byť vždy menší ako rozmer (počet bodov) daného poľa experimentálnych dát.

∙ Ak je stupeň aproximačnej funkcie m=1, tak tabuľkovú funkciu aproximujeme priamkou (lineárna regresia).

∙ Ak je stupeň aproximačnej funkcie m=2, tak tabuľkovú funkciu aproximujeme kvadratickou parabolou (kvadratická aproximácia).

∙ Ak je stupeň aproximačnej funkcie m=3, tak tabuľkovú funkciu aproximujeme kubickou parabolou (kubickou aproximáciou).

Vo všeobecnom prípade, keď je potrebné zostrojiť aproximačný polynóm stupňa m pre dané tabuľkové hodnoty, podmienka pre minimálny súčet štvorcových odchýlok nad všetkými uzlovými bodmi sa prepíše do nasledujúceho tvaru:

- neznáme koeficienty aproximačného polynómu stupňa m;

Počet špecifikovaných hodnôt tabuľky.

Nevyhnutnou podmienkou existencie minima funkcie je nulová rovnosť jej parciálnych derivácií vzhľadom na neznáme premenné . Výsledkom je nasledujúci systém rovníc:

Transformujme výsledný lineárny systém rovníc: otvorte zátvorky a presuňte voľné členy na pravú stranu výrazu. Výsledkom je, že výsledný systém lineárnych algebraických výrazov bude napísaný v nasledujúcom tvare:

Tento systém lineárnych algebraických výrazov možno prepísať do maticovej formy:

Výsledkom bola sústava lineárnych rovníc rozmeru m + 1, ktorá pozostáva z m + 1 neznámych. Tento systém je možné riešiť pomocou ľubovoľnej metódy na riešenie lineárnych algebraických rovníc (napríklad Gaussova metóda). V dôsledku riešenia sa nájdu neznáme parametre aproximačnej funkcie, ktoré poskytujú minimálny súčet kvadrátov odchýlok aproximačnej funkcie od pôvodných údajov, t.j. najlepšia možná kvadratická aproximácia. Malo by sa pamätať na to, že ak sa zmení čo i len jedna hodnota počiatočných údajov, všetky koeficienty zmenia svoje hodnoty, pretože sú úplne určené počiatočnými údajmi.

Aproximácia počiatočných údajov lineárnou závislosťou

(lineárna regresia)

Ako príklad uvažujme metódu určenia aproximačnej funkcie, ktorá je uvedená ako lineárny vzťah. V súlade s metódou najmenších štvorcov je podmienka pre minimálny súčet štvorcových odchýlok zapísaná takto:

Súradnice uzlových bodov tabuľky;

Neznáme koeficienty aproximačnej funkcie, ktorá je daná ako lineárny vzťah.

Nevyhnutnou podmienkou existencie minima funkcie je nulová rovnosť jej parciálnych derivácií vzhľadom na neznáme premenné. Výsledkom je nasledujúci systém rovníc:

Transformujme výsledný lineárny systém rovníc.

Výslednú sústavu lineárnych rovníc riešime. Koeficienty aproximačnej funkcie v analytickej forme sa určia nasledovne (Cramerova metóda):

Tieto koeficienty poskytujú konštrukciu lineárnej aproximačnej funkcie v súlade s kritériom pre minimalizáciu súčtu štvorcov aproximačnej funkcie z daných tabuľkových hodnôt (experimentálne dáta).

Algoritmus na implementáciu metódy najmenších štvorcov

1. Počiatočné údaje:

Vzhľadom na množstvo experimentálnych údajov s počtom meraní N

Udáva sa stupeň aproximačného polynómu (m).

2. Algoritmus výpočtu:

2.1. Koeficienty sú určené na zostavenie sústavy rovníc s dimenziou

Koeficienty sústavy rovníc (ľavá strana rovnice)

- index čísla stĺpca štvorcovej matice sústavy rovníc

Voľné členy sústavy lineárnych rovníc (pravá strana rovnice)

- index čísla riadku štvorcovej matice sústavy rovníc

2.2. Zostavenie sústavy lineárnych rovníc s dimenziou .

2.3. Riešenie sústavy lineárnych rovníc na určenie neznámych koeficientov aproximačného polynómu stupňa m.

2.4 Určenie súčtu štvorcových odchýlok aproximačného polynómu od počiatočných hodnôt cez všetky uzlové body

Nájdená hodnota súčtu kvadrátov odchýlok je minimálna možná hodnota.

Aproximácia s inými funkciami

Treba poznamenať, že pri aproximácii počiatočných údajov v súlade s metódou najmenších štvorcov sa niekedy ako aproximačná funkcia používa logaritmická funkcia, exponenciálna funkcia a mocninná funkcia.

Aproximácia denníka

Zvážte prípad, keď je aproximačná funkcia daná logaritmickou funkciou tvaru:

Metóda najmenších štvorcov (LSM) umožňuje odhadnúť rôzne veličiny pomocou výsledkov mnohých meraní obsahujúcich náhodné chyby.

Charakteristika MNC

Hlavnou myšlienkou tejto metódy je, že súčet štvorcových chýb sa považuje za kritérium presnosti riešenia problému, ktoré sa má minimalizovať. Pri použití tejto metódy je možné použiť numerický aj analytický prístup.

Konkrétne, ako numerická implementácia, metóda najmenších štvorcov zahŕňa vykonanie čo najväčšieho počtu meraní neznámej náhodnej premennej. Navyše, čím viac výpočtov, tým presnejšie bude riešenie. Na tomto súbore výpočtov (počiatočných údajov) sa získa ďalší súbor navrhnutých riešení, z ktorých sa potom vyberie to najlepšie. Ak je množina riešení parametrizovaná, potom sa metóda najmenších štvorcov zredukuje na nájdenie optimálnej hodnoty parametrov.

Ako analytický prístup k implementácii LSM na súbore počiatočných údajov (meraní) a navrhovanom súbore riešení sú definované niektoré (funkčné), ktoré možno vyjadriť pomocou vzorca získaného ako určitú hypotézu, ktorú je potrebné potvrdiť. V tomto prípade je metóda najmenších štvorcov redukovaná na nájdenie minima tejto funkcionality na množine štvorcových chýb počiatočných údajov.

Všimnite si, že nie samotné chyby, ale druhé mocniny chýb. prečo? Faktom je, že často sú odchýlky meraní od presnej hodnoty pozitívne aj negatívne. Pri určovaní priemeru môže jednoduchý súčet viesť k nesprávnemu záveru o kvalite odhadu, pretože vzájomné zrušenie kladných a záporných hodnôt zníži vzorkovaciu silu súboru meraní. A následne aj presnosť hodnotenia.

Aby sa tomu zabránilo, štvorcové odchýlky sa spočítajú. Ba čo viac, na vyrovnanie rozmeru nameranej hodnoty a konečného odhadu sa na extrakciu používa súčet štvorcových chýb.

Niektoré aplikácie nadnárodných spoločností

MNC sa široko používa v rôznych oblastiach. Napríklad v teórii pravdepodobnosti a matematickej štatistike sa metóda používa na určenie takej charakteristiky náhodnej premennej, ako je štandardná odchýlka, ktorá určuje šírku rozsahu hodnôt náhodnej premennej.

  • tutoriál

Úvod

Som počítačový programátor. Najväčší skok vo svojej kariére som urobil, keď som sa naučil povedať: "Ničomu nerozumiem!" Teraz sa nehanbím povedať osvetľovačovi vedy, že mi robí prednášku, že nerozumiem, o čom ona, svetlica, so mnou hovorí. A je to veľmi ťažké. Áno, je ťažké a trápne priznať, že to neviete. Kto sa rád prizná, že nevie základy niečoho-tam. Z titulu svojej profesie musím absolvovať veľké množstvo prezentácií a prednášok, kde, priznám sa, v drvivej väčšine prípadov pociťujem ospalosť, pretože ničomu nerozumiem. A nerozumiem, pretože obrovský problém súčasnej situácie vo vede spočíva v matematike. Predpokladá, že všetci študenti poznajú absolútne všetky oblasti matematiky (čo je absurdné). Priznať, že neviete, čo je derivát (že toto je trochu neskôr), je škoda.

Ale naučil som sa povedať, že neviem, čo je násobenie. Áno, neviem, čo je subalgebra nad Lieovou algebrou. Áno, neviem, prečo sú v živote potrebné kvadratické rovnice. Mimochodom, ak ste si istí, že viete, potom sa máme o čom rozprávať! Matematika je séria trikov. Matematici sa snažia zmiasť a zastrašiť verejnosť; kde nie je zmätok, povesť, autorita. Áno, je prestížne hovoriť čo najabstraktnejším jazykom, čo je samo o sebe úplný nezmysel.

Viete, čo je derivát? S najväčšou pravdepodobnosťou mi poviete o limite rozdielového vzťahu. V prvom ročníku matematiky na Petrohradskej štátnej univerzite ma Viktor Petrovič Khavin definované derivácia ako koeficient prvého člena Taylorovho radu funkcie v bode (bola to samostatná gymnastika na určenie Taylorovho radu bez derivácií). Dlho som sa na tejto definícii smial, až som konečne pochopil, o čo ide. Derivácia nie je nič iné ako len miera toho, nakoľko je funkcia, ktorú derivujeme, podobná funkcii y=x, y=x^2, y=x^3.

Teraz mám tú česť prednášať študentom, ktorí strach matematiky. Ak sa bojíte matematiky - sme na ceste. Akonáhle sa pokúsite prečítať nejaký text a bude sa vám zdať, že je prehnane komplikovaný, tak vedzte, že je napísaný zle. Tvrdím, že neexistuje jediná oblasť matematiky, o ktorej by sa nedalo hovoriť „na prstoch“ bez straty presnosti.

Výzva pre blízku budúcnosť: Inštruoval som svojich študentov, aby pochopili, čo je lineárny-kvadratický regulátor. Nehanbite sa, premárnite tri minúty svojho života, nasledujte odkaz. Ak niečomu nerozumiete, sme na ceste. Ja (profesionálny matematik-programátor) som tiež ničomu nerozumel. A uisťujem vás, že sa to dá vyriešiť „na prstoch“. Momentálne neviem, čo to je, ale ubezpečujem vás, že na to prídeme.

Takže prvá prednáška, ktorú dám svojim študentom po tom, ako ku mne zdesene pribehnú so slovami, že lineárny kvadratický regulátor je strašná chyba, ktorú nikdy v živote nezvládnete, je metódy najmenších štvorcov. Viete riešiť lineárne rovnice? Ak čítate tento text, tak s najväčšou pravdepodobnosťou nie.

Takže ak sú dané dva body (x0, y0), (x1, y1), napríklad (1,1) a (3,2), úlohou je nájsť rovnicu priamky prechádzajúcej týmito dvoma bodmi:

ilustrácie

Táto priamka by mala mať rovnicu, ako je táto:

Alfa a beta sú nám neznáme, ale známe sú dva body tejto čiary:

Túto rovnicu môžete napísať v maticovom tvare:

Tu by sme mali urobiť lyrickú odbočku: čo je matrica? Matica nie je nič iné ako dvojrozmerné pole. Toto je spôsob ukladania údajov, nemali by sa mu dávať žiadne ďalšie hodnoty. Je na nás, ako presne interpretovať určitú maticu. Periodicky to budem interpretovať ako lineárne zobrazenie, periodicky ako kvadratickú formu a niekedy jednoducho ako množinu vektorov. Toto všetko bude objasnené v kontexte.

Nahraďme konkrétne matice ich symbolickým znázornením:

Potom (alfa, beta) možno ľahko nájsť:

Konkrétnejšie pre naše predchádzajúce údaje:

Čo vedie k nasledujúcej rovnici priamky prechádzajúcej bodmi (1,1) a (3,2):

Dobre, tu je všetko jasné. A nájdime rovnicu priamky prechádzajúcej cez tri body: (x0,y0), (x1,y1) a (x2,y2):

Oh-och-och, ale máme tri rovnice pre dve neznáme! Štandardný matematik povie, že neexistuje žiadne riešenie. Čo povie programátor? A najprv prepíše predchádzajúci systém rovníc v nasledujúcom tvare:

V našom prípade sú vektory i, j, b trojrozmerné, preto (vo všeobecnom prípade) neexistuje riešenie tohto systému. Akýkoľvek vektor (alpha\*i + beta\*j) leží v rovine preklenutej vektormi (i, j). Ak b nepatrí do tejto roviny, potom neexistuje riešenie (rovnosť v rovnici nemožno dosiahnuť). Čo robiť? Hľadajme kompromis. Označme podľa e (alfa, beta) ako presne sme nedosiahli rovnosť:

A túto chybu sa pokúsime minimalizovať:

Prečo štvorec?

Hľadáme nielen minimum normy, ale aj minimum druhej mocniny normy. prečo? Samotný minimálny bod sa zhoduje a štvorec dáva hladkú funkciu (kvadratická funkcia argumentov (alfa,beta)), zatiaľ čo len dĺžka dáva funkciu vo forme kužeľa, nediferencovateľného v minimálnom bode. Brr. Námestie je pohodlnejšie.

Je zrejmé, že chyba je minimalizovaná, keď vektor e ortogonálne k rovine preklenutej vektormi i a j.

Ilustračné

Inými slovami: hľadáme takú priamku, aby súčet druhých mocnín vzdialeností od všetkých bodov k tejto priamke bol minimálny:

AKTUALIZÁCIA: tu mám zárubňu, vzdialenosť k čiare by sa mala merať vertikálne, nie ortografická projekcia. Tento komentátor má pravdu.

Ilustračné

Úplne inými slovami (opatrne, zle formalizované, ale malo by to byť jasné na prstoch): vezmeme všetky možné čiary medzi všetkými pármi bodov a hľadáme priemernú čiaru medzi všetkými:

Ilustračné

Ďalšie vysvetlenie na prstoch: medzi všetky dátové body (tu máme tri) a čiaru, ktorú hľadáme, pripevníme pružinu a čiara rovnovážneho stavu je presne to, čo hľadáme.

Kvadratické minimum tvaru

Takže vzhľadom na vektor b a rovinu preklenutú stĺpcami-vektormi matice A(v tomto prípade (x0,x1,x2) a (1,1,1)), hľadáme vektor e s minimálnou štvorcovou dĺžkou. Je zrejmé, že minimum je dosiahnuteľné len pre vektor e, ortogonálne k rovine preklenutej stĺpcami-vektormi matice A:

Inými slovami, hľadáme vektor x=(alfa, beta) taký, že:

Pripomínam vám, že tento vektor x=(alfa, beta) je minimum kvadratickej funkcie ||e(alfa, beta)||^2:

Tu je užitočné pripomenúť, že maticu možno interpretovať rovnako ako kvadratickú formu, napríklad maticu identity ((1,0), (0,1)) možno interpretovať ako funkciu x^2 + y ^2:

kvadratická forma

Celá táto gymnastika je známa ako lineárna regresia.

Laplaceova rovnica s Dirichletovou okrajovou podmienkou

Teraz najjednoduchší skutočný problém: existuje určitý trojuholníkový povrch, je potrebné ho vyhladiť. Napríklad načítajme model mojej tváre:

Pôvodný záväzok je k dispozícii. Aby som minimalizoval externé závislosti, zobral som kód môjho softvérového renderera, už na Habré. Na vyriešenie lineárneho systému používam OpenNL , je to skvelý riešiteľ, ale jeho inštalácia je veľmi náročná: musíte skopírovať dva súbory (.h + .c) do priečinka projektu. Celé vyhladenie sa vykonáva pomocou nasledujúceho kódu:

Pre (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&face = tváre[i]; pre (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Súradnice X, Y a Z sú oddeliteľné, hladkám ich samostatne. To znamená, že riešim tri sústavy lineárnych rovníc, každú s rovnakým počtom premenných ako je počet vrcholov v mojom modeli. Prvých n riadkov matice A má iba jednu 1 na riadok a prvých n riadkov vektora b má pôvodné súradnice modelu. To znamená, že prepojím novú pozíciu vrcholu a starú pozíciu vrcholu - nové by nemali byť príliš ďaleko od starých.

Všetky nasledujúce riadky matice A (faces.size()*3 = počet hrán všetkých trojuholníkov v mriežke) majú jeden výskyt 1 a jeden výskyt -1, pričom vektor b má nulové zložky oproti. To znamená, že na každý okraj našej trojuholníkovej siete vložím pružinu: všetky okraje sa snažia získať rovnaký vrchol ako ich počiatočný a koncový bod.

Ešte raz: všetky vrcholy sú premenné a nemôžu sa odchýliť ďaleko od svojej pôvodnej polohy, ale zároveň sa snažia navzájom podobať.

Tu je výsledok:

Všetko by bolo v poriadku, model je naozaj vyhladený, no vzdialil sa od pôvodného okraja. Poďme trochu zmeniť kód:

Pre (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

V našej matici A pre vrcholy, ktoré sú na okraji, pridávam nie riadok z kategórie v_i = verts[i][d], ale 1000*v_i = 1000*verts[i][d]. Čo sa tým mení? A to mení našu kvadratickú formu chyby. Teraz jedna odchýlka od vrcholu na okraji nebude stáť jednu jednotku, ako predtým, ale 1 000 * 1 000 jednotiek. To znamená, že na krajné vrcholy sme zavesili silnejšiu pružinu, riešenie radšej silnejšie natiahne ostatné. Tu je výsledok:

Zdvojnásobme silu pružín medzi vrcholmi:
nlKoeficient(tvár[ j], 2); nlKoeficient(tvár[(j+1)%3], -2);

Je logické, že povrch je hladší:

A teraz ešte stokrát silnejšie:

Čo je to? Predstavte si, že sme drôtený krúžok ponorili do mydlovej vody. Výsledkom je, že výsledný mydlový film sa bude snažiť mať čo najmenšie zakrivenie a dotýkať sa rovnakej hranice - nášho drôteného krúžku. To je presne to, čo sme získali, keď sme upevnili okraj a požiadali o hladký povrch vo vnútri. Gratulujeme, práve sme vyriešili Laplaceovu rovnicu s Dirichletovými okrajovými podmienkami. To znie dobre? Ale v skutočnosti stačí vyriešiť len jeden systém lineárnych rovníc.

Poissonova rovnica

Dajme ďalšie skvelé meno.

Povedzme, že mám takýto obrázok:

Všetci sú dobrí, ale stolička sa mi nepáči.

Rozrezal som obrázok na polovicu:



A vyberiem si stoličku rukami:

Potom pretiahnem všetko, čo je v maske biele, na ľavú stranu obrázka a zároveň v celom obrázku poviem, že rozdiel medzi dvoma susednými pixelmi by sa mal rovnať rozdielu medzi dvoma susednými pixelmi obrázka. pravý obrázok:

Pre (int i=0; i

Tu je výsledok:

Kód a obrázky sú k dispozícii

Metóda najmenších štvorcov

Metóda najmenších štvorcov ( MNK, OLS, Obyčajné najmenšie štvorce) - jedna zo základných metód regresnej analýzy na odhadovanie neznámych parametrov regresných modelov zo vzorových údajov. Metóda je založená na minimalizácii súčtu štvorcov regresných zvyškov.

Treba poznamenať, že samotnú metódu najmenších štvorcov možno nazvať metódou riešenia problému v akejkoľvek oblasti, ak riešenie pozostáva z alebo spĺňa určité kritérium na minimalizáciu súčtu druhých mocnín niektorých funkcií neznámych premenných. Preto možno metódu najmenších štvorcov použiť aj na približnú reprezentáciu (aproximáciu) danej funkcie inými (jednoduchšími) funkciami, pri hľadaní množiny veličín vyhovujúcich rovniciam alebo obmedzeniam, ktorých počet presahuje počet týchto veličín. , atď.

Podstata MNC

Nech nejaký (parametrický) model pravdepodobnostnej (regresnej) závislosti medzi (vysvetlenou) premennou r a mnoho faktorov (vysvetľujúce premenné) X

kde je vektor neznámych parametrov modelu

- Náhodná chyba modelu.

Nech sú aj vzorové pozorovania hodnôt uvedených premenných. Nech je číslo pozorovania (). Potom sú to hodnoty premenných v -tom pozorovaní. Potom pre dané hodnoty parametrov b je možné vypočítať teoretické (modelové) hodnoty vysvetlenej premennej y:

Hodnota zvyškov závisí od hodnôt parametrov b.

Podstatou LSM (obyčajného, ​​klasického) je nájsť také parametre b, pre ktoré je súčet štvorcov rezíduí (angl. Zvyšný súčet štvorcov) bude minimálny:

Vo všeobecnom prípade možno tento problém vyriešiť numerickými metódami optimalizácie (minimalizácie). V tomto prípade sa hovorí o nelineárne najmenšie štvorce(NLS alebo NLLS - anglicky. Nelineárne najmenšie štvorce). V mnohých prípadoch je možné získať analytické riešenie. Na vyriešenie úlohy minimalizácie je potrebné nájsť stacionárne body funkcie tak, že ju derivujeme vzhľadom na neznáme parametre b, derivácie priradíme k nule a vyriešime výslednú sústavu rovníc:

Ak sú náhodné chyby modelu normálne rozdelené, majú rovnaký rozptyl a nie sú navzájom korelované, odhady parametrov najmenších štvorcov sú rovnaké ako odhady metódy maximálnej pravdepodobnosti (MLM).

LSM v prípade lineárneho modelu

Nech je regresná závislosť lineárna:

Nechať byť r- stĺpcový vektor pozorovaní vysvetľovanej premennej a - matica pozorovaní faktorov (riadky matice - vektory hodnôt faktorov v danom pozorovaní, po stĺpcoch - vektor hodnôt daného faktora vo všetkých pozorovaniach) . Maticová reprezentácia lineárneho modelu má tvar:

Potom sa vektor odhadov vysvetľovanej premennej a vektor regresných zvyškov budú rovnať

podľa toho sa súčet druhých mocnín regresných zvyškov bude rovnať

Diferencovaním tejto funkcie vzhľadom na vektor parametra a prirovnaním derivácií k nule dostaneme systém rovníc (v maticovom tvare):

.

Riešenie tohto systému rovníc dáva všeobecný vzorec pre odhady najmenších štvorcov pre lineárny model:

Na analytické účely sa ukazuje ako užitočné posledné znázornenie tohto vzorca. Ak údaje v regresnom modeli vycentrované, potom v tomto znázornení má prvá matica význam výberovej kovariančnej matice faktorov a druhá je vektorom kovariancií faktorov so závislou premennou. Ak je navyše údaj aj normalizované na SKO (teda v konečnom dôsledku štandardizované), potom prvá matica má význam výberová korelačná matica faktorov, druhý vektor - vektor výberových korelácií faktorov so závislou premennou.

Dôležitá vlastnosť odhadov LLS pre modely s konštantou- priamka zostrojenej regresie prechádza ťažiskom vzorových údajov, to znamená, že rovnosť je splnená:

Najmä v extrémnom prípade, keď jediným regresorom je konštanta, zistíme, že odhad OLS jedného parametra (samotnej konštanty) sa rovná strednej hodnote vysvetľovanej premennej. To znamená, že aritmetický priemer, známy svojimi dobrými vlastnosťami zo zákonov veľkých čísel, je tiež odhadom najmenších štvorcov - spĺňa kritérium pre minimálny súčet odchýlok na druhú od neho.

Príklad: jednoduchá (párová) regresia

V prípade párovej lineárnej regresie sú výpočtové vzorce zjednodušené (zaobídete sa aj bez maticovej algebry):

Vlastnosti odhadov OLS

V prvom rade si všimneme, že pre lineárne modely sú odhady najmenších štvorcov lineárne odhady, ako vyplýva z vyššie uvedeného vzorca. Pre nestranné odhady OLS je potrebné a postačujúce splniť najdôležitejšiu podmienku regresnej analýzy: matematické očakávanie náhodnej chyby podmienenej faktormi sa musí rovnať nule. Táto podmienka je splnená najmä vtedy, ak

  1. matematické očakávanie náhodných chýb je nulové a
  2. faktory a náhodné chyby sú nezávislé náhodné premenné.

Druhá podmienka – podmienka exogénnych faktorov – je zásadná. Ak táto vlastnosť nie je splnená, potom môžeme predpokladať, že takmer všetky odhady budú extrémne neuspokojivé: dokonca nebudú konzistentné (to znamená, že ani veľmi veľké množstvo údajov v tomto prípade neumožňuje získať kvalitatívne odhady). V klasickom prípade sa silnejšie predpokladá determinizmus faktorov, na rozdiel od náhodnej chyby, ktorá automaticky znamená, že exogénna podmienka je splnená. Vo všeobecnosti pre konzistentnosť odhadov stačí splniť podmienku exogenity spolu s konvergenciou matice k nejakej nesingulárnej matici s nárastom veľkosti vzorky do nekonečna.

Aby boli okrem konzistentnosti a nezaujatosti efektívne aj odhady (zvyčajných) najmenších štvorcov (najlepšie v triede lineárnych neskreslených odhadov), je potrebné splniť ďalšie vlastnosti náhodnej chyby:

Tieto predpoklady možno formulovať pre kovariančnú maticu vektora náhodnej chyby

Lineárny model, ktorý tieto podmienky spĺňa, sa nazýva tzv klasický. Odhady OLS pre klasickú lineárnu regresiu sú nezaujaté, konzistentné a najefektívnejšie odhady v triede všetkých lineárnych neskreslených odhadov (v anglickej literatúre sa niekedy používa skratka Modrá (Najlepší lineárny nezaložený odhad) je najlepší lineárny nezaujatý odhad; v domácej literatúre sa častejšie uvádza Gauss-Markovova veta). Ako je ľahké ukázať, kovariančná matica vektora odhadov koeficientov sa bude rovnať:

Zovšeobecnené najmenšie štvorce

Metóda najmenších štvorcov umožňuje široké zovšeobecnenie. Namiesto minimalizovania súčtu štvorcov rezíduí je možné minimalizovať nejakú kladne definitívnu kvadratickú formu reziduálneho vektora , kde je nejaká symetrická kladne definitná váhová matica. Obyčajné najmenšie štvorce sú špeciálnym prípadom tohto prístupu, keď je matica váh úmerná matici identity. Ako je známe z teórie symetrických matíc (alebo operátorov), pre takéto matice existuje rozklad. Preto môže byť špecifikovaný funkcionál reprezentovaný nasledovne, to znamená, že tento funkcionál môže byť reprezentovaný ako súčet druhých mocnín niektorých transformovaných "zvyškov". Môžeme teda rozlíšiť triedu metód najmenších štvorcov – LS-metód (Least Squares).

Je dokázané (Aitkenova veta), že pre zovšeobecnený lineárny regresný model (v ktorom nie sú kladené žiadne obmedzenia na kovariančnú maticu náhodných chýb) sú najefektívnejšie (v triede lineárnych neskreslených odhadov) odhady tzv. zovšeobecnené OLS (OMNK, GLS - Generalized Least Squares)- LS-metóda s váhovou maticou rovnajúcou sa inverznej kovariančnej matici náhodných chýb: .

Dá sa ukázať, že vzorec pre GLS odhady parametrov lineárneho modelu má tvar

Kovariančná matica týchto odhadov sa bude rovnať

V skutočnosti podstata OLS spočíva v určitej (lineárnej) transformácii (P) pôvodných údajov a aplikácii obvyklých najmenších štvorcov na transformované údaje. Účelom tejto transformácie je, že pre transformované dáta náhodné chyby už spĺňajú klasické predpoklady.

Vážené najmenšie štvorce

V prípade diagonálnej váhovej matice (a teda kovariančnej matice náhodných chýb) máme takzvané vážené najmenšie štvorce (WLS - Weighted Least Squares). V tomto prípade je vážený súčet štvorcov rezíduí modelu minimalizovaný, to znamená, že každé pozorovanie dostane „váhu“, ktorá je nepriamo úmerná rozptylu náhodnej chyby v tomto pozorovaní: . V skutočnosti sa údaje transformujú vážením pozorovaní (vydelením množstvom úmerným predpokladanej štandardnej odchýlke náhodných chýb) a na vážené údaje sa použijú normálne najmenšie štvorce.

Niektoré špeciálne prípady aplikácie LSM v praxi

Lineárna aproximácia

Zvážte prípad, keď v dôsledku štúdia závislosti určitej skalárnej veličiny od určitej skalárnej veličiny (môže to byť napríklad závislosť napätia od sily prúdu: , kde je konštantná hodnota, odpor vodiča ), boli tieto veličiny namerané, v dôsledku čoho sú hodnoty a im zodpovedajúce hodnoty. Namerané údaje by sa mali zaznamenať do tabuľky.

Tabuľka. Výsledky merania.

Meranie č.
1
2
3
4
5
6

Otázka znie takto: akú hodnotu koeficientu je možné zvoliť, aby najlepšie popísala závislosť? Podľa najmenších štvorcov by táto hodnota mala byť taká, že súčet štvorcových odchýlok hodnôt od hodnôt

bol minimálny

Súčet štvorcových odchýlok má jeden extrém – minimum, čo nám umožňuje použiť tento vzorec. Z tohto vzorca nájdeme hodnotu koeficientu. Za týmto účelom transformujeme jeho ľavú stranu takto:

Posledný vzorec nám umožňuje nájsť hodnotu koeficientu, ktorý bol v úlohe požadovaný.

História

Až do začiatku XIX storočia. vedci nemali isté pravidlá na riešenie sústavy rovníc, v ktorej je počet neznámych menší ako počet rovníc; Dovtedy sa používali osobitné metódy v závislosti od typu rovníc a dômyselnosti kalkulačiek, a preto rôzne kalkulačky vychádzajúce z rovnakých pozorovacích údajov dospeli k rôznym záverom. Gaussovi (1795) sa pripisuje prvá aplikácia metódy a Legendre (1805) ju nezávisle objavil a publikoval pod jej moderným názvom (fr. Methode des moindres quarres ). Laplace dal metódu do súvislosti s teóriou pravdepodobnosti a americký matematik Adrain (1808) uvažoval o jej pravdepodobnostných aplikáciách. Metóda je rozšírená a vylepšená ďalším výskumom Enckeho, Bessela, Hansena a ďalších.

Alternatívne využitie nadnárodných spoločností

Myšlienka metódy najmenších štvorcov môže byť použitá aj v iných prípadoch, ktoré priamo nesúvisia s regresnou analýzou. Faktom je, že súčet štvorcov je jednou z najbežnejších mier blízkosti pre vektory (euklidovská metrika v konečných rozmeroch).

Jednou z aplikácií je „riešenie“ systémov lineárnych rovníc, v ktorých je počet rovníc väčší ako počet premenných

kde matica nie je štvorcová, ale obdĺžniková.

Takýto systém rovníc vo všeobecnom prípade nemá riešenie (ak je poradie v skutočnosti väčšie ako počet premenných). Preto je možné tento systém „riešiť“ len v zmysle výberu takého vektora, aby sa minimalizovala „vzdialenosť“ medzi vektormi a . Na tento účel môžete použiť kritérium na minimalizáciu súčtu štvorcových rozdielov ľavej a pravej časti rovníc systému, teda . Je ľahké ukázať, že riešenie tohto minimalizačného problému vedie k riešeniu nasledujúcej sústavy rovníc

Ak nejaká fyzikálna veličina závisí od inej veličiny, potom túto závislosť možno skúmať meraním y pri rôznych hodnotách x. V dôsledku meraní sa získa séria hodnôt:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

Na základe údajov takéhoto experimentu je možné vykresliť závislosť y = ƒ(x). Výsledná krivka umožňuje posúdiť tvar funkcie ƒ(x). Konštantné koeficienty, ktoré vstupujú do tejto funkcie, však zostávajú neznáme. Možno ich určiť metódou najmenších štvorcov. Experimentálne body spravidla neležia presne na krivke. Metóda najmenších štvorcov vyžaduje, aby súčet štvorcových odchýlok experimentálnych bodov od krivky, t.j. 2 bol najmenší.

V praxi sa tento spôsob najčastejšie (a najjednoduchšie) používa v prípade lineárneho vzťahu, t.j. kedy

y=kx alebo y = a + bx.

Lineárna závislosť je vo fyzike veľmi rozšírená. A aj keď je závislosť nelineárna, zvyčajne sa snažia zostaviť graf tak, aby dostali priamku. Napríklad, ak sa predpokladá, že index lomu skla n súvisí s vlnovou dĺžkou λ svetelnej vlny vzťahom n = a + b/λ 2, potom sa závislosť n na λ -2 vynesie do grafu. .

Zvážte závislosť y=kx(priamka prechádzajúca počiatkom). Zostavme hodnotu φ súčet druhých mocnín odchýlok našich bodov od priamky

Hodnota φ je vždy kladná a ukazuje sa, že čím je menšia, čím bližšie sú naše body k priamke. Metóda najmenších štvorcov hovorí, že pre k treba zvoliť takú hodnotu, pri ktorej má φ minimum


alebo
(19)

Výpočet ukazuje, že odmocnina pri určovaní hodnoty k sa rovná

, (20)
kde n je počet rozmerov.

Uvažujme teraz o trochu zložitejšom prípade, keď body musia spĺňať vzorec y = a + bx(priamka neprechádzajúca počiatkom).

Úlohou je nájsť najlepšie hodnoty a a b z danej množiny hodnôt x i, y i.

Opäť zostavíme kvadratickú formu φ rovnajúcu sa súčtu štvorcových odchýlok bodov x i , y i od priamky

a nájdite hodnoty a a b, pre ktoré má φ minimum

;

.

.

Spoločné riešenie týchto rovníc dáva

(21)

Stredná odmocnina chyby určenia a a b sú rovnaké

(23)

.  (24)

Pri spracovaní výsledkov meraní touto metódou je vhodné zhrnúť všetky údaje do tabuľky, v ktorej sú predbežne vypočítané všetky množstvá obsiahnuté vo vzorcoch (19) (24). Formy týchto tabuliek sú uvedené v príkladoch nižšie.

Príklad 1 Bola študovaná základná rovnica dynamiky rotačného pohybu ε = M/J (priamka prechádzajúca počiatkom). Pre rôzne hodnoty momentu M sa meralo uhlové zrýchlenie ε určitého telesa. Je potrebné určiť moment zotrvačnosti tohto telesa. Výsledky meraní momentu sily a uhlového zrýchlenia sú uvedené v druhom a treťom stĺpci stoly 5.

Tabuľka 5
n M, Nm ε, s-1 M2 M ε ε - km (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Podľa vzorca (19) určíme:

.

Na určenie strednej hodnoty chyby používame vzorec (20)

0.005775kg- jeden · m -2 .

Podľa vzorca (18) máme

; .

SJ = (2,996 0,005775)/0,3337 = 0,05185 kg m2.

Vzhľadom na spoľahlivosť P = 0,95 podľa tabuľky Studentových koeficientov pre n = 5 zistíme t = 2,78 a určíme absolútnu chybu ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m2.

Výsledky zapíšeme v tvare:

J = (3,0 ± 0,2) kg m2;


Príklad 2 Teplotný koeficient odporu kovu vypočítame metódou najmenších štvorcov. Odpor závisí od teploty podľa lineárneho zákona

Rt \u003d R° (1 + α t°) \u003d R° + R° α t°.

Voľný člen určuje odpor R 0 pri teplote 0 °C a uhlový koeficient je súčinom teplotného koeficientu α a odporu R 0 .

Výsledky meraní a výpočtov sú uvedené v tabuľke ( pozri tabuľku 6).

Tabuľka 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Vzorcami (21), (22) určíme

Ro = ¯ R-αR0¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

Nájdime chybu v definícii α. Od , potom podľa vzorca (18) máme:

.

Pomocou vzorcov (23), (24) máme

;

0.014126 Ohm.

Vzhľadom na spoľahlivosť P = 0,95 podľa tabuľky Studentových koeficientov pre n = 6 zistíme t = 2,57 a určíme absolútnu chybu Δα = 2,57 0,000132 = 0,000338 stupeň -1.

a = (23 ± 4) 10-4 krupobitie-1 pri P = 0,95.


Príklad 3 Je potrebné určiť polomer zakrivenia šošovky z Newtonových prstencov. Zmerali sa polomery Newtonových prstencov r m a určili sa počty týchto prstencov m. Polomery Newtonových prstencov súvisia s polomerom zakrivenia šošovky R a číslom prstenca rovnicou

r2m = mλR - 2d0R,

kde d 0 hrúbka medzery medzi šošovkou a planparalelnou doskou (alebo deformácia šošovky),

λ je vlnová dĺžka dopadajúceho svetla.

A = (600 ± 6) nm;
r2 m = y;
m = x;
XR = b;
-2d 0 R = a,

potom rovnica nadobudne tvar y = a + bx.

.

Vkladajú sa výsledky meraní a výpočtov tabuľka 7.

Tabuľka 7
n x = m y \u003d r 2, 10 -2 mm 2 m-¯m (m-¯m) 2 (m-¯m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –



Podobné články