Метод наименьших квадратов для параболы коэффициенты. Метод наименьших квадратов в Excel. Регрессионный анализ. Вывод формул для нахождения коэффициентов

Метод наименьших квадратов (МНК, англ. Ordinary Least Squares, OLS ) - математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функции. МНК является одним из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным.

Энциклопедичный YouTube

    1 / 5

    ✪ Метод наименьших квадратов. Тема

    ✪ Метод наименьших квадратов, урок 1/2. Линейная функция

    ✪ Эконометрика. Лекция 5 .Метод наименьших квадратов

    ✪ Митин И. В. - Обработка результатов физ. эксперимента - Метод наименьших квадратов (Лекция 4)

    ✪ Эконометрика: Суть метода наименьших квадратов #2

    Субтитры

История

До начала XIX в. учёные не имели определённых правил для решения системы уравнений , в которой число неизвестных меньше, чем число уравнений; до этого времени употреблялись частные приёмы, зависевшие от вида уравнений и от остроумия вычислителей, и потому разные вычислители, исходя из тех же данных наблюдений, приходили к различным выводам. Гауссу (1795) принадлежит первое применение метода, а Лежандр (1805) независимо открыл и опубликовал его под современным названием (фр. Méthode des moindres quarrés ) . Лаплас связал метод с теорией вероятностей , а американский математик Эдрейн (1808) рассмотрел его теоретико-вероятностные приложения . Метод распространён и усовершенствован дальнейшими изысканиями Энке , Бесселя , Ганзена и других.

Сущность метода наименьших квадратов

Пусть x {\displaystyle x} - набор n {\displaystyle n} неизвестных переменных (параметров), f i (x) {\displaystyle f_{i}(x)} , , m > n {\displaystyle m>n} - совокупность функций от этого набора переменных. Задача заключается в подборе таких значений x {\displaystyle x} , чтобы значения этих функций были максимально близки к некоторым значениям y i {\displaystyle y_{i}} . По существу речь идет о «решении» переопределенной системы уравнений f i (x) = y i {\displaystyle f_{i}(x)=y_{i}} , i = 1 , … , m {\displaystyle i=1,\ldots ,m} в указанном смысле максимальной близости левой и правой частей системы. Сущность МНК заключается в выборе в качестве «меры близости» суммы квадратов отклонений левых и правых частей | f i (x) − y i | {\displaystyle |f_{i}(x)-y_{i}|} . Таким образом, сущность МНК может быть выражена следующим образом:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x {\displaystyle \sum _{i}e_{i}^{2}=\sum _{i}(y_{i}-f_{i}(x))^{2}\rightarrow \min _{x}} .

В случае, если система уравнений имеет решение, то минимум суммы квадратов будет равен нулю и могут быть найдены точные решения системы уравнений аналитически или, например, различными численными методами оптимизации. Если система переопределена, то есть, говоря нестрого, количество независимых уравнений больше количества искомых переменных, то система не имеет точного решения и метод наименьших квадратов позволяет найти некоторый «оптимальный» вектор x {\displaystyle x} в смысле максимальной близости векторов y {\displaystyle y} и f (x) {\displaystyle f(x)} или максимальной близости вектора отклонений e {\displaystyle e} к нулю (близость понимается в смысле евклидова расстояния).

Пример - система линейных уравнений

В частности, метод наименьших квадратов может использоваться для «решения» системы линейных уравнений

A x = b {\displaystyle Ax=b} ,

где A {\displaystyle A} прямоугольная матрица размера m × n , m > n {\displaystyle m\times n,m>n} (т.е. число строк матрицы A больше количества искомых переменных).

Такая система уравнений в общем случае не имеет решения. Поэтому эту систему можно «решить» только в смысле выбора такого вектора x {\displaystyle x} , чтобы минимизировать «расстояние» между векторами A x {\displaystyle Ax} и b {\displaystyle b} . Для этого можно применить критерий минимизации суммы квадратов разностей левой и правой частей уравнений системы, то есть (A x − b) T (A x − b) → min x {\displaystyle (Ax-b)^{T}(Ax-b)\rightarrow \min _{x}} . Нетрудно показать, что решение этой задачи минимизации приводит к решению следующей системы уравнений

A T A x = A T b ⇒ x = (A T A) − 1 A T b {\displaystyle A^{T}Ax=A^{T}b\Rightarrow x=(A^{T}A)^{-1}A^{T}b} .

МНК в регрессионном анализе (аппроксимация данных)

Пусть имеется n {\displaystyle n} значений некоторой переменной y {\displaystyle y} (это могут быть результаты наблюдений, экспериментов и т. д.) и соответствующих переменных x {\displaystyle x} . Задача заключается в том, чтобы взаимосвязь между y {\displaystyle y} и x {\displaystyle x} аппроксимировать некоторой функцией , известной с точностью до некоторых неизвестных параметров b {\displaystyle b} , то есть фактически найти наилучшие значения параметров b {\displaystyle b} , максимально приближающие значения f (x , b) {\displaystyle f(x,b)} к фактическим значениям y {\displaystyle y} . Фактически это сводится к случаю «решения» переопределенной системы уравнений относительно b {\displaystyle b} :

F (x t , b) = y t , t = 1 , … , n {\displaystyle f(x_{t},b)=y_{t},t=1,\ldots ,n} .

В регрессионном анализе и в частности в эконометрике используются вероятностные модели зависимости между переменными

Y t = f (x t , b) + ε t {\displaystyle y_{t}=f(x_{t},b)+\varepsilon _{t}} ,

где ε t {\displaystyle \varepsilon _{t}} - так называемые случайные ошибки модели.

Соответственно, отклонения наблюдаемых значений y {\displaystyle y} от модельных f (x , b) {\displaystyle f(x,b)} предполагается уже в самой модели. Сущность МНК (обычного, классического) заключается в том, чтобы найти такие параметры b {\displaystyle b} , при которых сумма квадратов отклонений (ошибок, для регрессионных моделей их часто называют остатками регрессии) e t {\displaystyle e_{t}} будет минимальной:

b ^ O L S = arg ⁡ min b R S S (b) {\displaystyle {\hat {b}}_{OLS}=\arg \min _{b}RSS(b)} ,

где R S S {\displaystyle RSS} - англ. Residual Sum of Squares определяется как:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 {\displaystyle RSS(b)=e^{T}e=\sum _{t=1}^{n}e_{t}^{2}=\sum _{t=1}^{n}(y_{t}-f(x_{t},b))^{2}} .

В общем случае решение этой задачи может осуществляться численными методами оптимизации (минимизации). В этом случае говорят о нелинейном МНК (NLS или NLLS - англ. Non-Linear Least Squares ). Во многих случаях можно получить аналитическое решение. Для решения задачи минимизации необходимо найти стационарные точки функции R S S (b) {\displaystyle RSS(b)} , продифференцировав её по неизвестным параметрам b {\displaystyle b} , приравняв производные к нулю и решив полученную систему уравнений:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 {\displaystyle \sum _{t=1}^{n}(y_{t}-f(x_{t},b)){\frac {\partial f(x_{t},b)}{\partial b}}=0} .

МНК в случае линейной регрессии

Пусть регрессионная зависимость является линейной:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t {\displaystyle y_{t}=\sum _{j=1}^{k}b_{j}x_{tj}+\varepsilon =x_{t}^{T}b+\varepsilon _{t}} .

Пусть y - вектор-столбец наблюдений объясняемой переменной, а X {\displaystyle X} - это (n × k) {\displaystyle ({n\times k})} -матрица наблюдений факторов (строки матрицы - векторы значений факторов в данном наблюдении, по столбцам - вектор значений данного фактора во всех наблюдениях). Матричное представление линейной модели имеет вид:

y = X b + ε {\displaystyle y=Xb+\varepsilon } .

Тогда вектор оценок объясняемой переменной и вектор остатков регрессии будут равны

y ^ = X b , e = y − y ^ = y − X b {\displaystyle {\hat {y}}=Xb,\quad e=y-{\hat {y}}=y-Xb} .

соответственно сумма квадратов остатков регрессии будет равна

R S S = e T e = (y − X b) T (y − X b) {\displaystyle RSS=e^{T}e=(y-Xb)^{T}(y-Xb)} .

Дифференцируя эту функцию по вектору параметров b {\displaystyle b} и приравняв производные к нулю, получим систему уравнений (в матричной форме):

(X T X) b = X T y {\displaystyle (X^{T}X)b=X^{T}y} .

В расшифрованной матричной форме эта система уравнений выглядит следующим образом:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y t ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , {\displaystyle {\begin{pmatrix}\sum x_{t1}^{2}&\sum x_{t1}x_{t2}&\sum x_{t1}x_{t3}&\ldots &\sum x_{t1}x_{tk}\\\sum x_{t2}x_{t1}&\sum x_{t2}^{2}&\sum x_{t2}x_{t3}&\ldots &\sum x_{t2}x_{tk}\\\sum x_{t3}x_{t1}&\sum x_{t3}x_{t2}&\sum x_{t3}^{2}&\ldots &\sum x_{t3}x_{tk}\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_{tk}x_{t1}&\sum x_{tk}x_{t2}&\sum x_{tk}x_{t3}&\ldots &\sum x_{tk}^{2}\\\end{pmatrix}}{\begin{pmatrix}b_{1}\\b_{2}\\b_{3}\\\vdots \\b_{k}\\\end{pmatrix}}={\begin{pmatrix}\sum x_{t1}y_{t}\\\sum x_{t2}y_{t}\\\sum x_{t3}y_{t}\\\vdots \\\sum x_{tk}y_{t}\\\end{pmatrix}},} где все суммы берутся по всем допустимым значениям t {\displaystyle t} .

Если в модель включена константа (как обычно), то x t 1 = 1 {\displaystyle x_{t1}=1} при всех t {\displaystyle t} , поэтому в левом верхнем углу матрицы системы уравнений находится количество наблюдений n {\displaystyle n} , а в остальных элементах первой строки и первого столбца - просто суммы значений переменных: ∑ x t j {\displaystyle \sum x_{tj}} и первый элемент правой части системы - ∑ y t {\displaystyle \sum y_{t}} .

Решение этой системы уравнений и дает общую формулу МНК-оценок для линейной модели:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y {\displaystyle {\hat {b}}_{OLS}=(X^{T}X)^{-1}X^{T}y=\left({\frac {1}{n}}X^{T}X\right)^{-1}{\frac {1}{n}}X^{T}y=V_{x}^{-1}C_{xy}} .

Для аналитических целей оказывается полезным последнее представление этой формулы (в системе уравнений при делении на n, вместо сумм фигурируют средние арифметические). Если в регрессионной модели данные центрированы , то в этом представлении первая матрица имеет смысл выборочной ковариационной матрицы факторов, а вторая - вектор ковариаций факторов с зависимой переменной. Если кроме того данные ещё и нормированы на СКО (то есть в конечном итоге стандартизированы ), то первая матрица имеет смысл выборочной корреляционной матрицы факторов, второй вектор - вектора выборочных корреляций факторов с зависимой переменной.

Немаловажное свойство МНК-оценок для моделей с константой - линия построенной регрессии проходит через центр тяжести выборочных данных, то есть выполняется равенство:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j {\displaystyle {\bar {y}}={\hat {b_{1}}}+\sum _{j=2}^{k}{\hat {b}}_{j}{\bar {x}}_{j}} .

В частности, в крайнем случае, когда единственным регрессором является константа, получаем, что МНК-оценка единственного параметра (собственно константы) равна среднему значению объясняемой переменной. То есть среднее арифметическое, известное своими хорошими свойствами из законов больших чисел, также является МНК-оценкой - удовлетворяет критерию минимума суммы квадратов отклонений от неё.

Простейшие частные случаи

В случае парной линейной регрессии y t = a + b x t + ε t {\displaystyle y_{t}=a+bx_{t}+\varepsilon _{t}} , когда оценивается линейная зависимость одной переменной от другой, формулы расчета упрощаются (можно обойтись без матричной алгебры). Система уравнений имеет вид:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) {\displaystyle {\begin{pmatrix}1&{\bar {x}}\\{\bar {x}}&{\bar {x^{2}}}\\\end{pmatrix}}{\begin{pmatrix}a\\b\\\end{pmatrix}}={\begin{pmatrix}{\bar {y}}\\{\overline {xy}}\\\end{pmatrix}}} .

Отсюда несложно найти оценки коэффициентов:

{ b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . {\displaystyle {\begin{cases}{\hat {b}}={\frac {\mathop {\textrm {Cov}} (x,y)}{\mathop {\textrm {Var}} (x)}}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{{\overline {x^{2}}}-{\overline {x}}^{2}}},\\{\hat {a}}={\bar {y}}-b{\bar {x}}.\end{cases}}}

Несмотря на то что в общем случае модели с константой предпочтительней, в некоторых случаях из теоретических соображений известно, что константа a {\displaystyle a} должна быть равна нулю. Например, в физике зависимость между напряжением и силой тока имеет вид U = I ⋅ R {\displaystyle U=I\cdot R} ; замеряя напряжение и силу тока, необходимо оценить сопротивление. В таком случае речь идёт о модели y = b x {\displaystyle y=bx} . В этом случае вместо системы уравнений имеем единственное уравнение

(∑ x t 2) b = ∑ x t y t {\displaystyle \left(\sum x_{t}^{2}\right)b=\sum x_{t}y_{t}} .

Следовательно, формула оценки единственного коэффициента имеет вид

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ {\displaystyle {\hat {b}}={\frac {\sum _{t=1}^{n}x_{t}y_{t}}{\sum _{t=1}^{n}x_{t}^{2}}}={\frac {\overline {xy}}{\overline {x^{2}}}}} .

Случай полиномиальной модели

Если данные аппроксимируются полиномиальной функцией регрессии одной переменной f (x) = b 0 + ∑ i = 1 k b i x i {\displaystyle f(x)=b_{0}+\sum \limits _{i=1}^{k}b_{i}x^{i}} , то, воспринимая степени x i {\displaystyle x^{i}} как независимые факторы для каждого i {\displaystyle i} можно оценить параметры модели исходя из общей формулы оценки параметров линейной модели. Для этого в общую формулу достаточно учесть, что при такой интерпретации x t i x t j = x t i x t j = x t i + j {\displaystyle x_{ti}x_{tj}=x_{t}^{i}x_{t}^{j}=x_{t}^{i+j}} и x t j y t = x t j y t {\displaystyle x_{tj}y_{t}=x_{t}^{j}y_{t}} . Следовательно, матричные уравнения в данном случае примут вид:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . {\displaystyle {\begin{pmatrix}n&\sum \limits _{n}x_{t}&\ldots &\sum \limits _{n}x_{t}^{k}\\\sum \limits _{n}x_{t}&\sum \limits _{n}x_{t}^{2}&\ldots &\sum \limits _{n}x_{t}^{k+1}\\\vdots &\vdots &\ddots &\vdots \\\sum \limits _{n}x_{t}^{k}&\sum \limits _{n}x_{t}^{k+1}&\ldots &\sum \limits _{n}x_{t}^{2k}\end{pmatrix}}{\begin{bmatrix}b_{0}\\b_{1}\\\vdots \\b_{k}\end{bmatrix}}={\begin{bmatrix}\sum \limits _{n}y_{t}\\\sum \limits _{n}x_{t}y_{t}\\\vdots \\\sum \limits _{n}x_{t}^{k}y_{t}\end{bmatrix}}.}

Статистические свойства МНК-оценок

В первую очередь, отметим, что для линейных моделей МНК-оценки являются линейными оценками, как это следует из вышеприведённой формулы. Для несмещенности МНК-оценок необходимо и достаточно выполнения важнейшего условия регрессионного анализа : условное по факторам математическое ожидание случайной ошибки должно быть равно нулю. Данное условие, в частности, выполнено, если

  1. математическое ожидание случайных ошибок равно нулю, и
  2. факторы и случайные ошибки - независимые случайные величины .

Второе условие - условие экзогенности факторов - принципиальное. Если это свойство не выполнено, то можно считать, что практически любые оценки будут крайне неудовлетворительными: они не будут даже состоятельными (то есть даже очень большой объём данных не позволяет получить качественные оценки в этом случае). В классическом случае делается более сильное предположение о детерминированности факторов, в отличие от случайной ошибки, что автоматически означает выполнение условия экзогенности. В общем случае для состоятельности оценок достаточно выполнения условия экзогенности вместе со сходимостью матрицы V x {\displaystyle V_{x}} к некоторой невырожденной матрице при увеличении объёма выборки до бесконечности.

Для того, чтобы кроме состоятельности и несмещенности , оценки (обычного) МНК были ещё и эффективными (наилучшими в классе линейных несмещенных оценок) необходимо выполнение дополнительных свойств случайной ошибки:

Данные предположения можно сформулировать для ковариационной матрицы вектора случайных ошибок V (ε) = σ 2 I {\displaystyle V(\varepsilon)=\sigma ^{2}I} .

Линейная модель, удовлетворяющая таким условиям, называется классической . МНК-оценки для классической линейной регрессии являются несмещёнными , состоятельными и наиболее эффективными оценками в классе всех линейных несмещённых оценок (в англоязычной литературе иногда употребляют аббревиатуру BLUE (Best Linear Unbiased Estimator ) - наилучшая линейная несмещённая оценка; в отечественной литературе чаще приводится теорема Гаусса - Маркова). Как нетрудно показать, ковариационная матрица вектора оценок коэффициентов будет равна:

V (b ^ O L S) = σ 2 (X T X) − 1 {\displaystyle V({\hat {b}}_{OLS})=\sigma ^{2}(X^{T}X)^{-1}} .

Эффективность означает, что эта ковариационная матрица является «минимальной» (любая линейная комбинация коэффициентов, и в частности сами коэффициенты, имеют минимальную дисперсию), то есть в классе линейных несмещенных оценок оценки МНК-наилучшие. Диагональные элементы этой матрицы - дисперсии оценок коэффициентов - важные параметры качества полученных оценок. Однако рассчитать ковариационную матрицу невозможно, поскольку дисперсия случайных ошибок неизвестна. Можно доказать, что несмещённой и состоятельной (для классической линейной модели) оценкой дисперсии случайных ошибок является величина:

S 2 = R S S / (n − k) {\displaystyle s^{2}=RSS/(n-k)} .

Подставив данное значение в формулу для ковариационной матрицы и получим оценку ковариационной матрицы. Полученные оценки также являются несмещёнными и состоятельными . Важно также то, что оценка дисперсии ошибок (а значит и дисперсий коэффициентов) и оценки параметров модели являются независимыми случайными величинами, что позволяет получить тестовые статистики для проверки гипотез о коэффициентах модели.

Необходимо отметить, что если классические предположения не выполнены, МНК-оценки параметров не являются наиболее эффективными и, где W {\displaystyle W} - некоторая симметрическая положительно определенная весовая матрица. Обычный МНК является частным случаем данного подхода, когда весовая матрица пропорциональна единичной матрице. Как известно, для симметрических матриц (или операторов) существует разложение W = P T P {\displaystyle W=P^{T}P} . Следовательно, указанный функционал можно представить следующим образом e T P T P e = (P e) T P e = e ∗ T e ∗ {\displaystyle e^{T}P^{T}Pe=(Pe)^{T}Pe=e_{*}^{T}e_{*}} , то есть этот функционал можно представить как сумму квадратов некоторых преобразованных «остатков». Таким образом, можно выделить класс методов наименьших квадратов - LS-методы (Least Squares).

Доказано (теорема Айткена), что для обобщенной линейной регрессионной модели (в которой на ковариационную матрицу случайных ошибок не налагается никаких ограничений) наиболее эффективными (в классе линейных несмещенных оценок) являются оценки т. н. обобщенного МНК (ОМНК, GLS - Generalized Least Squares) - LS-метода с весовой матрицей, равной обратной ковариационной матрице случайных ошибок: W = V ε − 1 {\displaystyle W=V_{\varepsilon }^{-1}} .

Можно показать, что формула ОМНК-оценок параметров линейной модели имеет вид

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y {\displaystyle {\hat {b}}_{GLS}=(X^{T}V^{-1}X)^{-1}X^{T}V^{-1}y} .

Ковариационная матрица этих оценок соответственно будет равна

V (b ^ G L S) = (X T V − 1 X) − 1 {\displaystyle V({\hat {b}}_{GLS})=(X^{T}V^{-1}X)^{-1}} .

Фактически сущность ОМНК заключается в определенном (линейном) преобразовании (P) исходных данных и применении обычного МНК к преобразованным данным. Цель этого преобразования - для преобразованных данных случайные ошибки уже удовлетворяют классическим предположениям.

Взвешенный МНК

В случае диагональной весовой матрицы (а значит и ковариационной матрицы случайных ошибок) имеем так называемый взвешенный МНК (WLS - Weighted Least Squares). В данном случае минимизируется взвешенная сумма квадратов остатков модели, то есть каждое наблюдение получает «вес», обратно пропорциональный дисперсии случайной ошибки в данном наблюдении: e T W e = ∑ t = 1 n e t 2 σ t 2 {\displaystyle e^{T}We=\sum _{t=1}^{n}{\frac {e_{t}^{2}}{\sigma _{t}^{2}}}} . Фактически данные преобразуются взвешиванием наблюдений (делением на величину, пропорциональную предполагаемому стандартному отклонению случайных ошибок), а к взвешенным данным применяется обычный МНК.

ISBN 978-5-7749-0473-0 .

  • Эконометрика. Учебник / Под ред. Елисеевой И. И. - 2-е изд. - М. : Финансы и статистика, 2006. - 576 с. - ISBN 5-279-02786-3 .
  • Александрова Н. В. История математических терминов, понятий, обозначений: словарь-справочник. - 3-е изд.. - М. : ЛКИ, 2008. - 248 с. - ISBN 978-5-382-00839-4 . И.В Митин, Русаков В.С. Анализ и обработка экспериментальных данных- 5-е издание- 24с.
  • Пример.

    Экспериментальные данные о значениях переменных х и у приведены в таблице.

    В результате их выравнивания получена функция

    Используя метод наименьших квадратов , аппроксимировать эти данные линейной зависимостью y=ax+b (найти параметры а и b ). Выяснить, какая из двух линий лучше (в смысле метода наименьших квадратов) выравнивает экспериментальные данные. Сделать чертеж.

    Суть метода наименьших квадратов (МНК).

    Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b принимает наименьшее значение. То есть, при данных а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов.

    Таким образом, решение примера сводится к нахождению экстремума функции двух переменных.

    Вывод формул для нахождения коэффициентов.

    Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменным а и b , приравниваем эти производные к нулю.

    Решаем полученную систему уравнений любым методом (например методом подстановки или ) и получаем формулы для нахождения коэффициентов по методу наименьших квадратов (МНК).

    При данных а и b функция принимает наименьшее значение. Доказательство этого факта приведено .

    Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы , , , и параметр n - количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a .

    Пришло время вспомнить про исходый пример.

    Решение.

    В нашем примере n=5 . Заполняем таблицу для удобства вычисления сумм, которые входят в формулы искомых коэффициентов.

    Значения в четвертой строке таблицы получены умножением значений 2-ой строки на значения 3-ей строки для каждого номера i .

    Значения в пятой строке таблицы получены возведением в квадрат значений 2-ой строки для каждого номера i .

    Значения последнего столбца таблицы – это суммы значений по строкам.

    Используем формулы метода наименьших квадратов для нахождения коэффициентов а и b . Подставляем в них соответствующие значения из последнего столбца таблицы:

    Следовательно, y = 0.165x+2.184 - искомая аппроксимирующая прямая.

    Осталось выяснить какая из линий y = 0.165x+2.184 или лучше аппроксимирует исходные данные, то есть произвести оценку методом наименьших квадратов.

    Оценка погрешности метода наименьших квадратов.

    Для этого требуется вычислить суммы квадратов отклонений исходных данных от этих линий и , меньшее значение соответствует линии, которая лучше в смысле метода наименьших квадратов аппроксимирует исходные данные.

    Так как , то прямая y = 0.165x+2.184 лучше приближает исходные данные.

    Графическая иллюстрация метода наименьших квадратов (мнк).

    На графиках все прекрасно видно. Красная линия – это найденная прямая y = 0.165x+2.184 , синяя линия – это , розовые точки – это исходные данные.

    Для чего это нужно, к чему все эти аппроксимации?

    Я лично использую для решения задач сглаживания данных, задач интерполяции и экстраполяции (в исходном примере могли бы попросить найти занчение наблюдаемой величины y при x=3 или при x=6 по методу МНК). Но подробнее поговорим об этом позже в другом разделе сайта.

    Доказательство.

    Чтобы при найденных а и b функция принимала наименьшее значение, необходимо чтобы в этой точке матрица квадратичной формы дифференциала второго порядка для функции была положительно определенной. Покажем это.

    3.5. Метод наименьших квадратов

    Первая работа, в которой заложены основы метода наименьших квадратов,была выполнена Лежандром в 1805. В статье «Новые методы определения орбит комет», он писал: «После того, как полностью использованы все условия задачи, необходимо определить коэффициенты так, чтобы величины их ошибок были наименьшими из возможных. Наиболее простым путем достижения этого является метод, который состоитв отыскании минимума суммы квадратов ошибок».В настоящее время методприменяетсявесьма широкопри аппроксимации неизвестных функциональных зависимостей, задаваемых множеством экспериментальных отсчетов, с целью полученияаналитического выражения,наилучшим образом приближенного к натурному эксперименту.

    Пусть на основании эксперимента требуется установить функциональнуюзависимость величины y от величины x : .Ипусть в результате эксперимента получено n значений y при соответствующих значениях аргумента x . Если экспериментальные точки расположены на координатной плоскости так, как на рисунке, то, зная, что при проведении эксперимента имеют место погрешности,можно предположить, что зависимость носит линейный характер, т.е. y = ax + b .Отметим, что метод не накладывает ограничений на вид функции, т.е. его можно применятьк любым функциональным зависимостям.

    С точки зрения экспериментаторачасто более естественно считать, что последовательность взятия отсчетов фиксирована заранее, т.е. является независимой переменной, аотсчеты - зависимой переменной.Это особенно ясно видно, еслипод понимаютсямоменты времени, что наиболее широко имеет местов технических приложениях.Но это лишь весьма распространенный частный случай. Например, необходимо провести классификацию некоторых образцов по размеру. Тогда независимой переменной будет номер образца, зависимой – его индивидуальный размер.

    Метод наименьших квадратов детально описан во множестве учебных и научных изданий, особенно в части аппроксимации функцийв электро-и радиотехнике, а также в книгах по теории вероятностей и математической статистике.

    Вернемсяк рисунку. Пунктирные линии показывают, чтопогрешности могут возникать не только из-занесовершенства измерительных процедур, но и по причине неточности задания независимой переменной.При выбранном виде функции остается подобрать входящие в нее параметры a и b .Понятно, что количество параметровможет быть больше двух, что характерно только для линейных функций.В общем виде будем считать

    .(1)

    Требуется выбрать коэффициенты a , b , c … так, чтобывыполнилось условие

    . (2)

    Найдем значения a , b , c …, обращающие левую часть (2) в минимум. Для этого определим стационарные точки (точки, вкоторых первая производная обращается в нуль)путем дифференцирования левой части (2)по a , b , c :

    (3)

    и т.д.Полученная система уравнений содержит столько жеуравнений, сколько неизвестных a , b , c …. Решить такую систему в общем виде нельзя, поэтому необходимо задаться,хотя бы ориентировочно,конкретным видом функции .Далее рассмотрим два случая:линейной и квадратичной функций.

    Линейнаяфункция .

    Рассмотрим сумму квадратов разностей экспериментальных значений и значений функции в соответствующих точках:

    (4)

    Подберем параметры a и b так, чтобы эта сумма имела наименьшее значение. Таким образом, задачасводится к нахождению значений a и b , при которых функция имеет минимум, т.е.к исследованию функции двух независимых переменных a и b на минимум. Для этого продифференцируем по a и b :

    ;

    .


    Или

    (5)

    Подставив экспериментальные данные и , получим систему двух линейных уравнений с двумя неизвестными a и b . Решив эту систему, мы сможем записать функцию .

    Убедимся, что при найденных значениях a и b имеет минимум. Для этого найдем , и :

    , , .

    Следовательно,

    − = ,

    >0,

    т.е. выполнено достаточное условие минимума для функции двух переменных.

    Квадратичная функция .

    Пусть в эксперименте получены значения функции в точках . Пусть также на основании априорных сведений имеется предположение, что функция является квадратичной:

    .

    Требуется найти коэффициенты a , b и c .Имеем

    – функцию трех переменных a , b , c .

    В этом случае система (3) принимает вид:

    Или:

    Решив эту систему линейных уравнений, определим неизвестные a , b , c .

    Пример. Пусть на основании эксперимента получены четыре значения искомой функции y = (x ) при четырех значениях аргумента, которые приведены в таблице:

    Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b принимает наименьшее значение. То есть, при данных а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов.

    Таким образом, решение примера сводится к нахождению экстремума функции двух переменных.

    Вывод формул для нахождения коэффициентов. Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменным а и b , приравниваем эти производные к нулю.

    Решаем полученную систему уравнений любым методом (например методом подстановки или методом Крамера) и получаем формулы для нахождения коэффициентов по методу наименьших квадратов (МНК).

    При данных а и b функция принимает наименьшее значение.

    Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы , , , и параметр n - количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a .

    Основная сфера применения таких полиномов - обработка экспериментальных данных (построение эмпирических формул). Дело в том, что интерполяционный полином, построенный по значениям функции, полученным с помощью эксперимента, будет испытывать сильное влияние "экспериментального шума", к тому же при интерполировании узлы интерполяции не могут повторяться, т.е. нельзя использовать результаты повторных экспериментов при одинаковых условиях. Среднеквадратичный же полином сглаживает шумы и позволяет использовать результаты многократных экспериментов.

    Численное интегрирование и дифференцирование. Пример.

    Численное интегрирование – вычисление значения определённого интеграла (как правило, приближённое). Под численным интегрированием понимают набор численных методов для нахождения значения определённого интеграла.

    Численное дифференцирование – совокупность методов вычисления значения производной дискретно заданной функции.

    Интегрирование

    Постановка задачи. Математическая постановка задачи: необходимо найти значение определенного интеграла

    где a, b - конечны, f(x) - непрерывна на [а, b].

    При решении практических задач часто бывает, что интеграл неудобно или невозможно взять аналитически: он может не выражаться в элементарных функциях, подынтегральная функция может быть задана в виде таблицы и пр. В таких случаях применяют методы численного интегрирования. Численные методы интегрирования используют замену площади криволинейной трапеции на конечную сумму площадей более простых геометрических фигур, которые могут быть вычислены точно. В этом смысле говорят об использовании квадратурных формул.

    В большинстве методов используется представление интеграла в виде конечной суммы (квадратурная формула):

    В основе квадратурных формул лежит идея замена на отрезке интегрирования графика подынтегрального выражения функциями более простого вида, которые легко могут быть проинтегрированы аналитически и, таким образом, легко вычислены. Наиболее просто задача построения квадратурных формул реализуется для полиномиальных математических моделей.

    Можно выделить три группы методов:

    1. Метод с разбиением отрезка интегрирования на равные интервалы. Разбиение на интервалы производится заранее, обычно интервалы выбираются равными (чтобы легче было вычислить функцию на концах интервалов). Вычисляют площади и суммируют их (методы прямоугольников, трапеции, Симпсона).

    2. Методы с разбиением отрезка интегрирования с помощью специальных точек (метод Гаусса).

    3. Вычисление интегралов с помощью случайных чисел (метод Монте-Карло).

    Метод прямоугольников. Пусть функцию (рисунок) необходимо проинтегрировать численным методом на отрезке . Разделим отрезок на N равных интервалов. Площадь каждой из N криволинейных трапеций можно заменить на площадь прямоугольника.

    Ширина всех прямоугольников одинакова и равна:

    В качестве выбора высоты прямоугольников можно выбрать значение функции на левой границе. В этом случае высота первого прямоугольника составит f(a), второго – f(x 1),…, N-f(N-1).

    Если в качестве выбора высоты прямоугольника взять значение функции на правой границе, то в этом случае высота первого прямоугольника составит f(x 1), второго – f(x 2), …, N – f(x N).

    Как видно, в этом случае одна из формул дает приближение к интегралу с избытком, а вторая с недостатком. Существует еще один способ – использовать для аппроксимации значение функции в середине отрезка интегрирования:

    Оценка абсолютной погрешности метода прямоугольников (середина)

    Оценка абсолютной погрешности методов левых и правых прямоугольников.

    Пример. Вычислить для всего интервала и с делением интервала на четыре участка

    Решение. Аналитическое вычисление данного интеграла дает I=агсtg(1)–агсtg(0)=0,7853981634. В нашем случае:

    1)h = 1; xо = 0; x1 = 1;

    2) h = 0,25 (1/4); x0 = 0; x1 = 0,25; x2 = 0,5; х3 = 0,75; x4 = 1;

    Вычислим методом левых прямоугольников:

    Вычислим методом правых прямоугольников:

    Вычислим методом средних прямоугольников:

    Метод трапеций. Использование для интерполяции полинома первой степени (прямая линия, проведенная через две точки) приводит к формуле трапеций. В качестве узлов интерполирования берутся концы отрезка интегрирования. Таким образом, криволинейная трапеция заменяется на обычную трапецию, площадь которой может быть найдена как произведение полусуммы оснований на высоту

    В случае N отрезков интегрирования для всех узлов, за исключением крайних точек отрезка, значение функции войдет в общую сумму дважды (так как соседние трапеции имеют одну общую сторону)

    Формула трапеции может быть получена, если взять половину суммы формул прямоугольников по правому и левому краям отрезка:

    Проверка устойчивости решения. Как правило, чем меньше длина каждого интервала, т.е. чем больше число этих интервалов, тем меньше различаются приближенное и точное значение интеграла. Это справедливо для большинства функций. В методе трапеций ошибка вычисления интеграла ϭ приблизительно пропорциональна квадрату шага интегрирования (ϭ ~ h 2).Таким образом, для вычисления интеграла некоторой функции в переделах a,b необходимо разделить отрезок на N 0 интервалов и найти сумму площадей трапеции. Затем нужно увеличить число интервалов N 1 , опять вычислить сумму трапеции и сравнить полученное значение с предыдущим результатом. Это следует повторять до тех пор (N i), пока не будет достигнута заданная точность результата (критерий сходимости).

    Для методов прямоугольников и трапеции обычно на каждом шаге итерации число интервалов увеличивается в 2 раза (N i +1 =2N i).

    Критерий сходимости:

    Главное преимущество правила трапеций – его простота. Однако если при вычислении интеграла требуется высокая точность, применение этого метода может потребовать слишком большого количества итераций.

    Абсолютная погрешность метода трапеций оценивается как
    .

    Пример. Вычислить приближенно определенный интеграл по формуле трапеций.

    а) Разбив отрезок интегрирования на 3 части.
    б) Разбив отрезок интегрирования на 5 частей.

    Решение:
    а) По условию отрезок интегрирования нужно разделить на 3 части, то есть .
    Вычислим длину каждого отрезка разбиения: .

    Таким образом, общая формула трапеций сокращается до приятных размеров:

    Окончательно:

    Напоминаю, что полученное значение – это приближенное значение площади.

    б) Разобьём отрезок интегрирования на 5 равных частей, то есть . увеличивая количество отрезков, мы увеличиваем точность вычислений.

    Если , то формула трапеций принимает следующий вид:

    Найдем шаг разбиения:
    , то есть, длина каждого промежуточного отрезка равна 0,6.

    При чистовом оформлении задачи все вычисления удобно оформлять расчетной таблицей:

    В первой строке записываем «счётчик»

    В результате:

    Ну что же, уточнение, и серьёзное, действительно есть!
    Если для 3-х отрезков разбиения , то для 5-ти отрезков . Если взять еще больше отрезком => будет еще точнее.

    Формула Симпсона. Формула трапеции дает результат, сильно зависящий от величины шага h, что сказывается на точности вычисления определенного интеграла особенно в тех случаях, когда функция имеет немонотонный характер. Можно предположить повышение точности вычислений, если вместо отрезков прямых, заменяющих криволинейные фрагменты графика функции f(x), использовать, например, фрагменты парабол, приводимых через три соседние точки графика. Подобная геометрическая интерпретация лежит в основе метода Симпсона для вычисления определенного интеграла. Весь интервал интегрирования a,b разбивается N отрезков, длина отрезка также будет равна h=(b-a)/N.

    Формула Симпсона имеет вид:

    остаточный член

    С увеличением длины отрезков точность формулы падает, поэтому для увеличения точности применяют составную формулу Симпсона. Весь интервал интегрирования разбивается на четное число одинаковых отрезков N, длина отрезка также будет равна h=(b-a)/N. Составная формула Симпсона имеет вид:

    В формуле выражения в скобках представляют собой суммы значений подынтегральной функции соответственно на концах нечетных и четных внутренних отрезков.

    Остаточный член формулы Симпсона пропорционален уже четвертой степени шага:

    Пример: Пользуясь правилом Симпсона вычислить интеграл . (Точное решение - 0,2)

    Метод Гаусса

    Квадратурная формула Гаусса . Основной принцип квадратурных формул второй разновидности виден из рисунка 1.12: необходимо так разместить точки х 0 и х 1 внутри отрезка [a ;b ], чтобы площади "треугольников" в сумме были равны площади "сегмента". При использовании формулы Гаусса исходный отрезок [a ;b ] сводится к отрезку [-1;1] заменой переменной х на

    0.5∙(b a )∙t + 0.5∙(b + a ).

    Тогда , где .

    Такая замена возможна, если a и b конечны, а функция f (x ) непрерывна на [a ;b ]. Формула Гаусса при n точках x i , i =0,1,..,n -1 внутри отрезка [a ;b ]:

    , (1.27)

    где t i и A i для различных n приводятся в справочниках. Например, при n =2 A 0 =A 1 =1; при n =3: t 0 =t 2 »0.775, t 1 =0, A 0 =A 2 »0.555, A 1 »0.889.

    Квадратурная формула Гаусса

    получена с весовой функцией равной единице p(x)= 1 и узлами x i , являющимися корнями полиномов Лежандра

    Коэффициенты A i легко вычисляются по формулам

    i =0,1,2,...n .

    Значения узлов и коэффициентов для n=2,3,4,5 приведены в таблице

    Порядок Узлы Коэффициенты
    n =2 x 1 =0 x 0 = -x 2 =0.7745966692 A 1 =8/9 A 0 =A 2 =5/9
    n =3 x 2 = -x 1 =0.3399810436 x 3 = -x 0 =0.8611363116 A 1 =A 2 =0.6521451549 A 0 =A 3 =0.6521451549
    n=4 x 2 = 0 x 3 = -x 1 = 0.5384693101 x 4 =-x 0 =0.9061798459 A 0 =0.568888899 A 3 =A 1 =0.4786286705 A 0 =A 4 =0.2869268851
    n =5 x 5 = -x 0 =0.9324695142 x 4 = -x 1 =0.6612093865 x 3 = -x 2 =0.2386191861 A 5 =A 0 =0.1713244924 A 4 =A 1 =0.3607615730 A 3 =A 2 =0.4679139346

    Пример. Вычислить значение по формуле Гаусса для n =2:

    Точное значение: .

    Алгоритм вычисления интеграла по формуле Гаусса предусматривает не удвоение числа микроотрезков, а увеличение числа ординат на 1 и сравнение полученных значений интеграла. Преимущество формулы Гаусса – высокая точность при сравнительно малом числе ординат. Недостатки: неудобна при расчетах вручную; необходимо держать в памяти ЭВМ значения t i , A i для различных n .

    Погрешность квадратурной формулы Гаусса на отрезке будет при этом Для формула остаточного члена будет причем коэффициент α N быстро убывает с ростом N . Здесь

    Формулы Гаусса обеспечивают высокую точность уже при небольшом количестве узлов (от 4 до 10) В этом случае В практических же вычислениях число узлов составляет от нескольких сотен до нескольких тысяч. Отметим также, что веса квадратур Гаусса всегда положительны, что обеспечивает устойчивость алгоритма вычисления сумм