| Περιγραφή: |
Статья посвящена проблеме отбора информативных регрессоров в линейной регрессионной модели, точное решение которой может быть гарантировано либо полным перебором всех возможных вариантов регрессий, либо решением специальным образом сформулированной задачи математического программирования с булевыми переменными. Часто задача отбора информативных регрессоров решается с использованием лишь одного критерия адекватности, например, минимизируются только ошибки модели. Но в случае оценивания регрессии с помощью метода наименьших квадратов необходимо стремиться не только к увеличению качества аппроксимации, но и к соблюдению условий теоремы Гаусса - Маркова, одним из которых является отсутствие линейной зависимости между объясняющими переменными. Если это условие не выполняется, то говорят, что имеет место мультиколлинеарность. Таким образом, при отборе информативных регрессоров целесообразно решать двухкритериальную задачу - стремиться максимизировать качество аппроксимации и одновременно минимизировать мультиколлинеарность между объясняющими переменными. Поскольку точных количественных критериев для определения наличия / отсутствия мультиколлинеарности не существует, в данной работе на основе известной рекомендации сформулирован критерий верхней границы мультиколлинеарности. С использованием этого критерия предложены четыре возможные постановки задачи отбора информативных регрессоров, каждая из которых сведена к задаче частично-булевого линейного программирования. Для демонстрации предложенного математического аппарата разработана пробная версия специализированного программного комплекса, с помощью которого решена задача моделирования грузооборота Красноярской железной дороги The article is devoted to the problem of subset selection in linear regression model, the exact solution of which guarantees either a full search of all possible regressions or a solution of a specially formulated mathematical programming problem with Boolean variables. Often the problem of subset selection is solved using only one criterion of adequacy, for example, only model errors are minimized. But in the case of estimating regression using ordinary least squares, it is necessary to strive not only to increase the quality of the approximation, but also to observe the conditions of the Gauss-Markov theorem, one of which is the absence of a linear dependence between the explanatory variables. If this condition is not satisfied, then it is said that multicollinearity takes place. Thus, when selecting informative regressors, it is expedient to solve the two-criteria problem - to strive to maximize the quality of approximation and at the same time minimize the multicollinearity between explanatory variables. Since there are no exact quantitative criteria for determining the presence / absence of multicollinearity, in this paper, based on the well-known recommendation, a criterion for the upper bound of multicollinearity is formulated. Using this criterion, four possible statements of the two-criteria problem of subset selection are proposed, each of which is reduced to task of mixed 0-1 integer linear programming. To demonstrate the proposed mathematical apparatus, a trial version of a specialized software package was developed, with the help of which the task of modeling the freight turnover of the Krasnoyarsk railroad was solved. |