Оценка методов уменьшения размерности данных, применяемых для преобразования видеопотока при идентификации личности. Введение в уменьшение размерности Снижение размерности данных

Понижение размерности (Data reduction)

В аналитических технологиях под понижением размерности данных понимается процесс их преобразования в форму, наиболее удобную для анализа и интерпретации. Обычно оно достигается за счёт уменьшения их объема, сокращения количества используемых признаков и разнообразия их значений.

Часто анализируемые данные являются неполными, когда они плохо отображают зависимости и закономерности исследуемых бизнес-процесов . Причинами этого могут быть недостаточное количество наблюдений, отсутствие признаков, которые отражают существенные свойства объектов. В этом случае применяется обогащение данных .

Понижение размерности применяется в противоположном случае, когда данные избыточны. Избыточность возникает тогда, когда задачу анализа можно решить с тем же уровнем эффективности и точности, но используя меньшую размерность данных. Это позволяет сократить время и вычислительные затраты на решение задачи, сделать данные и результаты их анализа более интерпретируемыми и понятными для пользователя.

Сокращение числа наблюдений данных применяется если решение сравнимого качества можно получить на выборке меньшего объема, сократив, тем самым, вычислительные и временные затраты. Особенно это актуально для алгоритмов, не являющихся масштабируемыми , когда даже небольшое сокращение числа записей приводит к существенному выигрышу в вычислительных временных затратах.

Сокращение числа признаков имеет смысл проводить тогда, когда информация, необходимая для качественного решения задачи, содержится в некотором подмножестве признаков и необязательно использовать их все. Особенно это актуально для коррелирующих признаков. Например, признаки "Возраст" и "Стаж работы", по сути, несут одну и ту же информацию, поэтому один из них можно исключить.

Наиболее эффективным средством сокращения числа признаков является факторный анализ и метод главных компонент .

Сокращение разнообразия значений признаков имеет смысл, например, если точность представления данных избыточна и вместо вещественных значений можно использовать целые без ухудшения качества модели. Но при этом уменьшится занимаемый данными объем памяти и вычислительные затраты.

Подмножество данных, полученное в результате сокращения размерности, должно унаследовать от исходного множества столько информации, сколько необходимо для решения задачи с заданной точностью, а вычислительные и временные затраты на сокращение данных не должны обесценивать полученные от него преимущества.

Аналитическая модель, построенная на основе сокращенного множества данных, должна стать проще для обработки, реализации и понимания, чем модель, построенная на исходном множестве.

Решение о выборе метода сокращения размерности основывается на априорном знании об особенностях решаемой задачи и ожидаемых результатах, а также ограниченности временных и вычислительных ресурсов.

Ключевые слова

МАТЕМАТИКА / ПРИКЛАДНАЯ СТАТИСТИКА / МАТЕМАТИЧЕСКАЯ СТАТИСТИКА / ТОЧКИ РОСТА / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / ФАКТОРНЫЙ АНАЛИЗ / МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ / ОЦЕНИВАНИЕ РАЗМЕРНОСТИ ДАННЫХ / ОЦЕНИВАНИЕ РАЗМЕРНОСТИ МОДЕЛИ / MATHEMATICS / APPLIED STATISTICS / MATHEMATICAL STATISTICS / GROWTH POINTS / PRINCIPAL COMPONENT ANALYSIS / FACTOR ANALYSIS / MULTIDIMENSIONAL SCALING / ESTIMATION OF DATA DIMENSION / ESTIMATION OF MODEL DIMENSION

Аннотация научной статьи по математике, автор научной работы - Орлов Александр Иванович, Луценко Евгений Вениаминович

Одной из «точек роста» прикладной статистики являются методы снижения размерности пространства статистических данных. Они все чаще используются при анализе данных в конкретных прикладных исследованиях, например, социологических. Рассмотрим наиболее перспективные методы снижения размерности. Метод главных компонент является одним из наиболее часто используемых методов снижения размерности. Для визуального анализа данных часто используют проекции исходных векторов на плоскость первых двух главных компонент. Обычно хорошо видна структура данных, выделяются компактные кластеры объектов и отдельно выделяющиеся вектора. Метод главных компонент является одним из методов факторного анализа . Новая идея по сравнению с методом главных компонент состоит в том, что на основе нагрузок происходит разбиение факторов на группы. В одну группу объединяются факторы, имеющие сходное влияние на элементы нового базиса. Затем из каждой группы рекомендуется оставить одного представителя. Иногда вместо выбора представителя расчетным путем формируется новый фактор, являющийся центральным для рассматриваемой группы. Снижение размерности происходит при переходе к системе факторов, являющихся представителями групп. Остальные факторы отбрасываются. На использовании расстояний (мер близости, показателей различия) между признаками и основан обширный класс методов многомерного шкалирования . Основная идея этого класса методов состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих объект. В качестве примера применения вероятностно-статистического моделирования и результатов статистики нечисловых данных обоснуем состоятельность оценки размерности пространства данных в многомерном шкалировании , ранее предложенной Краскалом из эвристических соображений. Рассмотрен ряд работ по оцениванию размерностей моделей (в регрессионном анализе и в теории классификации). Дана информация об алгоритмах снижения размерности в автоматизированном системно-когнитивный анализе

Похожие темы научных работ по математике, автор научной работы - Орлов Александр Иванович, Луценко Евгений Вениаминович

  • Математические методы в социологии за сорок пять лет

  • Многообразие объектов нечисловой природы

  • Оценивание параметров: одношаговые оценки предпочтительнее оценок максимального правдоподобия

  • Прикладная статистика - состояние и перспективы

    2016 / Орлов Александр Иванович
  • Состояние и перспективы развития прикладной и теоретической статистики

    2016 / Орлов Александр Иванович
  • Взаимосвязь предельных теорем и метода Монте-Карло

    2015 / Орлов Александр Иванович
  • О развитии статистики объектов нечисловой природы

    2013 / Орлов Александр Иванович
  • Точки роста статистических методов

    2014 / Орлов Александр Иванович
  • О новых перспективных математических инструментах контроллинга

    2015 / Орлов Александр Иванович
  • Расстояния в пространствах статистических данных

    2014 / Орлов Александр Иванович

One of the "points of growth" of applied statistics is methods of reducing the dimension of statistical data. They are increasingly used in the analysis of data in specific applied research, such as sociology. We investigate the most promising methods to reduce the dimensionality. The principal components are one of the most commonly used methods to reduce the dimensionality. For visual analysis of data are often used the projections of original vectors on the plane of the first two principal components. Usually the data structure is clearly visible, highlighted compact clusters of objects and separately allocated vectors. The principal components are one method of factor analysis . The new idea of factor analysis in comparison with the method of principal components is that, based on loads, the factors breaks up into groups. In one group of factors, new factor is combined with a similar impact on the elements of the new basis. Then each group is recommended to leave one representative. Sometimes, instead of the choice of representative by calculation, a new factor that is central to the group in question. Reduced dimension occurs during the transition to the system factors, which are representatives of groups. Other factors are discarded. On the use of distance (proximity measures, indicators of differences) between features and extensive class are based methods of multidimensional scaling . The basic idea of this class of methods is to present each object as point of the geometric space (usually of dimension 1, 2, or 3) whose coordinates are the values of the hidden (latent) factors which combine to adequately describe the object. As an example of the application of probabilistic and statistical modeling and the results of statistics of non-numeric data, we justify the consistency of estimators of the dimension of the data in multidimensional scaling , which are proposed previously by Kruskal from heuristic considerations. We have considered a number of consistent estimations of dimension of models (in regression analysis and in theory of classification). We also give some information about the algorithms for reduce the dimensionality in the automated system-cognitive analysis

Текст научной работы на тему «Методы снижения размерности пространства статистических данных»

УДК 519.2: 005.521:633.1:004.8

01.00.00 Физико-математические науки

МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ ПРОСТРАНСТВА СТАТИСТИЧЕСКИХ ДАННЫХ

Орлов Александр Иванович

д.э.н., д.т.н., к.ф.-м.н., профессор

РИНЦ БРШ-код: 4342-4994

Московский государственный технический

университет им. Н.Э. Баумана, Россия, 105005,

Москва, 2-я Бауманская ул., 5, prof-orlov@mail.т

Луценко Евгений Вениаминович д.э.н., к.т.н., профессор РИНЦ БРШ-код: 9523-7101 Кубанский государственный аграрный университет, Краснодар, Россия prof.lutsenko@gmail. com

Одной из «точек роста» прикладной статистики являются методы снижения размерности пространства статистических данных. Они все чаще используются при анализе данных в конкретных прикладных исследованиях, например, социологических. Рассмотрим наиболее перспективные методы снижения размерности. Метод главных компонент является одним из наиболее часто используемых методов снижения размерности. Для визуального анализа данных часто используют проекции исходных векторов на плоскость первых двух главных компонент. Обычно хорошо видна структура данных, выделяются компактные кластеры объектов и отдельно выделяющиеся вектора. Метод главных компонент является одним из методов факторного анализа. Новая идея по сравнению с методом главных компонент состоит в том, что на основе нагрузок происходит разбиение факторов на группы. В одну группу объединяются факторы, имеющие сходное влияние на элементы нового базиса. Затем из каждой группы рекомендуется оставить одного представителя. Иногда вместо выбора представителя расчетным путем формируется новый фактор, являющийся центральным для рассматриваемой группы. Снижение размерности происходит при переходе к системе факторов, являющихся представителями групп. Остальные факторы отбрасываются. На использовании расстояний (мер близости, показателей различия) между признаками и основан обширный класс методов многомерного шкалирования. Основная идея этого класса методов состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих

UDC 519.2: 005.521:633.1:004.8

Physics and mathematical sciences

METHODS OF REDUCING SPACE DIMENSION OF STATISTICAL DATA

Orlov Alexander Ivanovich

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

Bauman Moscow State Technical University, Moscow, Russia

Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., professor RSCI SPIN-code: 9523-7101

Kuban State Agrarian University, Krasnodar, Russia

prof.lutsenko@gmail. com

One of the "points of growth" of applied statistics is methods of reducing the dimension of statistical data. They are increasingly used in the analysis of data in specific applied research, such as sociology. We investigate the most promising methods to reduce the dimensionality. The principal components are one of the most commonly used methods to reduce the dimensionality. For visual analysis of data are often used the projections of original vectors on the plane of the first two principal components. Usually the data structure is clearly visible, highlighted compact clusters of objects and separately allocated vectors. The principal components are one method of factor analysis. The new idea of factor analysis in comparison with the method of principal components is that, based on loads, the factors breaks up into groups. In one group of factors, new factor is combined with a similar impact on the elements of the new basis. Then each group is recommended to leave one representative. Sometimes, instead of the choice of representative by calculation, a new factor that is central to the group in question. Reduced dimension occurs during the transition to the system factors, which are representatives of groups. Other factors are discarded. On the use of distance (proximity measures, indicators of differences) between features and extensive class are based methods of multidimensional scaling. The basic idea of this class of methods is to present each object as point of the geometric space (usually of dimension 1, 2, or 3) whose coordinates are the values of the hidden (latent) factors which combine to adequately describe the object. As an example of the application of probabilistic and statistical modeling and the results of statistics of non-numeric data, we justify the consistency of estimators of the

объект. В качестве примера применения вероятностно-статистического моделирования и результатов статистики нечисловых данных обоснуем состоятельность оценки размерности пространства данных в многомерном шкалировании, ранее предложенной Краскалом из эвристических соображений. Рассмотрен ряд работ по оцениванию размерностей моделей (в регрессионном анализе и в теории классификации). Дана информация об алгоритмах снижения размерности в автоматизированном системно-когнитивный анализе

Ключевые слова: МАТЕМАТИКА, ПРИКЛАДНАЯ СТАТИСТИКА, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ТОЧКИ РОСТА, МЕТОД ГЛАВНЫХ КОМПОНЕНТ, ФАКТОРНЫЙ АНАЛИЗ, МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ, ОЦЕНИВАНИЕ РАЗМЕРНОСТИ ДАННЫХ, ОЦЕНИВАНИЕ РАЗМЕРНОСТИ МОДЕЛИ

dimension of the data in multidimensional scaling, which are proposed previously by Kruskal from heuristic considerations. We have considered a number of consistent estimations of dimension of models (in regression analysis and in theory of classification). We also give some information about the algorithms for reduce the dimensionality in the automated system-cognitive analysis

Keywords: MATHEMATICS, APPLIED STATISTICS, MATHEMATICAL STATISTICS, GROWTH POINTS, THE PRINCIPAL COMPONENT ANALYSIS, FACTOR ANALYSIS, MULTIDIMENSIONAL SCALING, ESTIMATION OF DATA DIMENSION, ESTIMATION OF MODEL DIMENSION

1. Введение

Как уже отмечалось, одной из «точек роста» прикладной статистики являются методы снижения размерности пространства статистических данных. Они все чаще используются при анализе данных в конкретных прикладных исследованиях, например, социологических. Рассмотрим наиболее перспективные методы снижения размерности. В качестве примера применения вероятностно-статистического моделирования и результатов статистики нечисловых данных обоснуем состоятельность оценки размерности пространства, ранее предложенной Краскалом из эвристических соображений .

В многомерном статистическом анализе каждый объект описывается вектором, размерность которого произвольна (но одна и та же для всех объектов). Однако человек может непосредственно воспринимать лишь числовые данные или точки на плоскости. Анализировать скопления точек в трехмерном пространстве уже гораздо труднее. Непосредственное восприятие данных более высокой размерности невозможно. Поэтому вполне естественным является желание перейти от многомерной выборки к данным небольшой размерности, чтобы «на них можно было

посмотреть». Например, маркетолог может наглядно увидеть, сколько имеется различных типов поведения потребителей (т.е. сколько целесообразно выделять сегментов рынка) и какие именно (с какими свойствами) потребители в них входят.

Кроме стремления к наглядности, есть и другие мотивы для снижения размерности. Те факторы, от которых интересующая исследователя переменная не зависит, лишь мешают статистическому анализу. Во-первых, на сбор информации о них расходуются финансовые, временные, кадровые ресурсы. Во-вторых, как можно доказать, их включение в анализ ухудшает свойства статистических процедур (в частности, увеличивает дисперсию оценок параметров и характеристик распределений). Поэтому желательно избавиться от таких факторов.

При анализе многомерных данных обычно рассматривают не одну, а множество задач, в частности, по-разному выбирая независимые и зависимые переменные. Поэтому рассмотрим задачу снижения размерности в следующей формулировке. Дана многомерная выборка. Требуется перейти от нее к совокупности векторов меньшей размерности, максимально сохранив структуру исходных данных, по возможности не теряя информации, содержащихся в данных. Задача конкретизируется в рамках каждого конкретного метода снижения размерности.

2. Метод главных компонент

Он является одним из наиболее часто используемых методов снижения размерности. Основная его идея состоит в последовательном выявлении направлений, в которых данные имеют наибольший разброс. Пусть выборка состоит из векторов, одинаково распределенных с вектором X = (x(1), x(2), ... , x(n)). Рассмотрим линейные комбинации

7(^(1), Х(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n),

Х2(1) + Х2(2) + ...+ Х2(п) = 1. Здесь вектор X = (Х(1), Х(2), ..., Х(п)) лежит на единичной сфере в п-мерном пространстве.

В методе главных компонент прежде всего находят направление максимального разброса, т.е. такое X, при котором достигает максимума дисперсия случайной величины 7(Х) = 7(Х(1), Х(2), ..., Х(п)). Тогда вектор X задает первую главную компоненту, а величина 7(Х) является проекцией случайного вектора Х на ось первой главной компоненты.

Затем, выражаясь терминами линейной алгебры, рассматривают гиперплоскость в п-мерном пространстве, перпендикулярную первой главной компоненте, и проектируют на эту гиперплоскость все элементы выборки. Размерность гиперплоскость на 1 меньше, чем размерность исходного пространства.

В рассматриваемой гиперплоскости процедура повторяется. В ней находят направление наибольшего разброса, т.е. вторую главную компоненту. Затем выделяют гиперплоскость, перпендикулярную первым двум главным компонентам. Ее размерность на 2 меньше, чем размерность исходного пространства. Далее - следующая итерация.

С точки зрения линейной алгебры речь идет о построении нового базиса в п-мерном пространстве, ортами которого служат главные компоненты.

Дисперсия, соответствующая каждой новой главной компоненте, меньше, чем для предыдущей. Обычно останавливаются, когда она меньше заданного порога. Если отобрано к главных компонент, то это означает, что от п-мерного пространства удалось перейти к к-мерному, т.е. сократить размерность с п-до к, практически не исказив структуру исходных данных.

Для визуального анализа данных часто используют проекции исходных векторов на плоскость первых двух главных компонент. Обычно

хорошо видна структура данных, выделяются компактные кластеры объектов и отдельно выделяющиеся вектора.

3. Факторный анализ

Метод главных компонент является одним из методов факторного анализа . Различные алгоритмы факторного анализа объединены тем, что во всех них происходит переход к новому базису в исходном n-мерном пространстве. Важным является понятие «нагрузка фактора», применяемое для описания роли исходного фактора (переменной) в формировании определенного вектора из нового базиса.

Новая идея по сравнению с методом главных компонент состоит в том, что на основе нагрузок происходит разбиение факторов на группы. В одну группу объединяются факторы, имеющие сходное влияние на элементы нового базиса. Затем из каждой группы рекомендуется оставить одного представителя. Иногда вместо выбора представителя расчетным путем формируется новый фактор, являющийся центральным для рассматриваемой группы. Снижение размерности происходит при переходе к системе факторов, являющихся представителями групп. Остальные факторы отбрасываются.

Описанная процедура может быть осуществлена не только с помощью факторного анализа. Речь идет о кластер-анализе признаков (факторов, переменных). Для разбиения признаков на группы можно применять различные алгоритмы кластер-анализа . Достаточно ввести расстояние (меру близости, показатель различия) между признаками. Пусть Х и У - два признака. Различие d(X,Y) между ними можно измерять с помощью выборочных коэффициентов корреляции:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, где rn(X,Y) - выборочный линейный коэффициент корреляции Пирсона, pn(X, Y) - выборочный коэффициент ранговой корреляции Спирмена.

4. Многомерное шкалирование.

На использовании расстояний (мер близости, показателей различия) d(X,Y) между признаками Х и У основан обширный класс методов многомерного шкалирования . Основная идея этого класса методов состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих объект. При этом отношения между объектами заменяются отношениями между точками - их представителями. Так, данные о сходстве объектов - расстояниями между точками, данные о превосходстве - взаимным расположением точек .

5. Проблема оценки истинной размерности факторного пространства

В практике анализа социологических данных используется ряд различных моделей многомерного шкалирования. Во всех них встает проблема оценки истинной размерности факторного пространства. Рассмотрим эту проблему на примере обработки данных о сходстве объектов с помощью метрического шкалирования.

Пусть имеется n объектов 0(1), О(2), ..., O(n), для каждой пары объектов 0(/), O(j) задана мера их сходства s(ij). Считаем, что всегда s(i,j) = s(j,i). Происхождение чисел s(ij) не имеет значения для описания работы алгоритма. Они могли быть получены либо непосредственным измерением, либо с использованием экспертов, либо путем вычисления по совокупности описательных характеристик, либо как-то иначе.

В евклидовом пространстве рассматриваемые n объектов должны быть представлены конфигурацией n точек, причем в качестве меры близости точек-представителей выступает евклидово расстояние d(i,j)

между соответствующими точками. Степень соответствия между совокупностью объектов и совокупностью представляющих их точек определяется путем сопоставления матриц сходства ||я(,)|| и расстояний ШМ-Метрический функционал сходства имеет вид

я = £|*(/, ]) - й (/, М

Геометрическую конфигурацию надо выбирать так, чтобы функционал S достигал своего наименьшего значения .

Замечание. В неметрическом шкалировании вместо близости самих мер близости и расстояний рассматривается близость упорядочений на множестве мер близости и множестве соответствующих расстояний. Вместо функционала S используются аналоги ранговых коэффициентов корреляции Спирмена и Кендалла. Другими словами, неметрическое шкалирование исходит из предположения, что меры близости измерены в порядковой шкале.

Пусть евклидово пространство имеет размерность т. Рассмотрим минимум среднего квадрата ошибки

где минимум берется по всем возможным конфигурациям п точек в т-мерном евклидовом пространстве. Можно показать, что рассматриваемый минимум достигается на некоторой конфигурации. Ясно, что при росте т величина ат монотонно убывает (точнее, не возрастает). Можно показать, что при т > п - 1 она равна 0 (если - метрика). Для увеличения возможностей содержательной интерпретации желательно действовать в пространстве возможно меньшей размерности. При этом, однако, размерность необходимо выбрать так, чтобы точки представляли объекты без больших искажений. Возникает вопрос: как рационально выбирать размерность пространства, т.е. натуральное число т?

6. Модели и методы оценивания размерности пространства данных

В рамках детерминированного анализа данных обоснованного ответа на этот вопрос, видимо, нет. Следовательно, необходимо изучить поведение am в тех или иных вероятностных моделях. Если меры близости s(ij) являются случайными величинами, распределение которых зависит от «истинной размерности» m0 (и, возможно, от каких-либо еще параметров), то можно в классическом математико-статистическом стиле ставить задачу оценки m0, искать состоятельные оценки и т.д.

Начнем строить вероятностные модели. Примем, что объекты представляют собой точки в евклидовом пространстве размерности к, где к достаточно велико. То, что «истинная размерность» равна m0, означает, что все эти точки лежат на гиперплоскости размерности m0. Примем для определенности, что совокупность рассматриваемых точек представляет собой выборку из кругового нормального распределения с дисперсией о (0). Это означает, что объекты 0(1), 0(2), ..., O(n) являются независимыми в совокупности случайными векторами, каждый из которых строится как

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), где e(1), e(2), ... , e(m0) - ортонормальный базис в подпространстве размерности m0, в котором лежат рассматриваемые точки, а Z(1), Z(2), , Z(m0) - независимые в совокупности одномерные нормальные случайные величины с математическим ожиданием 0 и дисперсией о (0).

Рассмотрим две модели получения мер близости s(ij). В первой из них s(ij) отличаются от евклидова расстояния между соответствующими точками из-за того, что точки известны с искажениями. Пусть с(1), с(2), ... , c(n) - рассматриваемые точки. Тогда

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

где й - евклидово расстояние между точками в ^мерном пространстве, вектора е(1), е(2), ... , е(п) представляют собой выборку из кругового нормального распределения в ^мерном пространстве с нулевым математическим ожиданием и ковариационной матрицей о (1)/, где I -единичная матрица. Другими словами,

е(0 = п(1)е(1) + П(2)е(2) + ... + ц(к)в(к), где е(1), е(2), ..., e(k) - ортонормальный базис в ^мерном пространстве, а [ц^^), i = 1, 2, ... , п, ? =1, 2, ... , к} - совокупность независимых в совокупности одномерных случайных величин с нулевым математическим ожиданием и дисперсией о (1).

Во второй модели искажения наложены непосредственно на сами расстояния:

Кч) = й(Ф\ СИ)) + £(УХ и = 1, 2 . , n, i ф j,

где и , причем на первом интервале она убывает быстрее, чем на втором. Отсюда следует, что статистика

m* = Arg minam+1 - 2am + an-x}

является состоятельной оценкой истинной размерности m0.

Итак, из вероятностной теории вытекает рекомендация - в качестве оценки размерности факторного пространства использовать т*. Отметим, что подобная рекомендация была сформулировано как эвристическая одним из основателей многомерного шкалирования Дж. Краскалом . Он исходил из опыта практического использования многомерного шкалирования и вычислительных экспериментов. Вероятностная теория позволила обосновать эту эвристическую рекомендацию.

7. Оценивание размерности модели

Если возможные подмножества признаков образуют расширяющееся семейство, например, оценивается степень полинома, то естественно ввести термин «размерность модели» (это понятие во многом аналогично используемому в многомерном шкалировании понятию размерности пространства данных). Автору настоящей статьи принадлежит ряд работ по оцениванию размерности модели, которые целесообразно сопоставить с работами по оцениванию размерности пространства данных, рассмотренными выше.

Первая такая работа выполнена автором настоящей статьи во время командировки во Францию в 1976 г. В ней была изучена одна оценка размерности модели в регрессии, а именно, оценка степени полинома в предположении, что зависимость описывается полиномом. Эта оценка была известна в литературе, но позже ее стали ошибочно приписывать автору настоящей статьи, который лишь изучил ее свойства, в частности, установил, что она не является состоятельной, и нашел ее предельное геометрическое распределение . Другие, уже состоятельные оценки размерности регрессионной модели были предложены и изучены в статье . Этот цикл завершила содержащая ряд уточнений работа .

Крайняя публикация на эту тему включает в себя обсуждение результатов изучения скорости сходимости в полученных мною предельных теоремах методом Монте-Карло .

Аналогичные по методологии оценки размерности модели в задаче расщепления смесей (часть теории классификации ) рассмотрены в статье .

Рассмотренные выше оценки размерности модели в многомерном шкалировании изучаются в работах . В этих же работах установлено предельное поведение характеристик метода главных компонент (с помощью асимптотической теории поведения решений экстремальных статистических задач ).

8. Алгоритмы снижения размерности в автоматизированном системно-когнитивный анализе

В автоматизированном системно-когнитивный анализе (АСК-анализе) предложен и в системе "Эйдос" реализован еще один метод снижения размерности. Он описан в работе в разделах 4.2 "Описание алгоритмов базовых когнитивных операций системного анализа (БКОСА)" и 4.3 "Детальные алгоритмы БКОСА (АСК-анализа)". Приведем краткое описание двух алгоритмов - БКОСА-4.1 и БКОСА-4.2.

БКОСА-4.1. "Абстрагирование факторов (снижение размерности семантического пространства факторов) "

С помощью метода последовательных приближений (итерационный алгоритм) при заданных граничных условиях снижается размерность пространства атрибутов без существенного уменьшения его объема. Критерий остановки итерационного процесса - достижение одного из граничных условий.

БКОСА-4.2. "Абстрагирование классов (снижение размерности семантического пространства классов) "

С помощью метода последовательных приближений (итерационный алгоритм) при заданных граничных условиях снижается размерность пространства классов без существенного уменьшения его объема. Критерий остановки итерационного процесса - достижение одного из граничных условий.

Здесь приведены все реальные алгоритмы, реализованные в системе "Эйдос" той версии, которая была реализована на момент подготовки работы (2002 год) : http://lc.kubagro .ru/aidos/aidos02/4.3 .htm

Суть алгоритмов такова.

1. Рассчитывается количество информации в значениях факторов о переходе объекта в состояния, соответствующие классам.

2. Рассчитывается ценность значения фактора для дифференциации объекта по классам. Эта ценность - это просто вариабельность информативностей значений факторов (количественных мер вариабельности много: среднее отклонение от среднего, среднее квадратическое отклонение, и др.). Иначе говоря, если в значении фактора в среднем содержится мало информации о принадлежности и не принадлежности объекта к классу, то это значение не очень ценное, а если много - то ценное.

3. Рассчитывается ценность описательных шкал для дифференциации объектов по классам. В работах Е.В. Луценко сейчас это делается как среднее от ценностей градаций данной шкалы.

4. Потом проводится Парето-оптимизация значений факторов и описательных шкал:

Значения факторов (градации описательных шкал) ранжируются в порядке убывания ценности и удаляются из модели те наименее ценные, которые идут правее касательной к Парето-кривой 45°;

Факторы (описательные шкалы) ранжируются в порядке убывания ценности и удаляются из модели те наименее ценные, которые идут правее касательной к Парето-кривой 45°.

В результате размерность пространства, построенного на описательных шкалах, существенно снижается за счет удаления коррелирующих между собой шкал, т.е. по сути это ортонормирование пространства в информационной метрике.

Этот процесс может повторяться, т.е. быть итерационным, при этом в новой версии системе "Эйдос" итерации запускаются вручную.

Аналогично ортонормируется информационное пространство классов.

Шкалы и их градации могут быть числовыми (тогда обрабатываются интервальные значения), а также могут быть текстовыми (порядковыми или даже номинальными).

Таким образом, с помощью алгоритмов БКОСА (АСК-анализа) размерность пространства максимально снижается с минимальной потерей информации.

Для анализа статистических данных в прикладной статистике разработан ряд других алгоритмов снижения размерности. В задачи настоящей статьи не входит описание всего многообразия таких алгоритмов.

Литература

1. Орлов А.И. Точки роста статистических методов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 103. С. 136-162.

2. Краскал Дж. Взаимосвязь между многомерным шкалированием и кластер-анализом // Классификация и кластер. М.: Мир, 1980. С.20-41.

4. Харман Г. Современный факторный анализ. М.: Статистика, 1972. 489 с.

5. Орлов А.И. Заметки по теории классификации. / Социология: методология, методы, математические модели. 1991. № 2. С.28-50.

6. Орлов А.И. Базовые результаты математической теории классификации // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 110. С. 219-239.

7. Орлов А.И. Математические методы теории классификации // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 95. С. 23 - 45.

8. Терехина А.Ю. Анализ данных методами многомерного шкалирования. -М.: Наука, 1986. 168 с.

9. Перекрест В. Т. Нелинейный типологический анализ социально-экономической информации: Математические и вычислительные методы. - Л.: Наука, 1983. 176 с.

10. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1981. - 80 с.

11. Орлов А.И. Общий взгляд на статистику объектов нечисловой природы // Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. С.58-92.

12. Орлов А.И. Предельное распределение одной оценки числа базисных функций в регрессии // Прикладной многомерный статистический анализ. Ученые записки по статистике, т.33. - М.: Наука, 1978. С.380-381.

13. Орлов А.И. Оценка размерности модели в регрессии // Алгоритмическое и программное обеспечение прикладного статистического анализа. Ученые записки по статистике, т.36. - М.: Наука, 1980. С.92-99.

14. Орлов А.И. Асимптотика некоторых оценок размерности модели в регрессии // Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С.260-265.

15. Орлов А.И. Об оценивании регрессионного полинома // Заводская лаборатория. Диагностика материалов. 1994. Т.60. № 5. С.43-47.

16. Орлов А.И. Некоторые вероятностные вопросы теории классификации // Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С.166-179.

17. Orlov A.I. On the Development of the Statistics of Nonnumerical Objects // Design of Experiments and Data Analysis: New Trends and Results. - M.: ANTAL, 1993. Р.52-90.

18. Орлов А.И. Методы снижения размерности // Приложение 1 к книге: Толстова Ю.Н. Основы многомерного шкалирования: Учебное пособие для вузов. - М.: Издательство КДУ, 2006. - 160 с.

19. Орлов А.И. Асимптотика решений экстремальных статистических задач // Анализ нечисловых данных в системных исследованиях. Сборник трудов. Вып. 10. - М.: Всесоюзный научно-исследовательский институт системных исследований, 1982. С. 412.

20. Орлов А.И. Организационно-экономическое моделирование: учебник: в 3 ч. Часть 1: Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана. - 2009. - 541 с.

21. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). -Краснодар: КубГАУ. 2002. - 605 с. http://elibrary.ru/item.asp?id=18632909

1. Orlov A.I. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. № 103. S. 136-162.

2. Kraskal Dzh. Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimensional scaling // Sage University paper series: Qualitative applications in the social sciences. 1978. №11.

4. Harman G. Sovremennyj faktornyj analiz. M.: Statistika, 1972. 489 s.

5. Orlov A.I. Zametki po teorii klassifikacii. / Sociologija: metodologija, metody, matematicheskie modeli. 1991. № 2. S.28-50.

6. Orlov A.I. Bazovye rezul"taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. № 110. S. 219-239.

7. Orlov A.I. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. № 95. S. 23 - 45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - M.: Nauka, 1986. 168 s.

9. Perekrest V.T. Nelinejnyj tipologicheskij analiz social"no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - L.: Nauka, 1983. 176 s.

10. Tjurin Ju.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analiz nechislovoj informacii. M.: Nauchnyj Sovet AN SSSR po kompleksnoj probleme "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Predel"noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Ocenka razmernosti modeli v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiza. Uchenye zapiski po statistike, t.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski po statistike, t.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. Ob ocenivanii regressionnogo polinoma // Zavodskaja laboratorija. Diagnostika materialov. 1994. T.60. № 5. S.43-47.

16. Orlov A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski po statistike, t.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. On the Development of the Statistics of Nonnumerical Objects // Design of Experiments and Data Analysis: New Trends and Results. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.I. Metody snizhenija razmernosti // Prilozhenie 1 k knige: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - M.: Izdatel"stvo KDU, 2006. - 160 s.

19. Orlov A.I. Asimptotika reshenij jekstremal"nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel"skij institut sistemnyh issledovanij, 1982. S. 4-12.

20. Orlov A.I. Organizacionno-jekonomicheskoe modelirovanie: uchebnik: v 3 ch. Chast" 1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social"no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdanie). - Krasnodar: KubGAU. 2002. - 605 s. http://elibrary.ru/item.asp?id=18632909

В результате изучения материала главы 5 обучающийся должен:

знать

  • основные понятия и задачи снижения размерности:
  • подходы к решению задачи трансформации признакового пространства;

уметь

  • использовать метод главных компонент для перехода к стандартизованным ортогональным признакам;
  • оценивать уменьшение информативности данных при снижении размерности признакового пространства;
  • решать задачу построения оптимальных многомерных шкал для исследования объектов;

владеть

  • методами снижения размерности для решения прикладных задач статистического анализа;
  • навыками интерпретации переменных в преобразованном признаковом пространстве.

Основные понятия и задачи снижения размерности

На первый взгляд, чем больше информации об объектах исследования в виде совокупности характеризующих их признаков будет использовано для создания модели, тем лучше. Однако чрезмерный объем информации может привести к снижению эффективности анализа данных. Существует даже термин "проклятие размерности" (curse of dimensionality ), характеризующий проблемы работы с высокоразмерными данными. С необходимостью снижения размерности в той или иной форме связано решение различных статистических проблем.

Неинформативные признаки являются источником дополнительного шума и влияют на точность оценки параметров модели. Кроме того, наборы данных с большим числом признаков могут содержать группы коррелированных переменных. Наличие таких групп признаков означает дублирование информации, которое может искажать спецификацию модели и влиять на качество оценки ее параметров. Чем выше размерность данных, тем выше объем вычислений при их алгоритмической обработке.

Можно выделить два направления в снижении размерности признакового пространства по принципу используемых для этого переменных: отбор признаков из имеющегося исходного набора и формирование новых признаков путем трансформации первоначальных данных. В идеальном случае сокращенное представление данных должно иметь размерность, соответствующую размерности, внутренне присущей данным (intrinsic dimensionality).

Поиск наиболее информативных признаков, характеризующих исследуемое явление, представляет собой очевидное направление снижения размерности задачи, не требующее преобразования исходных переменных. Это позволяет сделать модель более компактной и избежать потерь, связанных с мешающим действием малоинформативных признаков. Отбор информативных признаков состоит в поиске наилучшего подмножества из множества всех исходных переменных. Критериями понятия "наилучшее" могут служить либо наиболее высокое качество моделирования при заданной размерности признакового пространства, либо наименьшая размерность данных, при которой возможно построение модели заданного качества.

Прямое решение задачи создания наилучшей модели связано с перебором всех возможных сочетаний признаков, что обычно представляется чрезмерно трудоемким. Поэтому, как правило, прибегают к прямой или обратной селекции признаков. В процедурах прямого отбора производится последовательное добавление переменных из исходного набора до достижения необходимого качества модели. В алгоритмах последовательной редукции исходного признакового пространства (обратной селекции) производится поэтапное удаление наименее информативных переменных до допустимого снижения информативности модели.

Следует учитывать, что информативность признаков относительна. Отбор должен обеспечить высокую информативность набора признаков, а не суммарную информативность составляющих его переменных. Так, наличие корреляции между признаками снижает их общую информативность вследствие дублирования общей для них информации. Поэтому добавление нового признака к уже отобранным обеспечивает прирост информативности в той степени, в которой он содержит полезную информацию, отсутствующую в ранее выбранных переменных. Наиболее простой является ситуация отбора взаимно ортогональных признаков, в которой алгоритм отбора реализуется предельно просто: переменные ранжируются по информативности, и используется такой состав первых в этом рейтинге признаков, который обеспечивает заданную информативность.

Ограниченность методов отбора признаков с целью снижения размерности пространства связана с предположением о непосредственном присутствии необходимых признаков в исходных данных, что обычно оказывается неверным. Альтернативный подход к снижению размерности предусматривает преобразование признаков в сокращенный набор новых переменных . В отличие от отбора исходных признаков формирование нового признакового пространства предполагает создание новых переменных, которые обычно являются функциями исходных признаков. Эти переменные, непосредственно не наблюдаемые, часто называют скрытыми, или латентными. В процессе создания эти переменные могут быть наделены различными полезными свойствами, такими как ортогональность. На практике исходные признаки обычно взаимосвязаны, поэтому трансформация их пространства в ортогональное порождает новые координаты-признаки, в которых отсутствует эффект дублирования информации об исследуемых объектах.

Отображение объектов в новом ортогональном признаковом пространстве создает возможность наглядно представить полезность каждого из признаков с точки зрения различий между этими объектами. Если координаты нового базиса упорядочить по дисперсии, характеризующей разброс значений по ним для рассматриваемых наблюдений, то становится очевидной ненужность с практической точки зрения некоторых признаков с малыми значениями дисперсий, так как объекты по этим признакам практически неразличимы по сравнению с их различиями по более информативным переменным. В такой ситуации можно говорить о так называемом вырождении исходного признакового пространства из k переменных, и реальная размерность этого пространства т может быть меньше исходной (m < k ).

Редукция признакового пространства сопровождается определенным снижением информативности данных, но уровень допустимого снижения может быть определен заранее. Выделение признаков проецирует набор исходных переменных в пространство меньшей размерности. Сжатие признакового пространства до двух-трехмерного может быть полезным для визуализации данных. Таким образом, процесс формирования нового признакового пространства обычно приводит к меньшему набору реально информативных переменных. На их базе может быть построена более качественная модель как основанная на меньшем числе наиболее информативных признаков.

Формирование новых переменных на основе исходных используется для латентно-семантического анализа, сжатия данных, классификации и распознавания образов, повышения скорости и эффективности процессов обучения . Сжатые данные обычно применяются для дальнейшего анализа и моделирования .

Одним из важных приложений трансформации признакового пространства и снижения размерности является построение синтетических латентных категорий на основе измеряемых значений признаков. Эти латентные признаки могут характеризовать общие определенные черты изучаемого явления, интегрирующие частные свойства наблюдаемых объектов, что позволяет строить интегральные индикаторы различных уровней обобщения информации.

Существенна роль методов редукции признакового пространства в исследовании проблемы дублирования информации в исходных признаках, приводящего к "разбуханию" дисперсии оценок коэффициентов регрессионных моделей . Переход к новым, в идеальном случае ортогональным и содержательно интерпретируемым, переменным является эффективным средством моделирования в условиях мультиколлинеарности исходных данных .

Преобразование исходного признакового пространства в ортогональное удобно для решения задач классификации, так как позволяет обоснованно применять определенные меры близости или различий объектов, такие как евклидово расстояние либо квадрат евклидова расстояния. В регрессионном анализе построение уравнения регрессии на главных компонентах позволяет решить проблему мультиколлинеарности.

  • В статистике, машинном обучении и теории информации снижение размерности - это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменных. Преобразование может быть разделено на отбор признаков и выделение признаков.

Связанные понятия

Упоминания в литературе

– загрузка и предобработка входных данных, – ручная и автоматическая разметка стимульных материалов (выделение зон интереса), – алгоритм вычисления матрицы представления преемника, – построение расширенной таблицы данных со значениями входных переменных, необходимых для последующего анализа, – метод снижения размерности пространства признаков (метод главных компонент), – визуализация компонентных нагрузок для выбора интерпретируемых компонент, – алгоритм обучения дерева решений, – алгоритм оценки предсказательной способности дерева, – визуализация дерева решений.

Связанные понятия (продолжение)

Техники спектральной кластеризации используют спектр (собственные значения) матрицы сходства данных для осуществления понижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.

Спектральные методы - это класс техник, используемых в прикладной математике для численного решения некоторых дифференциальных уравнений, возможно, вовлекая Быстрое преобразование Фурье. Идея заключается в переписи решения дифференциальных уравнений как суммы некоторых «базисных функций» (например, как ряды Фурье являются суммой синусоид), а затем выбрать коэффициенты в сумме, чтобы удовлетворить дифференциальному уравнению, насколько это возможно.

Математи́ческий ана́лиз (классический математический анализ) - совокупность разделов математики, соответствующих историческому разделу под наименованием «анализ бесконечно малых», объединяет дифференциальное и интегральное исчисления.

Дифференциа́льная эволю́ция (англ. differential evolution) - метод многомерной математической оптимизации, относящийся к классу стохастических алгоритмов оптимизации (то есть работает с использованием случайных чисел) и использующий некоторые идеи генетических алгоритмов, но, в отличие от них, не требует работы с переменными в бинарном коде.

Метод дискретного элемента (DEM, от англ. Discrete element method) - это семейство численных методов предназначенных для расчёта движения большого количества частиц, таких как молекулы, песчинки, гравий, галька и прочих гранулированных сред. Метод был первоначально применён Cundall в 1971 для решения задач механики горных пород.

Цель исследования:

Оценка эффективности методик уменьшения размерности данных для оптимизации их применения на практике распознавания (идентификации).

Задачи исследования:

1. Обзор литературных источников о существующих методах уменьшения размерности данных.

2. Проведение исследований (экспериментов) для сравнения эффективности применяемых на практике алгоритмов уменьшения размерности данных в задачах классификации

Методы исследования (программные средства):

Язык программирования С++, библиотека OpenCV

Восприятие данных высокой размерности для человека трудно, а порой невозможно. В связи с этим, вполне закономерным стало желание перейти от многомерной выборки к данным небольшой размерности, чтобы «на них можно было посмотреть», оценить и использовать, в том числе для достижения задач распознавания. Кроме наглядности, уменьшение размерности позволяет избавиться от факторов (информации), которые мешают статистическому анализу, удлиняя время сбора информации, увеличивая дисперсию оценок параметров и характеристик распределений.

Уменьшение размерности - это преобразование исходных данных с большой размерностью в новое представление меньшей размерности, сохраняющее основную информацию. В идеальном случае размерность преобразованного представления соответствует внутренней размерности данных. Внутренняя размерность данных - это минимальное число переменных, необходимое, чтобы выразить все возможные свойства данных. Аналитическая модель, построенная на основе сокращенного множества данных, должна стать проще для обработки, реализации и понимания, чем модель, построенная на исходном множестве.

Решение о выборе метода сокращения размерности основывается на знании об особенностях решаемой задачи и ожидаемых результатах, а также ограниченности временных и вычислительных ресурсов. По данным литературных обзоров к наиболее часто используемым методам снижения размерности относятся Principal Component Analisys (PCA), Independent Component Analisys (ICA) и Singular Value Decomposition (SVD).

Анализ главных компонент (PCA) - самый простой метод уменьшения размерности данных. Он широко применяется для преобразования признаков при уменьшении размерности данных в задачах классификации. Метод основан на проецировании данных на новую координатную систему меньшей размерности, которая определяется собственными векторами и собственными числами матрицы. С точки зрения математики метод главных компонент представляет собой ортогональное линейное преобразование.

Основная идея метода заключается в вычислении собственных чисел и собственных векторов ковариационной матрицы данных с целью минимизации дисперсии. Матрица ковариации используется для определения разброса относительно среднего по отношению друг к другу. Ковариация двух случайных величин (размерностей) – мера их линейной зависимости:

где – математическое ожидание случайной величины X, – математическое ожидание случайной величины Y. Также мы можем записать формулу (1) в виде:

где – среднее Х, где – среднее Y, N – размерность данных.

После вычисления собственных векторов и собственных чисел их значения сортируются в порядке убывания. Таким образом, компоненты получаются в порядке уменьшения значимости. Собственный вектор с самым большим собственным числом и есть главная компонента набора данных. Главные компоненты получаются умножением строк из собственных векторов на отсортированные собственные значения. Для нахождения оптимального пространства меньшей размерности используется формула (3), по которой рассчитывают минимальную ошибку между исходным набором данных и полученным по следующему критерию:

где P – размерность нового пространства, N – размерность исходной выборки, – собственные числа, – пороговое значение. В ходе работы алгоритма получаем матрицу с данными MP, линейно преобразованную из MN, после чего PCA находит линейное отображение M, минимизирующее оценочную функцию:

где – евклидово расстояние между точками и ,– евклидово расстояние между точками и , , . Минимум этой оценочной функции можно вычислить, выполнив спектральное разложение матрицы Грама и умножив собственные вектора этой матрицы на корень из соответствующих собственных чисел.

Анализ независимых компонент ( ICA ) , в отличие от PCA - достаточно новый, но быстро набирающий популярность метод. В его основе лежит идея линейного преобразования данных в новые компоненты, которые максимально статистически независимы и необязательно ортогональны друг другу. Для исследований в настоящей работе был выбран алгоритм FastICa, подробно описанный в статье . Основными задачами данного метода являются центрирование(вычитание среднего из данных) и «отбеливание»(линейное преобразование вектора x в вектор с некоррелированными координатами, дисперсия которых равна единице).

Критерием независимости в FastICA является негауссовость, которая измеряется с помощью коэффициента эксцесса:

Для гауссовских случайных величин эта величина равна нулю, поэтому FastICA максимизирует её значение. Если – «отбеленные» данные, то матрица ковариации «отбеленных» данных – единичная матрица.

Подобное преобразование всегда возможно. Популярный метод «отбеливания» использует спектральное разложение матрицы ковариации , где – ортогональная матрица собственных векторов, а – диагональная матрица собственных чисел,. Выходит, что «отбеливание» можно представить в виде:

где матрица вычисляется покомпонентной операцией:

Эксперименты

Для экспериментального исследования предложенных методов использовались раскадрированные видеопоследовательности из базы данных CASIA GAIT. База содержит последовательности бинарных изображений, соответствующих отдельным кадрам видеопоследовательности, на которых уже выполнено выделение движущихся объектов.

Из всего множества видеопоследовательностей были случайным образом взяты 15 классов, в которых угол съемки составляет 90 градусов, люди изображены в обычной не зимней одежде и без сумок. В каждом классе было 6 последовательностей. Длина каждой последовательности составляла не менее 60 кадров. Классы были разделены на обучающую и тестовую выборки по 3 последовательности каждая.

Полученные в результате методов PCA и ICA признаки использовались для обучения классификатора, в качестве которого в настоящей работе выступала машина опорных векторов (Support Vector Machines, SVM).

Для определения качества работы метода оценивалась точность классификации, определяемая как доля правильно классифицированных объектов. Во время проведения эксперимента также фиксировалось время, затрачиваемое в режиме обучения и тестирования.

Рисунок 1. а) Метод главных компонент (PCA) б) Метод независимых компонент (ICA)

На рисунке 1(а,б) представлена зависимость точности классификации от значения выходной размерности данных после преобразования. Видно, что в PCA точность классификации при увеличении количества компонент изменяется незначительно, а при использовании ICA точность, начиная с некоторого значения, начинает падать.

Рисунок 2. Зависимость времени классификации от количества компонент а) PCA , б) ICA

На рисунке 2(а,б) представлена зависимость времени классификации от количества компонент PCA и ICA. Рост размерности в обоих случаях сопровождался линейным возрастанием времени обработки. Из графиков видно, что классификатор SVM работал быстрее после снижения размерности с помощью метода главных компонент (PCA).

Методы Principal Component Analisys (PCA), Independent Component Analisys (ICA) работали достаточно быстро и при определенных параметрах были получены высокие результаты в задаче классификации. Но с данными со сложной структурой эти методы не всегда позволяют достичь желаемого результата. Поэтому в последнее время всё больше уделяется внимания локальным нелинейным методам, которые совершают проекцию данных на некоторое многообразие, позволяющее сохранить структуру данных.

В будущем планируется расширить как список алгоритмов, используемых для формирования признакового описания, так и список используемых методов классификации. Другим важным направлением исследований представляется снижение времени обработки.

Список литературы:

  1. Jolliffe, I.T, Principal Component Analysis, Springer, 2002
  2. Hyvärinen and Erkki Oja, Independent Component Analysis: Algorithms and Applications, Neural Networks, 13, 2000
  3. Josiński, H. Feature Extraction and HMM-Based Classification of Gait Video Sequences for the Purpose of Human Identification/ Springer, 2013 - Vol 481.