Evaluación de los métodos para reducir la dimensión de los datos utilizados para convertir un flujo de video al identificar a una persona. Introducción a una reducción en la reducción de la dimensión de la dimensión de datos.

Reducción de datos (reducción de datos)

En las tecnologías analíticas, bajo la disminución en la dimensión de los datos, el proceso de su transformación en la forma es más conveniente para el análisis e interpretación. Por lo general, se logra reduciendo su volumen, reduciendo el número de características utilizadas y la diversidad de sus valores.

A menudo, los datos analizados están incompletos cuando reflejan mal las dependencias y los patrones del proceso de negocio estudiado. Las razones de esto pueden ser un número insuficiente de observaciones, la falta de signos que reflejan las propiedades esenciales de los objetos. En este caso, se aplica el enriquecimiento de datos.

La reducción de la dimensión se aplica en el caso opuesto cuando los datos son redundantes. La redundancia se produce cuando la tarea de análisis se puede resolver con el mismo nivel de eficiencia y precisión, pero utilizando una dimensión de datos más pequeña. Esto le permite reducir los costos de tiempo y computacional para resolver el problema, hacer que los datos y los resultados de su análisis sean más interpretados y comprensibles para el usuario.

Reducir el número de observaciones de datos se aplica si la solución de calidad comparable se puede obtener en una muestra más pequeña, cortocircuito, por lo tanto, los costos computacionales y de tiempo. Esto es especialmente cierto para los algoritmos que no son escalables, cuando incluso una ligera reducción en el número de registros conduce a una ganancia significativa en los costos de tiempo computacional.

La reducción en el número de características tiene sentido cuando la información necesaria para una solución cualitativa del problema está contenida en algún subconjunto de los signos y no es necesario usarlos todos. Esto es especialmente cierto para correlacionar los signos. Por ejemplo, los signos de "edad" y "experiencia laboral", de hecho, tienen la misma información, por lo que uno de ellos puede ser excluido.

El medio más eficaz para reducir la cantidad de características es un análisis de factores y un método del componente principal.

Reducir la diversidad de signos de signos tiene sentido, por ejemplo, si la precisión de la presentación de datos es redundante y, en lugar de valores reales, se pueden usar tanto como la calidad del modelo de deterioro. Pero esto reducirá la cantidad de memoria y los costos computacionales.

Un subconjunto de datos obtenidos como resultado de una reducción en la dimensión debe heredar del conjunto original de tanta información, ya que es necesario resolver el problema con una precisión dada, y los costos computacionales y de tiempo para reducir los datos no deben depreciar los beneficios. recibido de ella.

Un modelo analítico, basado en la base de un múltiples datos reducidos, debe ser más fácil para el procesamiento, la implementación y la comprensión que el modelo construido en el conjunto de origen.

La decisión sobre la elección de un método de reducción de dimensión se basa en un conocimiento a priori sobre las características de la tarea y los resultados esperados, así como los recursos limitados de tiempo y computacional.

Indicio

MATEMÁTICAS / Estadísticas aplicadas / Estadísticas de matemáticas / Puntos de crecimiento / Método del componente principal. / ANÁLISIS FACTORIAL / Escala multidimensional / Evaluación de la dimensión de datos. / Estimación de la dimensión del modelo. / Matemáticas / Estadísticas / estadísticas aplicadas / Estadísticas matemáticas / Puntos de crecimiento / Análisis de componentes principales / Análisis de factores / Escala multidimensional / estimación de dimensión de datos / estimación de la dimensión del modelo

anotación artículo científico en Matemáticas, Autor de Trabajo Científico - ORLOV Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

Uno de los "puntos de crecimiento" estadísticas aplicadas Son métodos para reducir la dimensión del espacio de los datos estadísticos. Se utilizan cada vez más en el análisis de datos en estudios aplicados específicos, por ejemplo, sociológicos. Considere los métodos más prometedores de dimensión reducida. Método del componente principal. Es uno de los métodos de dimensión más utilizados. Para el análisis visual de los datos, se utilizan las proyecciones de los vectores iniciales en el plano de los dos primeros componentes principales. Por lo general, la estructura de datos es claramente visible, se distinguen los grupos de objetos compactos y se distinguen por separado. Método del componente principal. es uno de los métodos análisis factorial. Nueva idea en comparación con método de componentes principales. Es eso sobre la base de las cargas, los factores se dividen en grupos. En un grupo, se combinan factores, teniendo un efecto similar en los elementos de la nueva base. Luego, desde cada grupo, se recomienda dejar un representante. A veces, en lugar de elegir un representante, se forma un nuevo factor, lo que es fundamental para el grupo en consideración. La reducción de la dimensión ocurre durante la transición al sistema de factores que son representantes de grupos. Los factores restantes se descartan. Sobre el uso de distancias (medidas de proximidad, indicadores de diferencias) entre los signos y la extensa clase de métodos se basa escalamiento multidimensional. La idea principal de este método de métodos es representar cada objeto del punto geométrico (generalmente la dimensión 1, 2 o 3), cuyas coordenadas sirven como valores de factores ocultos (latentes), que son Describiendo bastante adecuadamente el objeto. Como ejemplo de la aplicación de modelado estadístico probabilístico y resultados de no estatuadores, justificamos la consistencia de la medición de la dimensión del espacio de datos en escalamiento multidimensionalpreviamente propuesto por la colromal de las consideraciones heurísticas. Considerado una serie de trabajos en evaluación de las dimensiones de los modelos. (en análisis de regresión y en la teoría de la clasificación). Dana información sobre la reducción de algoritmos de dimensión en un análisis cognitivo del sistema automatizado

Temas similares trabajo científico sobre matemáticas, autor del trabajo científico - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Métodos matemáticos en la sociología durante cuarenta y cinco años.

  • Variedad de objetos de la no naturaleza.

  • Evaluación de los parámetros: las estimaciones de una etapa son preferibles a las estimaciones de máxima credibilidad

  • Estadísticas aplicadas - Estadísticas y perspectivas.

    2016 / ORLOV Alexander Ivanovich
  • Estado y perspectivas para el desarrollo de estadísticas aplicadas y teóricas.

    2016 / ORLOV Alexander Ivanovich
  • La relación de los teoremas límite y el método de Monte Carlo.

    2015 / Orlov Alexander Ivanovich
  • En el desarrollo de estadísticas de objetos no naturales.

    2013 / Orlov Alexander Ivanovich
  • Puntos de crecimiento de los métodos estadísticos.

    2014 / ORLOV Alexander Ivanovich
  • Sobre nuevos instrumentos matemáticos prometedores de control

    2015 / Orlov Alexander Ivanovich
  • Distancias en espacios estadísticos.

    2014 / ORLOV Alexander Ivanovich

Uno de los "puntos de crecimiento" de estadísticas aplicadas son los métodos para reducir la dimensión de los datos estadísticos. Se utilizan cada vez más en el análisis de datos en investigación aplicada específica, como la sociología. Investigamos los métodos más prometedores para reducir la dimensionalidad. Los principales componentes son uno de los métodos más utilizados para reducir la dimensionalidad. Para el análisis visual de los datos se utilizan a menudo las proyecciones de los vectores originales en el plano de los dos primeros componentes principales. Usualmente, la estructura de datos es claramente visible, resaltó clubsers compactos de objetos y vectores asignados por separado. Los componentes principales son un método de análisis factorial. La nueva idea de análisis factorial en comparación con el método de los componentes principales es que, según las cargas, los factores se rompen en grupos. En un grupo de factores, se combina un factor nuevo con un impacto similar en los elementos de la nueva base. Luego se recomienda a cada grupo para dejar un representante. A veces, en lugar de la elección del representante por cálculo, un nuevo factor que es fundamental para el grupo en cuestión. La dimensión reducida ocurre durante la transición a los factores del sistema, que son representantes de los grupos. Los factores de OTER se descartan. El uso de la distancia (medidas de proximidad, los indicadores de diferencias) entre las características y la clase extensa se basan en métodos de escala multidimensional. La idea básica de esta clase de métodos es presentar cada objeto como punto del espacio geométrico (generalmente de la dimensión 1, 2, o 3) cuyas coordenadas son los valores de los factores ocultos (latentes) que se combinan adecuadamente. Describe el objeto. Como ejemplo de la aplicación del modelado probabilístico y estadístico y los resultados de las estadísticas de los datos no numéricos, justificamos la consistencia de los estimadores de la dimensión de los datos en la escala multidimensional, que se proponen previamente por Kruskal de las consideraciones heurísticas. Hemos considerado una serie de estimaciones consistentes de dimensión de los modelos (en análisis de regresión y en teoría de la clasificación). También le damos alguna información sobre los algoritmos para reducir la dimensionalidad en el sistema automatizado del sistema cognitivo.

Texto de trabajo científico. en el tema "Métodos para reducir la dimensión del espacio de los datos estadísticos"

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 Física y matemáticas.

Métodos para reducir la dimensión del espacio de datos estadísticos.

Orlov Alexander Ivanovich

d.e.n., d.t.n., k.f.-m.n., profesor

Código de Rinz BroSh: 4342-4994

Técnico estatal de Moscú

universidad. ANUNCIO Bauman, Rusia, 105005,

Moscú, 2do Baumanskaya St., 5, [Correo electrónico protegido]t.

Lutsenko Evgeny Veniaminovich D.E.N., Ph.D., Profesor Rinz BroSh Código: 9523-7101 Kuban State Agrarian University, Krasnodar, Rusia [Correo electrónico protegido] Com.

Uno de los "puntos de crecimiento" de las estadísticas de la aplicación es métodos para reducir la dimensión del espacio de datos estadísticos. Se utilizan cada vez más en el análisis de datos en estudios aplicados específicos, por ejemplo, sociológicos. Considere los métodos más prometedores de dimensión reducida. El método del componente principal es uno de los métodos de reducción de dimensiones más utilizados. Para el análisis visual de los datos, se utilizan las proyecciones de los vectores iniciales en el plano de los dos primeros componentes principales. Por lo general, la estructura de datos es claramente visible, se distinguen los grupos de objetos compactos y se distinguen por separado. El método principal del componente es uno de los métodos de análisis factorial. La nueva idea en comparación con el método del componente principal es que, sobre la base de las cargas, los factores se dividen en grupos. En un grupo, se combinan factores, teniendo un efecto similar en los elementos de la nueva base. Luego, desde cada grupo, se recomienda dejar un representante. A veces, en lugar de elegir un representante, se forma un nuevo factor, lo que es fundamental para el grupo en consideración. La reducción de la dimensión ocurre durante la transición al sistema de factores que son representantes de grupos. Los factores restantes se descartan. Sobre el uso de distancias (medidas de proximidad, indicadores de diferencias) entre los signos y la extensa clase de métodos de escalado multidimensional. La idea principal de esta clase de métodos es representar cada objeto con un punto de espacio geométrico (generalmente dimensión 1, 2 o 3), cuyas coordenadas son los valores de los factores ocultos (latentes), en el agregado , lo suficientemente adecuadamente descripando

UDC 519.2: 005.521: 633.1: 004.8

Física y ciencias matemáticas.

Métodos de reducción de la dimensión espacial de los datos estadísticos.

Orlov Alexander Ivanovich

Dr.Sci.chon., Dr.Sci.tech., Cand.phys-math.sci.,

Universidad Técnica Estatal de Bauman Moscú, Moscú, Rusia

Lutsenko Eugeny Veniaminovich Dr.Sci.con., Cand.tech.sci., Profesor RSCI Spin-code: 9523-7101

Kuban State Agrarian University, Krasnodar, Rusia

[Correo electrónico protegido] Com.

Uno de los "puntos de crecimiento" de estadísticas aplicadas son los métodos para reducir la dimensión de los datos estadísticos. Se utilizan cada vez más en el análisis de datos en investigación aplicada específica, como la sociología. Investigamos los métodos más prometedores para reducir la dimensionalidad. Los principales componentes son uno de los métodos más utilizados para reducir la dimensionalidad. Para el análisis visual de los datos se utilizan a menudo las proyecciones de los vectores originales en el plano de los dos primeros componentes principales. Usualmente, la estructura de datos es claramente visible, resaltó clubsers compactos de objetos y vectores asignados por separado. Los componentes principales son un método de análisis factorial. La nueva idea de análisis factorial en comparación con el método de los componentes principales es que, según las cargas, los factores se rompen en grupos. En un grupo de factores, se combina un factor nuevo con un impacto similar en los elementos de la nueva base. Luego se recomienda a cada grupo para dejar un representante. A veces, en lugar de la elección del representante por cálculo, un nuevo factor que es fundamental para el grupo en cuestión. La dimensión reducida ocurre durante la transición a los factores del sistema, que son representantes de los grupos. Los factores de OTER se descartan. El uso de la distancia (medidas de proximidad, los indicadores de diferencias) entre las características y la clase extensa se basan en métodos de escala multidimensional. La idea básica de esta clase de métodos es presentar cada objeto como punto del espacio geométrico (generalmente de la dimensión 1, 2, o 3) cuyas coordenadas son los valores de los factores ocultos (latentes) que se combinan adecuadamente. Describe el objeto. Como ejemplo de la aplicación del modelado probabilístico y estadístico y los resultados de las estadísticas de los datos no numéricos, justificamos la consistencia de los estimadores de la

un objeto. Como ejemplo de la aplicación de modelos estadísticos probabilísticos y resultados de estadísticas no estadísticas, fundamentamos la consistencia de la medición de la dimensión del espacio de datos en la escala multidimensional, previamente propuesta por la colromal de las consideraciones heurísticas. Se consideró una serie de trabajos sobre la evaluación de las dimensiones de los modelos (en análisis de regresión y en la teoría de la clasificación). Dana información sobre la reducción de algoritmos de dimensión en un análisis cognitivo del sistema automatizado

Palabras clave: Matemáticas, estadísticas aplicadas, estadísticas matemáticas, puntos de crecimiento, método de componente principal, análisis factorial, escalado multidimensional, estimación de dimensión de datos, estimación del modelo de dimensión

dimensión de los datos en la escala multidimensional, que se proponen previamente por Kruskal de las consideraciones heurísticas. Hemos considerado una serie de estimaciones consistentes de dimensión de los modelos (en análisis de regresión y en teoría de la clasificación). También le damos alguna información sobre los algoritmos para reducir la dimensionalidad en el sistema automatizado del sistema cognitivo.

Palabras clave: Matemáticas, estadísticas aplicadas, estadísticas matemáticas, puntos de crecimiento, análisis de componentes principales, análisis factorial, escalado multidimensional, estimación de la dimensión de datos, estimación de la dimensión modelo

1. Introducción

Como ya se señaló, uno de los "puntos de crecimiento" de las estadísticas de la aplicación son métodos para reducir la dimensión del espacio de datos estadísticos. Se utilizan cada vez más en el análisis de datos en estudios aplicados específicos, por ejemplo, sociológicos. Considere los métodos más prometedores de dimensión reducida. Como ejemplo de la aplicación del modelado estadístico probabilístico y los resultados de las no estadísticas, justificamos la consistencia del tamaño del tamaño del espacio previamente propuesto por el curromo de las consideraciones heurísticas.

En el análisis estadístico multidimensional, cada objeto se describe por un vector, cuya dimensión es arbitraria (pero lo mismo para todos los objetos). Sin embargo, una persona puede percibir directamente solo datos numéricos o puntos en el plano. Analizar las acumulaciones de puntos en el espacio tridimensional ya es mucho más difícil. La percepción directa de los datos de la dimensión superior es imposible. Por lo tanto, bastante natural es el deseo de pasar de una muestra multidimensional a los datos de una pequeña dimensión para que "puedan

mira". Por ejemplo, un comercializador puede ver claramente cuántos tipos diferentes de comportamiento del consumidor (es decir, cuánto es aconsejable asignar segmentos de mercado) y qué propiedades son (con las propiedades) los consumidores en ellos.

Además del deseo de claridad, hay otros motivos para reducir la dimensión. Aquellos factores de los cuales la variable está interesada en el investigador no solo interfiere con el análisis estadístico. Los recursos primeros, financieros, temporales, temporales, se gastan en la recopilación de información sobre ellos. En segundo lugar, cómo demostrar, su inclusión en el análisis empeora las propiedades de los procedimientos estadísticos (en particular, aumenta la dispersión de las estimaciones de los parámetros y las características de las distribuciones). Por lo tanto, es deseable deshacerse de tales factores.

Al analizar datos multidimensionales, no uno, sino muchas tareas, en particular, la elección de variables independientes y dependientes de diferentes maneras. Por lo tanto, consideramos el problema de la dimensión reducida en la siguiente redacción. Muestra multidimensional Dana. Se requiere que se mueva de él a la totalidad de los vectores de una dimensión más pequeña, mientras que guarda la estructura de los datos de origen, si es posible, sin perder información contenida en los datos. La tarea se especifica dentro de cada método particular de la dimensión reducida.

2. Método del componente principal.

Es uno de los métodos de dimensión más utilizados. La idea principal es consistente con la detección de áreas en las que los datos tienen la mayor dispersión. Deje que la muestra consiste en vectores distribuidos igualmente con el vector x \u003d (x (1), x (2), ..., x (n)). Considerar combinaciones lineales

7 (^ (1), x (2) ,., L (n)) \u003d x (1) x (1) + x (2) x (2) + ... + l (n) x (n) .

X2 (1) + x2 (2) + ... + x2 (n) \u003d 1. Aquí, vector x \u003d (x (1), x (2), ..., x (n)) se encuentra en la unidad Esfera en el espacio p-dimensional.

En el método principal del componente, primero encontrará la dirección de la dispersión máxima, es decir, Dicha X, a la que la máxima dispersión de una variable aleatoria es 7 (x) \u003d 7 (x (1), x (2), ..., x (n)). Luego, el vector X establece el primer componente principal, y el valor de 7 (x) es la proyección del vector aleatorio X en el eje del primer componente principal.

Luego, expresar los términos de álgebra lineal, considere el hiperplano en el espacio p-dimensional, perpendicular al primer componente principal, y diseñe todos los elementos de la muestra en este hiperplano. La dimensión del hiperplano es 1 menor que la dimensión del espacio fuente.

En el hiperplano en consideración, se repite el procedimiento. Encuentra la dirección de la mayor dispersión, es decir,. Segundo componente principal. Luego se aísla el hiperplano perpendicular a los dos primeros componentes principales. Su dimensión es 2 menos que la dimensión del espacio fuente. Siguiente - la siguiente iteración.

Desde el punto de vista del álgebra lineal, estamos hablando de construir una nueva base en un espacio de p-dimensional, cuyos ITS sirven como los componentes principales.

Dispersión correspondiente a cada nuevo componente principal, menor que para el anterior. Por lo general, se detiene cuando es menor que el umbral especificado. Si se selecciona a los componentes principales, esto significa que desde el espacio de P-Dimensional fue posible ir a K-Dimensional, es decir, Reduzca la dimensión con P-A K, prácticamente sin distorsionar la estructura de los datos de origen.

Para el análisis visual de los datos, se utilizan las proyecciones de los vectores iniciales en el plano de los dos primeros componentes principales. Por lo general

la estructura de datos es claramente visible, se distinguen los grupos de objetos compactos y se distinguen por separado.

3. Análisis de factores

El método principal del componente es uno de los métodos de análisis factorial. Varios algoritmos para el análisis factorial se combinan por el hecho de que en todos ellos hay una transición a una nueva base en el espacio n-dimensional inicial. Importante es el concepto de "carga de factor" utilizada para describir el papel del factor de origen (variable) en la formación de un cierto vector de la nueva base.

La nueva idea en comparación con el método del componente principal es que, sobre la base de las cargas, los factores se dividen en grupos. En un grupo, se combinan factores, teniendo un efecto similar en los elementos de la nueva base. Luego, desde cada grupo, se recomienda dejar un representante. A veces, en lugar de elegir un representante, se forma un nuevo factor, lo que es fundamental para el grupo en consideración. La reducción de la dimensión ocurre durante la transición al sistema de factores que son representantes de grupos. Los factores restantes se descartan.

El procedimiento descrito se puede llevar a cabo no solo con la ayuda del análisis factorial. Estamos hablando de un análisis de clústeres de signos (factores, variables). Para dividir signos de grupos, se pueden aplicar varios algoritmos de análisis de clústeres. Es suficiente para ingresar la distancia (medida de proximidad, el indicador de diferencia) entre los signos. Sea x e y se dos signos. La diferencia D (X, Y) entre ellos se puede medir utilizando coeficientes de correlación selectiva:

di (x, y) \u003d 1 - \\ rn (x, y) \\, d2 (x, y) \u003d 1 - \\ pn (x, y) \\, donde RN (X, Y) es un coeficiente de correlación de Pearson lineal selectivo , PN (X, Y) es un coeficiente selectivo de la correlación del río del SPIRME.

4. Escalada multidimensional.

Sobre el uso de distancias (medidas de proximidad, indicadores de diferencias) D (x, y) entre los signos X y U, se basa la extensa clase de métodos de escalado multidimensional. La idea principal de este método de métodos es representar cada objeto del punto geométrico (generalmente la dimensión 1, 2 o 3), cuyas coordenadas sirven como valores de factores ocultos (latentes), que son Describiendo bastante adecuadamente el objeto. Al mismo tiempo, las relaciones entre objetos son reemplazadas por relaciones entre puntos: sus representantes. Entonces, datos sobre la similitud de los objetos, distancias entre puntos, los datos sobre superioridad, la ubicación mutua de los puntos.

5. El problema de evaluar la verdadera dimensión del espacio de factores.

En la práctica de analizar los datos sociológicos, se utilizan varios modelos diferentes de escala multidimensional. En todos ellos, el problema de evaluar la verdadera dimensión del espacio de factores. Considere este problema en el ejemplo de los datos de procesamiento sobre la similitud de los objetos que utilizan la escala métrica.

Sea los objetos N 0 (1), O (2), ..., O (n), para cada par de objetos 0 (/), O (J), se da la medida de su similitud S (IJ) . Creemos que siempre s (I, J) \u003d S (J, I). El origen del número S (IJ) no importa describir la operación del algoritmo. Podrían obtenerse mediante medición directa, o utilizando expertos, o calculando la combinación de características descriptivas, o de alguna manera, de alguna manera.

En el espacio euclidiano, los objetos N en consideración deben estar representados por la configuración de N Points, y la distancia euclidiana D (I, J) aparece como la medida de la proximidad de los puntos.

entre los puntos correspondientes. El grado de conformidad entre el conjunto de objetos y la combinación de sus puntos se determina comparando las matrices de similitud || I (,) || y distancias de la funcionalidad métrica SM de similitudes.

i \u003d £ | * (/,]) - th (/, m

La configuración geométrica debe seleccionarse para que los functantes cumplan su valor más pequeño.

Comentario. En la escala no conocida, en lugar de la proximidad de la proximidad y las distancias, se considera la proximidad de los pedidos en el conjunto de medidas de proximidad y el conjunto de distancias correspondientes. En lugar de los S funcionales, se utilizan los análogos de los coeficientes de rango de la correlación del Espíritu y Kendalla. En otras palabras, la escala no métrica proviene de la suposición de que las medidas de proximidad se miden en la escala ordinal.

Deje que el espacio euclidiano sea la dimensión t. Considere al menos el error cuadrado medio

donde se toma el mínimo en todas las configuraciones posibles de puntos en el espacio euclidiano T-MERNE. Se puede demostrar que el mínimo en cuestión se logra en alguna configuración. Está claro que con el crecimiento de T, el valor de la disminución de los de manera monótona (más precisamente, no aumenta). Se puede mostrar que en T\u003e P - 1 es igual a 0 (si - métrico). Para aumentar las posibilidades de interpretación significativa, es deseable actuar en el espacio posible menos dimensión. Sin embargo, al mismo tiempo, la dimensión debe ser elegida para que los puntos representen objetos sin una gran distorsión. Surge la pregunta: cómo elegir racionalmente la dimensión del espacio, es decir. Número natural t?

6. Modelos y métodos para estimar la dimensión del espacio de datos.

Como parte del análisis determinista de los datos de una respuesta razonable a esta pregunta, aparentemente no. Por lo tanto, es necesario estudiar el comportamiento de la AM en ciertos modelos probabilísticos. Si la proximidad de S (IJ) es valores aleatorios, la distribución de la cual depende de la "dimensión verdadera" M0 (y posiblemente de cualquier otro parámetro), en el estilo estadístico matemático clásico, para establecer la tarea de estimación M0, a Busque evaluaciones ricas y etc.

Vamos a empezar a construir modelos probabilísticos. Asumiremos que los objetos son puntos en el espacio euclidiano de la dimensión a, donde lo suficientemente grande. El hecho de que la "verdadera dimensión" sea igual a M0, significa que todos estos puntos se encuentran en el hiperplano de la dimensión M0. Aceptamos la certeza de que el conjunto de los puntos bajo consideración es una muestra de distribución normal circular con dispersión O (0). Esto significa que los objetos 0 (1), 0 (2), ..., O (n) son independientes en el agregado de vectores aleatorios, cada uno de los cuales se construye como

Z (1) e (1) + z (2) e (2) + ... + z (m0) e (m0), donde E (1), E (2), ..., E (M0) - base ortonormal en el subespacio de la dimensión M0, en la que los puntos considerados en consideración, y z (1), z (2), z (m0) son independientes en las variables aleatorias normales unidimensionales agregadas con expectativa matemática 0 y dispersión O (0).

Considere dos modelos para obtener la proximidad S (IJ). En la primera de estas, S (IJ) difieren de la distancia euclidiana entre los puntos correspondientes debido al hecho de que los puntos son conocidos por la distorsión. Deje que con (1), con (2), ..., c (n) - los puntos bajo consideración. Luego

s (I, J) \u003d D (C (I) + E (i), C (J) + S (/)), IJ \u003d 1, 2, ..., N,

donde Y es la distancia euclidiana entre los puntos en el espacio de medición, el vector E (1), E (2), ..., E (P) son una muestra de una distribución circular normal de un espacio de medición con una expectativa matemática cero. y una matriz de covarianza en (1) /, donde la matriz i-a -edite. En otras palabras,

e (0 \u003d P (1) E (1) + P (2) E (2) + ... + C (k) en (k), donde E (1), E (2), ... e (k) - base orthonormal en un espacio de medición, y [c ^^), i \u003d 1, 2, ..., p,? \u003d 1, 2, ..., K) es un conjunto de independientes en el agregado de variables aleatorias unidimensionales con cero expectativa matemática y dispersión de O (1).

En el segundo modelo de distorsión se impone directamente a las distancias en sí mismas:

Kch) \u003d th (f \\ s)) + £ (uh y \u003d 1, 2., n, i f j,

donde y, y en el primer intervalo, disminuye más rápido que en el segundo. Desde aquí sigue esa estadística

m * \u003d arg minam + 1 - 2am + an-x)

es una evaluación rica de la verdadera dimensión M0.

Por lo tanto, de la teoría probabilística implica la recomendación, como estimación de la dimensión del espacio factorial para usar t *. Tenga en cuenta que tal recomendación se formuló como una heurística de los fundadores de la escala multidimensional por J. Kraskal. Procedió de la experiencia del uso práctico de la escala multidimensional y los experimentos computacionales. La teoría probabilística hizo posible justificar esta recomendación heurística.

7. Evaluación de la dimensión del modelo.

Si es posible, los subconjuntos de signos forman una familia en expansión, por ejemplo, el grado de polinomio se estima, es natural introducir el término "dimensión modelo" (este concepto es en gran medida similar a la dimensión del espacio de datos en escala multidimensional). El autor de este artículo tiene una serie de trabajos en la evaluación de la dimensión del modelo, que es aconsejable comparar con el trabajo sobre la estimación de la dimensión del espacio de datos, discutido anteriormente.

El primer trabajo de este tipo fue realizado por el autor de este artículo durante un viaje a Francia en 1976. Se estudió una evaluación de la dimensión del modelo en regresión, a saber, una evaluación del grado de polinomio bajo el supuesto de que la dependencia Se describe por el polinomio. Esta estimación se conocía en la literatura, pero más tarde se equivocó a atribuir al autor de este artículo, que solo estudió sus propiedades, en particular, encontró que no es rico y encontró su distribución geométrica límite. Otros, ya se propusieron y estudiaron estimaciones ricas de la dimensión del modelo de regresión. Este ciclo completó el trabajo que contiene una serie de refinamientos.

La publicación extrema sobre este tema incluye una discusión sobre los resultados de estudiar la velocidad de la convergencia en los teoremas límite obtenidos por Monte Carlo.

Similar a la metodología para estimar la dimensión del modelo en el problema de las mezclas de división (parte de la teoría de la clasificación) se considera en el artículo.

Las estimaciones anteriores de la dimensión del modelo en la escala multidimensional se estudian en las obras. En las mismas obras, el comportamiento límite de las características del método de los componentes principales (utilizando la teoría asintótica del comportamiento de las decisiones de los problemas estadísticos extremos).

8. Algoritmos de reducción de dimensiones en un análisis automatizado del sistema cognitivo

El sistema automatizado-análisis cognitivo (ASC-análisis) también se propone en el sistema EIDOS, se implementa otro método de dimensión reducida. Se describe en el trabajo en las secciones 4.2 "Descripción de los algoritmos de las operaciones cognitivas básicas del análisis del sistema (BKOS)" y 4.3 "Los algoritmos de BKOS detallados (análisis de la solicitud)". Damos una breve descripción de dos algoritmos - BKOS-4.1 y BKOS-4.2.

BKosa-4.1. "La abstracción de factores (reduciendo la dimensión del espacio semántico de los factores)"

Usando el método de aproximaciones consecutivas (algoritmo iterativo), a una condición de límites dadas, la dimensión del espacio de atributos se reduce sin una disminución significativa en su volumen. El criterio para detener el proceso iterativo es lograr una de las condiciones de los límites.

BKOS-4.2. "Abstracción de clases (disminución de la dimensión del espacio semántico de las clases)"

Usando el método de aproximaciones consecutivas (algoritmo iterativo), en condiciones de límite específicas, el tamaño del espacio de las clases se reduce sin una reducción significativa en su volumen. El criterio para detener el proceso iterativo es lograr una de las condiciones de los límites.

Aquí están todos los algoritmos reales implementados en el sistema EIDOS de la versión que se implementó en el momento de la preparación del trabajo (2002): http: //lc.kubagro .ru / Aidos / Aidos02 / 4.3 .htm

La esencia de los algoritmos es la siguiente.

1. La cantidad de información se calcula en los valores de la transición del objeto al estado correspondiente a las clases.

2. Calcula el valor del valor del factor para la diferenciación del objeto por las clases. Este valor es simplemente la variabilidad de los informativos de los valores de los factores (medidas cuantitativas de variabilidad mucho: la desviación promedio de la media, la desviación del cuadrático promedio, etc.). En otras palabras, si en el valor del factor en promedio, hay poca información sobre la pertenencia y no pertenece al objeto a la clase, entonces este valor no es muy valioso, y si mucho es valioso.

3. Calcula el valor de las escalas descriptivas para la diferenciación de los objetos por las clases. En las obras de E.V. Lutsenko ahora se hace tan promedio de los valores de las gradaciones de esta escala.

4. Luego se realiza la optimización de la optimización de los valores de factores y escalas descriptivas:

Los valores de los factores (las gradaciones de la escala descriptiva) se clasifican en el orden de la disminución del valor y se eliminan del modelo el menos valioso, que van a la derecha de la Pareto-curva de 45 °;

Los factores (escalas descriptivas) se clasifican en orden de valor descendente y se eliminan del modelo de lo menos valioso, que van a la derecha de 45 ° la curva de paso.

Como resultado, la dimensión del espacio construida en las escalas descriptivas se reduce significativamente al eliminar las escalas que se correlacionan entre sí, es decir,. En esencia, es el espacio orthonormaling en una métrica de información.

Este proceso puede repetirse, es decir, Al ser iterativo, mientras que en la nueva versión del sistema "Eidos" comienza manualmente.

Del mismo modo, se omite el espacio de información de las clases.

La escala y las gradaciones pueden ser numéricas (entonces se procesan los valores de intervalo), y también pueden ser texto (ordinal o incluso nominal).

Por lo tanto, con la ayuda de los algoritmos BKOS (análisis de la solicitud), la dimensión del espacio se reduce al máximo con la pérdida mínima de información.

Para analizar los datos estadísticos en las estadísticas aplicadas, se han desarrollado una serie de algoritmos de reducción de dimensiones. Las tareas de este artículo no incluyen una descripción de todo el colector de tales algoritmos.

Literatura

1. ORLOV A.I. Puntos de crecimiento de métodos estadísticos // Polygrap Network Electronic Scientific Journal de la Universidad Agraria del Estado Kuban. 2014. No. 103. P. 136-162.

2. Pinte J. Relación entre la escala multidimensional y el análisis de clústeres // Clasificación y clúster. M.: Mir, 1980. C.20-41.

4. Harman G. Análisis de factores moderno. M.: Estadísticas, 1972. 489 p.

5. ORLOV A.I. Notas sobre la teoría de la clasificación. / Sociología: Metodología, Métodos, Modelos matemáticos. 1991. No. 2. C.28-50.

6. ORLOV A.I. Resultados básicos de la teoría matemática de la clasificación // Red Polymatic Diario Científico Electrónico de la Universidad Agraria del Estado Kuban. 2015. № 110. P. 219-239.

7. ORLOV A.I. Métodos matemáticos de la teoría de la clasificación // Polymatic Network Electronic Scientific Journal of the Kuban State Agrarian University. 2014. No. 95. P. 23 - 45.

8. Terekhina a.yu. Análisis de estos métodos de escala multidimensional. -M.: Ciencia, 1986. 168 p.

9. Perekrest V. T. Análisis tipológico no lineal de información socioeconómica: métodos matemáticos y computacionales. - L.: Ciencia, 1983. 176 p.

10. TYURIN YU.N., LITVAK B.G., ORLOV A.I., Sparariov G.A., Smerling D.S.S. Análisis de información no válida. M.: Consejo Científico de la Academia de Ciencias de la URSS en el complejo problema "Cybernetics", 1981. - 80 p.

11. ORLOV A.I. Una visión general de las estadísticas de objetos no naturales // análisis de información no informativa en estudios sociológicos. - M.: Ciencia, 1985. S.58-92.

12. ORLOV A.I. La distribución límite de una estimación del número de funciones básicas en la regresión // análisis estadístico multidimensional aplicado. Científicos en estadísticas, T.33. - M.: Ciencia, 1978. P.380-381.

13. ORLOV A.I. Evaluación de la dimensión del modelo en regresión // algorítmica y software para análisis estadísticos aplicados. Científicos para estadísticas, T.36. - M.: Ciencia, 1980. P.92-99.

14. ORLOV A.I. Asintóticos de algunas estimaciones de la dimensión del modelo en regresión // estadísticas aplicadas. Científicos para estadísticas, T.35. - M.: Ciencia, 1983. P.260-265.

15. ORLOV A.I. En la evaluación del laboratorio de regresión polinomial // fábrica. Diagnóstico de materiales. 1994. T.60. № 5. P.43-47.

16. ORLOV A.I. Algunas preguntas de la teoría de la clasificación probabilística // estadísticas aplicadas. Científicos para estadísticas, T.35. - M.: Ciencia, 1983. C.166-179.

17. ORLOV A.I. En el desarrollo de las estadísticas de objetos no numéricos // diseño de experimentos y análisis de datos: nuevas tendencias y resultados. - M.: Antal, 1993. R.52-90.

18. ORLOV A.I. Métodos de reducción de la dimensión // Apéndice 1 al libro: Tolstova Yu.n. Conceptos básicos de la escala multidimensional: tutorial para universidades. - M.: Editor CDU, 2006. - 160 p.

19. ORLOV A.I. Asintóticos de problemas estadísticos extremales // Análisis de datos no numéricos en estudios del sistema. Colección de labores. Vol. 10. - M.: Instituto de Investigación All-Union of System Research, 1982. P. 412.

20. ORLOV A.I. Modelado organizativo y económico: tutorial: en 3 horas. Parte 1: Estadísticas no compartidas. - M.: Publishing House MSTU. ANUNCIO Bauman. - 2009. - 541 p.

21. Lutsenko E.V. Análisis automatizado del sistema-cognitivo en la gestión de objetos activos (teoría del sistema de información y su aplicación en el estudio de los sistemas económicos, socio-psicológicos, tecnológicos y organizativos y técnicos): monografía (publicación científica). -Srasnodar: Kubgu. 2002. - 605 p. http://elibrary.ru/item.asp?id\u003d18632909

1. ORLOV A.I. Tochki Rosta Statisticheskih Metodov // Politematicheskij setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrararnogo Universita. 2014. № 103. S. 136-162.

2. Kraskal DZH. Vzaimosvjaz "Mezhdu MNogomernym Shkalirovaniem I Klaster-Analizom // Klassifikacija I Klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. M. Multidimensional Scaling // Sage University Paper Series: Aplicaciones cualitativas en las ciencias sociales. 1978. №11.

4. Harman G. Sovremennyj Faktorntyj Analiz. M.: Statistika, 1972. 489 s.

5. ORLOV A.I. Zametki Po Teorii Klassifikacii. / Sociologija: Metodologija, Metody, Matematicheskie Modeli. 1991. No. 2. S.28-50.

6. ORLOV A.I. Bazovye Rezul "Taty Matematicheskoj Teorii Klassifikacii // Politematicheskij setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrarnogo UniversiteTETA. 2015. № 110. S. 219-239.

7. ORLOV A.I. Matematicheskie metody teorii klassifikacii // politematicheskij setevoj jelektronnyj nauchnyj zhurnal kubanskogo gosudarstvennogo agranogo universita. 2014. № 95. S. 23 - 45.

8. Terehina a.JU. Analiz Dannyh Metodami MNOGOMERNOGO Shkalirovanija. - M.: Nauka, 1986. 168 s.

9. Perekrest v.t. Ninejnyj Tipologicheskij Analiz Social "No-Jekonomicheskoj Informacii: Matematicheskie I Vychislitel" Nye metody. - L.: Nauka, 1983. 176 s.

10. TJURIN JU.N., LITVAK B.G., ORLOV A.I., SAPAROV G.A., Shellling D.S.S. Analiz Nechislovoj Informacii. M.: NAUCHNYJ SOVET UN SSSR PO KOMPLEKSNOJ EUESTE "KIBERNETIKA", 1981. - 80 S.

11. ORLOV A.I. OBSHHIJ VZGLJAD NA Statistiku OB # Ektov Nechislovoj Prirodio // Analiz Nechislovoj Informacii V Sociologicheskih Issledovanijah. - M.: Nauka, 1985. S.58-92.

12. ORLOV A.I. PREDEL "NOE RASPREDLENIE ODNOJ Ocenki Chisla Bazisnyh Funkcij V Regressii // prikladnoj mnogomernyj statisticheskij analiz. Uchenye Zapiski Po Statistike, T.33. - M.: Nauka, 1978. S.380-381.

13. ORLOV A.I. Ocenka Razmernosti Modeli V Regressii // AlgoritMicheskoe I Programmnoe Obespechnie Prikladnogo Statisticheskogo Analiza. Uchenye Zapiski PO Statistikike, T.36. - M.: Nauka, 1980. S.92-99.

14. ORLOV A.I. Asimtotika Nekotoryh Ocenok Razmernosti Modeli V Regressii // PRIKLADNAJA Statistika. Uchenye Zapiski PO Statistike, T.45. - M.: Nauka, 1983. S.260-265.

15. ORLOV A.I. OB OCENIVANIII REGRESIONNOGO POLINOMA // ZAVODSKAA LaboratorIJA. Diagnostika Materialv. 1994. T.60. № 5. S.43-47.

16. ORLOV A.I. Nekotorye VerojatnostNOE VOPROSY TEORII KLASSIFIKACII // PRIKLADNAJA Statistika. Uchenye Zapiski PO Statistike, T.45. - M.: Nauka, 1983. S.166-179.

17. ORLOV A.I. En el desarrollo de las estadísticas de objetos no numéricos // diseño de experimentos y análisis de datos: nuevas tendencias y resultados. - M.: Antal, 1993. R.52-90.

18. ORLOV A.I. Metody Snizhenija Razmernosti // Prilozenie 1 K KNIGE: TOLSTOVA JU.N. Osnovy MNogomernogo Shkalirovanija: Uchebnoe Posobre DLJA VUZOV. - M.: IZDATEL "STVO KDU, 2006. - 160 S.

19. ORLOV A.I. Asimptotika resenij jekstremal "NYH Statisticheskih Zadach // Analiz Nechislovyh Dannyh v Sistemnyh Issledovanijah Sbornik Trudov Vyp.10 -... M.: Vsesojuznyj Nauchno-Issledovatel" Skij Institut Sistemnyh Issledovanij, 1982. S. 4-12.

20. ORLOV A.I. OrganizacionNo-Jekonomicheskoe Modelirovanie: Uchebnik: v 3 CH. CHAST "1: NechIstovaja Statistika. - M.: IZD-VO MGTU IM. N.JE. BAUMANA. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob # ektami (sistemnaja teorija informácií i ee primenenie v issledovanii jekonomicheskih, social "no-psihologicheskih, tehnologicheskih i-organizacionno tehnicheskih Sistem): Monografija (nauchnoe Izdanie) - Krasnodar :. KubGAU 2002. -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

Como resultado del estudio del material del Capítulo 5, el estudiante debe:

saber

  • Conceptos básicos y tareas de dimensión inferior:
  • Se acerca a resolver el problema de la transformación del espacio de características;

ser capaz de

  • Use el método del componente principal para la transición a las características ortogonales estandarizadas;
  • evaluar la reducción de datos informativos cuando una disminución en la dimensión del espacio de características;
  • resolver el problema de construir escalas óptimas multidimensionales para investigar objetos;

propio

  • Métodos para reducir la dimensión para resolver tareas aplicadas de análisis estadístico;
  • Habilidades de interpretación de variables en un signo transformado.

Conceptos básicos y tareas de dimensión inferior.

A primera vista, cuanto más información sobre los objetos del estudio en forma de conjunto de caracteres que caracterizan sus signos se utilizarán para crear un modelo, mejor. Sin embargo, la cantidad excesiva de información puede llevar a una disminución en la efectividad del análisis de datos. Incluso hay el término "maldición de la dimensión" Maldición de dimensionalidad), caracterizando problemas de trabajo con datos altamente de productos. Con la necesidad de reducir la dimensión de una forma u otra, la solución se asocia con varios problemas estadísticos.

Las características no informativas son una fuente de ruido adicional y afectan la precisión de la valoración de los parámetros del modelo. Además, los conjuntos de datos con una gran cantidad de características pueden contener grupos de variables correlacionadas. La presencia de tales signos de signos significa duplicar información que puede distorsionar la especificación del modelo y afectar la calidad de sus parámetros. Cuanto mayor sea la dimensión de los datos, mayor será el volumen de cálculos durante su procesamiento algorítmico.

Dos direcciones se pueden distinguir para reducir la dimensión del espacio de características en el principio de las variables utilizadas para esto: selección de señales del conjunto de fuentes existentes y la formación de nuevas características mediante la transformación de los datos iniciales. En el caso ideal, la representación abreviada de los datos debe tener dimensión correspondiente a la dimensión, datos inherentes internamente. Dimensión intrínseca.

La búsqueda de las características más informativas que caracteriza el fenómeno estudiado es una dirección obvia de reducir la dimensión del problema que no requiere la transformación de las variables de origen. Esto le permite hacer que un modelo sea más compacto y evite las pérdidas asociadas con el efecto interferido de las características de baja informativa. La selección de características informativas es encontrar el mejor subconjunto de muchas variables de origen. Los criterios del concepto de "lo mejor" pueden ser el modelado de la más alta calidad para una dimensión dada del espacio de características, o la dimensión más pequeña de los datos a los que es posible el modelo de la calidad especificada.

Una solución directa a la tarea de crear el mejor modelo está asociado con el busto de todas las combinaciones posibles de signos, que generalmente es excesivamente laborioso. Por lo tanto, como regla general, recurren a la selección de señales directas o revertidas. En los procedimientos de selección directa, se realiza una adición secuencial de variables del conjunto original para lograr la calidad deseada del modelo. En los algoritmos de la reducción constante del espacio de características original (selección inversa), existe una eliminación gradual de las variables menos informativas a la reducción permitida en el contenido de información del modelo.

Debe tenerse en cuenta que la informatividad de los signos es relativa. La selección debe garantizar una alta informatividad del conjunto de características, y no la información total de los componentes de sus variables. Por lo tanto, la presencia de correlación entre señales reduce su informatividad general debido a la duplicación de la información común a ellos. Por lo tanto, agregar una nueva característica a la ya seleccionada garantiza un aumento en la informatividad en la medida en que contiene información útil que falta en variables previamente seleccionadas. La situación más simple es la situación de la selección de signos mutuamente ortogonales, en los que el algoritmo de selección es muy simple: las variables se clasifican en la informatividad, y se utiliza la composición de los primeros signos en esta clasificación, lo que garantiza la informatividad específica.

El método limitado de los métodos de selección para reducir la dimensión del espacio se asocia con el supuesto de la presencia inmediata de los signos necesarios en los datos de origen, lo que suele ser incorrecto. Un enfoque alternativo a una reducción en la dimensión proporciona la conversión de características en un conjunto reducido de nuevas variables. A diferencia de la selección de los signos originales, la formación de un nuevo espacio de características implica la creación de nuevas variables, que generalmente son funciones de los signos de origen. Estas variables observadas directamente a menudo se llaman ocultas, o latente. En el proceso de creación, estas variables pueden dotarse de diversas propiedades útiles, como la ortogonalidad. En la práctica, los signos iniciales generalmente se interrelacionan, por lo tanto, la transformación de su espacio a ortogonal genera nuevas coordenadas, en las que no hay efecto de duplicar información sobre los objetos estudiados.

La visualización de objetos en un nuevo espacio de características ortogonales crea la capacidad de presentar visualmente la utilidad de cada uno de los signos desde el punto de vista de las diferencias entre estos objetos. Si las coordenadas de la nueva base están organizadas por dispersión caracterizando el rango de valores en ellos para las observaciones en consideración, se convierte en una imposibilidad obvia desde un punto de vista práctico de algunas características con pequeñas variables, ya que los objetos en estas características son prácticamente indistinguible en comparación con sus diferencias en variables más informativas. En tal situación, podemos hablar de la llamada degeneración del espacio inicial de características de k. Variables y la dimensión real de este espacio. t. puede ser menos fuente (m< k.).

La reducción del espacio de características se acompaña de una cierta disminución en la información de datos, pero el nivel de reducción permisible puede determinarse de antemano. La selección de características es proyectar un conjunto de variables de origen en un espacio de dimensión más pequeño. La compresión del espacio de características a dos-tridimensionales puede ser útil para la visualización de datos. Por lo tanto, el proceso de formación de un nuevo espacio de características generalmente conduce a un conjunto más pequeño de variables realmente informativas. En su base, se puede construir un modelo mejor en función de un número menor de las características más informativas.

La formación de nuevas variables basadas en la fuente se utiliza para el análisis semántico latente, la compresión de datos, la clasificación y el reconocimiento de las imágenes, aumentan la velocidad y la eficiencia de los procesos de aprendizaje. Los datos comprimidos se aplican generalmente a un análisis y modelado adicionales.

Una de las aplicaciones importantes para la transformación del espacio de características y reducir la dimensión es construir categorías latentes sintéticas basadas en los signos medidos de signos. Estos signos latentes pueden caracterizar las características específicas generales del fenómeno que integran las propiedades privadas de los objetos observados, lo que nos permite crear indicadores integrados de varios niveles de generalización de la información.

El papel de los métodos para la reducción del espacio de características en el estudio del problema de la duplicación de la información en los signos iniciales, lo que lleva a la "hinchazón" de la dispersión de las estimaciones de los coeficientes de los modelos de regresión, es esencial. La transición a la nueva, en el caso ideal, ortogonal y interpretado sustancialmente, las variables es un medio eficaz para modelar en las condiciones de multicolinealidad de los datos de origen.

La transformación del espacio de características iniciales en orthogonal es conveniente para resolver las tareas de clasificación, ya que hace posible aplicar razonablemente ciertas medidas de proximidad o diferencias en los objetos, como la distancia euclidiana o el cuadrado de la distancia euclidiana. En el análisis de regresión, la construcción de la ecuación de regresión en los componentes principales permite resolver el problema de la multicolinealidad.

  • En estadísticas, el aprendizaje de la máquina y la teoría de la información, la reducción de la dimensión es convertir los datos que consisten en reducir la cantidad de variables al recibir las variables principales. La conversión se puede dividir en la selección de características y selección de características.

Conceptos conectados

Mencionado en la literatura

- Datos de entrada de carga y preprocesamiento: diseño manual y automático de estímulos (selección de zonas de interés), - algoritmo para calcular la matriz de representación sucesor, - construir una tabla de datos extendidos con los valores de las variables de entrada requeridas para el análisis posterior - método dimensión reducida Espacios espaciales (método del componente principal), - visualización de las cargas componentes para seleccionar el componente interpretable: el algoritmo para aprender el árbol de soluciones, es un algoritmo para evaluar la capacidad predictiva del árbol, - visualización del árbol de soluciones.

Conceptos relacionados (continuación)

Las técnicas de agrupamiento espectral utilizan el espectro (valores propios) de la matriz de similitud de datos para reducir la dimensión antes de agruparse en espacios más pequeños. La matriz de similitud se suministra como una entrada y consta de estimaciones cuantitativas de la similitud relativa de cada par de puntos en los datos.

Los métodos espectrales son una clase de técnico utilizada en las matemáticas aplicadas para una solución numérica de algunas ecuaciones diferenciales, es posible involucrar una transformación rápida de Fourier. La idea consiste en el censo de resolución de ecuaciones diferenciales como la suma de algunas "funciones básicas" (por ejemplo, como las series de Fourier son la suma del sinusoide), y luego seleccione los coeficientes en la cantidad para satisfacer la ecuación diferencial tanto como sea posible.

El análisis matemático (análisis matemático clásico) es un conjunto de secciones de matemáticas correspondientes a la sección histórica bajo el nombre "Análisis de infinitamente pequeñas", combina cálculo diferencial e integral.

EVOLUCIÓN DIFERENCIAL (ESP. Evolución diferencial) - Método de optimización matemática multidimensional relacionada con la clase de algoritmos de optimización estocásticos (es decir, funciona utilizando números aleatorios) y usar algunas ideas de algoritmos genéticos, pero, a diferencia de ellos, no requiere trabajo con Variables en código binario.

El método del elemento discreto (DEM, del inglés. Método de elemento discreto) es una familia de métodos numéricos destinados a calcular el movimiento de un gran número de partículas, como moléculas, grava, grava, guijarros y otros medios granulados. El método se aplicó originalmente en Cundall en 1971 para resolver problemas de la mecánica de roca.

Propósito del estudio:

Evaluación de la efectividad de la metodología de reducción de la dimensión de datos para optimizar su solicitud en la práctica de reconocimiento (identificación).

Tareas de investigación:

1. Una visión general de las fuentes literarias sobre los métodos existentes para reducir la dimensión de los datos.

2. Realización de investigaciones (experimentos) para comparar la efectividad de los algoritmos de reducción de datos aplicados en la práctica en las tareas de clasificación

Métodos de Investigación (Software):

Idioma de programación de C ++, Biblioteca OPENCV

La percepción de los datos de alta dimensión para una persona es difícil, y a veces es imposible. En este sentido, bastante natural fue el deseo de pasar de una muestra multidimensional a los datos de una pequeña dimensión para que "los puedan mirarlos", evaluar y usar, incluso para lograr tareas de reconocimiento. Además de la visibilidad, la reducción de la dimensión le permite deshacerse de los factores (información) que interfieren con el análisis estadístico, extendiendo el tiempo para recopilar información, lo que aumenta la dispersión de las estimaciones de los parámetros y las características de las distribuciones.

La reducción de la dimensión es la transformación de los datos de origen con una gran dimensión en una nueva representación de una dimensión más pequeña que mantiene información básica. En el caso perfecto, la dimensión de la representación convertida corresponde a la dimensión interna de los datos. La dimensión de datos interna es el número mínimo de variables requeridas para expresar todas las propiedades de datos posibles. Un modelo analítico, basado en la base de un múltiples datos reducidos, debe ser más fácil para el procesamiento, la implementación y la comprensión que el modelo construido en el conjunto de origen.

La decisión sobre la elección de un método de reducción de la dimensión se basa en el conocimiento de las características de la tarea que se resuelve y los resultados esperados, así como los recursos de tiempo limitados y computacionales. Según las revisiones literarias, los métodos de reducción de dimensiones más utilizados incluyen análisis de componentes principales (PCA), análisis de componentes independientes (ICA) y descomposición de valor singular (SVD).

Análisis del componente principal (PCA). - El método más fácil de reducir la dimensión de los datos. Se usa ampliamente para convertir los signos al tiempo que reduce la dimensión de los datos en las tareas de clasificación. El método se basa en la proyección de datos a un nuevo sistema de coordenadas de una dimensión más pequeña, que está determinada por sus propios vectores y los números propios de la matriz. Desde el punto de vista de las matemáticas, el método del componente principal es una transformación lineal ortogonal.

La idea principal del método es calcular los valores propios y los efervectores de la matriz de datos de covarianza para minimizar la dispersión. La matriz de covarianza se utiliza para determinar la dispersión en relación con el promedio con respecto a los demás. Covarianza de dos variables aleatorias (dimensiones) - medida de su dependencia lineal:

donde: la expectativa matemática del valor aleatorio de X, - la expectativa matemática de la variable aleatoria y. También podemos escribir la fórmula (1) en el formulario:

donde - la media x, donde, la y la media y, n es la dimensionalidad de los datos.

Después de calcular sus propios vectores y sus propios números, sus valores se clasifican en orden descendente. Por lo tanto, los componentes se obtienen para reducir la importancia. Propio vector con el número natural más grande y es el componente principal del conjunto de datos. Los componentes principales se obtienen multiplicando las filas de sus propios vectores en los valores propios ordenados. Para encontrar el espacio óptimo de una dimensión más pequeña, se usa fórmula (3), que calcula el error mínimo entre el conjunto de datos de datos y el siguiente criterio:

donde P es la dimensión del nuevo espacio, N es la dimensión de la muestra original, - EIGENVALUES, - Umbral. Durante la operación del algoritmo, obtenemos una matriz con datos MP, convertidos linealmente de MN, después de lo cual la PCA encuentra un mapeo lineal M, una función de estimación de minimización:

donde - distancia euclidiana entre puntos y, - distancia euclidiana entre puntos y ,, . El mínimo de esta función estimada se puede calcular realizando una descomposición espectral de la matriz gram y multiplicando su propio vector de esta matriz a la raíz de los valores propios correspondientes.

Análisis de componentes independientes ( ICA ) , A diferencia de PCA, un nuevo método lo suficientemente nuevo, pero rápidamente ganando popularidad. Se basa en la idea de una transformación de datos lineales en nuevos componentes, que son más estadísticamente independientes y opcionalmente ortogonales entre sí. Para la investigación en este documento, se seleccionó el algoritmo de Fastica, descrito en detalle en el artículo. Las tareas principales de este método son el centrado (la resta del promedio de los datos) y la "blanqueadora" (conversión lineal del vector X en un vector con coordenadas no correlacionadas cuya dispersión es igual a una).

El criterio de independencia en Fastica es no geasura, que se mide utilizando el coeficiente excesivo:

Para las variables aleatorias gaussianas, este valor es cero, por lo que Fastica maximiza su valor. Si, los datos "blanqueados", entonces la matriz de covarianza de los datos "blanqueados" es una sola matriz.

Tal transformación es siempre posible. El método popular de "blanquear" utiliza la descomposición espectral de la matriz de covarianza. , donde - la matriz ortogonal de sus propios vectores, A es una matriz diagonal de números propios,. Resulta que el "blanqueamiento" se puede representar como:

donde la matriz es calculada por la operación Pomoponent:

Experimentos

Para el estudio experimental de los métodos propuestos, se utilizó una secuencia de video basada en el diccionario de la base de datos de Casia Gait. La base contiene las secuencias de imágenes binarias correspondientes a los marcos individuales de la secuencia de video en los que ya se ha realizado la asignación de objetos en movimiento.

De todos los muchos videos, 15 clases fueron tomadas al azar, en las que el ángulo de tiro es de 90 grados, las personas se representan en ropa ordinaria sin invierno y sin bolsas. En cada clase había 6 secuencias. La longitud de cada secuencia fue de al menos 60 marcos. Las clases se dividieron en aprendizaje y muestras de prueba de 3 secuencias cada una.

Las características obtenidas como resultado de los métodos de PCA y ICA se utilizaron para estudiar el clasificador, que en el presente trabajo fueron los vectores de soporte (Máquinas de soporte vectorial, SVM).

Para determinar la calidad del método del método, se estimó la precisión de la clasificación, definida como la proporción de objetos correctamente clasificados. Durante el experimento, también se solucionó el tiempo dedicado al modo de entrenamiento y prueba.

Figura 1. (a) Método Componente principal (PCA) b) Método de componente independiente (ICA)

La Figura 1 (A, B) presenta la relación de la precisión de la clasificación del valor de la dimensión de salida de los datos después de la conversión. Se puede ver que en PCA, la precisión de la clasificación con un aumento en el número de componentes varía ligeramente, y cuando se utiliza ICA, la precisión a partir de un cierto valor, comienza a caer.

Figura 2. La dependencia del tiempo de clasificación en el número de componentes. pero) PCA B) ICA

La Figura 2 (A, B) presenta la dependencia del tiempo de clasificación en el número de componentes de PCA y ICA. El crecimiento de la dimensión en ambos casos fue acompañado por un aumento lineal en el tiempo de procesamiento. Los gráficos muestran que el clasificador SVM funcionó más rápido después de bajar la dimensión utilizando el método del componente principal (PCA).

Los métodos de los principales análisis de componentes (PCA), los análisis de componentes independientes (ICA) trabajaron bastante rápido y con ciertos parámetros se obtuvieron altos resultados en la tarea de clasificación. Pero con datos con una estructura compleja, estos métodos no siempre le permiten lograr el resultado deseado. Por lo tanto, los métodos locales no lineales están prestando cada vez más atención a la proyección de datos sobre alguna variedad, lo que hace posible preservar la estructura de datos.

En el futuro, se planea expandir tanto la lista de algoritmos utilizados para formar una descripción de características y una lista de métodos de clasificación utilizados. Otro área importante de la investigación parece reducir el tiempo de procesamiento.

Bibliografía:

  1. Jolliffe, I.T, Análisis de componentes principales, Springer, 2002
  2. Hyvärinen y Erkki OJA, análisis de componentes independientes: algoritmos y aplicaciones, redes neuronales, 13, 2000
  3. Josiński, H. Característica de la extracción y la clasificación basada en HMM de las secuencias de video de la GAIT con fines de identificación humana / Springer, 2013 - Vol 481.