Evaluarea metodelor de reducere a dimensiunii datelor utilizate pentru a transforma un flux video la identificarea unei persoane. Introducere la o reducere a reducerii dimensiunii dimensiunii datelor

Reducerea datelor (reducerea datelor)

În tehnologiile analitice, sub scăderea dimensiunii datelor, procesul de transformare a acestora în formă este cel mai convenabil pentru analiză și interpretare. De obicei, se realizează prin reducerea volumului acestora, reducând numărul de caracteristici utilizate și diversitatea valorilor acestora.

Deseori, datele analizate sunt incomplete atunci când reflectă prost dependențele și modelele procesului de afaceri studiat. Motivele pentru acest lucru pot fi un număr insuficient de observații, lipsa semnelor care reflectă proprietățile esențiale ale obiectelor. În acest caz, se aplică îmbogățirea datelor.

Reducerea dimensiunii este aplicată în cazul opus când datele sunt redundante. Redundanța are loc atunci când sarcina de analiză poate fi rezolvată cu același nivel de eficiență și precizie, dar folosind dimensiunea datelor mai mici. Acest lucru vă permite să reduceți timpul și costurile computaționale pentru rezolvarea problemei, să faceți datele și rezultatele analizei lor sunt mai interpretate și de înțeles pentru utilizator.

Reducerea numărului de observații de date se aplică dacă soluția de calitate comparabilă poate fi obținută pe o probă mai mică, de scurtare, prin urmare, costurile computaționale și de timp. Acest lucru este valabil mai ales pentru algoritmii care nu sunt scalabili atunci când chiar și o ușoară reducere a numărului de înregistrări conduce la un câștig semnificativ în costurile de timp computaționale.

Reducerea numărului de caracteristici are sens atunci când informațiile necesare pentru o soluție calitativă a problemei sunt conținute într-un anumit subset al semnelor și nu este necesar să le utilizați pe toate. Acest lucru este valabil mai ales pentru corelarea semnelor. De exemplu, semnează "vârsta" și "experiența de lucru", de fapt, să poarte aceleași informații, deci una dintre ele poate fi exclusă.

Mijloacele cele mai eficiente de reducere a numărului de caracteristici este o analiză a factorilor și o metodă a componentei principale.

Reducerea diversității semnelor de semne are sens, de exemplu, dacă acuratețea datelor de prezentare este redundantă și în loc de valori reale pot fi utilizate la fel de mult ca și deteriorarea calității modelului. Dar acest lucru va reduce cantitatea de memorie și costuri computaționale.

Un subset de date obținute ca urmare a reducerii dimensiunii trebuie să moștenească din setul inițial de atât de multe informații, deoarece este necesar să se rezolve problema cu o precizie dată, iar costurile computaționale și de timp pentru reducerea datelor nu ar trebui să deprecieze beneficiile primit de la acesta.

Un model analitic, construit pe baza unor date multiple reduse, ar trebui să fie mai ușor de prelucrare, implementare și înțelegere decât modelul construit pe setul sursă.

Decizia privind alegerea unei metode de reducere a dimensiunii se bazează pe o cunoaștere priori cu privire la caracteristicile sarcinii și rezultatele așteptate, precum și resursele limitate de timp și computaționale.

Cuvinte cheie

Matematică / Statistici aplicate / Matematică Statistici / Puncte de creștere / Metoda componentei principale / ANALIZA FACTORILOR / Scară multidimensională / Evaluarea dimensiunii datelor / Estimarea dimensiunii modelului / Matematică / Statistică aplicată / Statistici matematice / Puncte de creștere / Analiza principală a componentelor / Analiza factorului / Scalarea / estimarea dimensiunii de date / Evaluarea dimensiunii modelului

adnotare articol științific în matematică, autor al muncii științifice - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

Unul dintre "punctele de creștere" statistici aplicate sunt metode de reducere a dimensiunii spațiului datelor statistice. Acestea sunt utilizate din ce în ce mai mult în analizarea datelor în studii specifice aplicate, de exemplu, sociologice. Luați în considerare cele mai promițătoare metode de dimensiune redusă. Metoda componentei principale Este una dintre metodele de dimensiuni cele mai frecvent utilizate. Pentru analiza vizuală a datelor, sunt utilizate adesea proiecții ale vectorilor inițiali pe planul primelor două componente principale. De obicei, structura de date este clar vizibilă, se disting clustere de obiecte compacte și vector eliberat separat. Metoda componentei principale este una dintre metode analiza factorilor. Noua idee în comparație cu metoda componentelor principale Este că pe baza încărcăturilor, factorii sunt împărțiți în grupuri. Într-un grup, factorii sunt combinați, având un efect similar asupra elementelor noii baze. Apoi, de la fiecare grup se recomandă să lase un reprezentant. Uneori, în loc să aleagă un reprezentant, se formează un nou factor, care este esențial pentru grupul în cauză. Reducerea dimensiunii are loc în timpul tranziției la sistemul de factori care sunt reprezentanți ai grupurilor. Factorii rămași sunt aruncați. Privind utilizarea distanțelor (măsuri de proximitate, indicatoarele de diferențe) între semne și clasa extinsă de metode se bazează scalarea multidimensională. Ideea principală a acestei metode este reprezentarea fiecărui obiect al punctului de spațiu geometric (de obicei dimensiunea 1, 2 sau 3), coordonatele care servesc drept valorile factorilor ascunși (latent), care sunt descriind destul de adecvat obiectul. Ca exemplu de aplicare a modelării statistice probabiliste și a rezultatelor non-statinești, justificăm coerența măsurării dimensiunii spațiului de date în scalarea multidimensionalăpropuse anterior de colomal din considerente euristice. Considerat o serie de lucrări pe evaluarea dimensiunilor modelelor (în analiza de regresie și în teoria clasificării). Dana Informații despre algoritmii Reducerea dimensiunii într-o analiză automată a sistemului-cognitiv

Subiecte similare lucrări științifice privind matematica, autorul muncii științifice - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Metode matematice în sociologie timp de patruzeci și cinci de ani

  • Varietate de obiecte de non-natura

  • Evaluarea parametrilor: estimările într-o singură etapă sunt preferabile estimărilor maxime de credibilitate

  • Statistici aplicate - Statistici și perspective

    2016 / Orlov Alexander Ivanovich
  • Statul și perspectivele de dezvoltare a statisticilor aplicate și teoretice

    2016 / Orlov Alexander Ivanovich
  • Relația dintre teoremele limită și metoda Monte Carlo

    2015 / Orlov Alexander Ivanovich
  • Privind dezvoltarea statisticilor obiectelor non-naturale

    2013 / Orlov Alexander Ivanovich
  • Puncte de creștere a metodelor statistice

    2014 / Orlov Alexander Ivanovich
  • Despre noile instrumente matematice promițătoare de control

    2015 / Orlov Alexander Ivanovich
  • Distanțe în spațiile statistice

    2014 / Orlov Alexander Ivanovich

Unul dintre "punctele de creștere" ale statisticilor aplicate este metodele de reducere a dimensiunii datelor statistice. Acestea sunt utilizate din ce în ce mai mult în analiza datelor în cercetări aplicate specifice, cum ar fi sociologia. Investigăm cele mai promițătoare metode de reducere a dimensionalității. Componentele principale sunt una dintre cele mai frecvent utilizate metode de reducere a dimensionalității. Pentru analiza vizuală a datelor sunt adesea folosite proiecțiile vectorilor originali pe planul primelor două componente principale. De obicei, structura de date este vizibilă, evidențiată Clustsere compacte de obiecte și vectori alocați separat. Componentele principale reprezintă o metodă de analiză a factorilor. Noua idee a analizei factorilor în comparație cu metoda principală a componentelor este că, pe baza încărcăturilor, factorii se descompun în grupuri. Într-un grup de factori, noul factor este combinat cu un impact similar asupra elementelor noii baze. Apoi, fiecare grup este recomandat să lase un reprezentant. Uneori, în loc de alegerea reprezentantului prin calcul, un nou factor care este esențial pentru grupul în cauză. Dimensiunea redusă are loc în timpul tranziției la factorii de sistem, care sunt reprezentanți ai grupurilor. Factorii OTER sunt aruncați. La utilizarea distanței (măsuri de proximitate, indicatori de diferențe) între caracteristici și clasa extinsă se bazează pe o scalare multidimensională. Ideea de bază a acestei clase de metode este de a prezenta fiecărui obiect ca punct al spațiului geometric (de obicei de dimensiune 1, 2 sau 3) ale căror coordonate sunt valorile factorilor ascunși (latent) care se combină în mod adecvat Descrieți obiectul. Ca exemplu de aplicare a modelării probabiliste și statistice și a rezultatelor statisticilor de date non-numerice, justificăm coerența estimatorii dimensiunii datelor în scalarea multidimensională, care sunt propuse anterior de Kruskal din considerente euristice. Am considerat o serie de estimări consecvente ale dimensiunii modelelor (în analiza de regresie și în teoria clasificării). De asemenea, oferim despre algoritmii pentru reducerea dimensionalității în analiza automată a sistemului-cognitiv

Textul lucrărilor științifice pe tema "Metode de reducere a dimensiunii spațiului datelor statistice"

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 Fizică și matematică

Metode de reducere a dimensiunii spațiului de date statistice

Orlov Alexander Ivanovich.

d.E.N., D.T.N., K.F.-M.N., profesor

Codul RINZ BOSH: 4342-4994

Moscova tehnică tehnică

universitate. ANUNȚ Bauman, Rusia, 105005,

Moscova, a doua Baumanskaya St., 5, [E-mail protejat]t.

Lutsenko Evgeny Veniaminovich D.E.N., Ph.D., Profesor Rinz Brosh Cod: 9523-7101 Kuban State Universitatea Agrară, Krasnodar, Rusia [E-mail protejat] Com.

Unul dintre "punctele de creștere" ale statisticilor aplicațiilor este metodele de reducere a dimensiunii spațiului de date statistice. Acestea sunt utilizate din ce în ce mai mult în analizarea datelor în studii specifice aplicate, de exemplu, sociologice. Luați în considerare cele mai promițătoare metode de dimensiune redusă. Metoda principală componentă este una dintre cele mai frecvent utilizate metode de reducere a dimensiunii. Pentru analiza vizuală a datelor, sunt utilizate adesea proiecții ale vectorilor inițiali pe planul primelor două componente principale. De obicei, structura de date este clar vizibilă, se disting clustere de obiecte compacte și vector eliberat separat. Metoda principală a componentelor este una dintre metodele de analiză a factorilor. Noua idee în comparație cu metoda principală a componentelor este aceea că pe baza încărcăturilor, factorii sunt împărțiți în grupuri. Într-un grup, factorii sunt combinați, având un efect similar asupra elementelor noii baze. Apoi, de la fiecare grup se recomandă să lase un reprezentant. Uneori, în loc să aleagă un reprezentant, se formează un nou factor, care este esențial pentru grupul în cauză. Reducerea dimensiunii are loc în timpul tranziției la sistemul de factori care sunt reprezentanți ai grupurilor. Factorii rămași sunt aruncați. Cu privire la utilizarea distanțelor (măsuri de proximitate, indicatoarele de diferențe) între semne și clasa extinsă de metode de scalare multidimensională se întemeiază. Ideea principală a acestei clase de metode este de a reprezenta fiecare obiect cu un punct geometric (de obicei dimensiunea 1, 2 sau 3), ale căror coordonate sunt valorile factorilor ascunși (latent), în agregat , care descriu suficient de adecvat

UDC 519.2: 005.521: 633.1: 004.8

Fizica și științele matematice

Metode de reducere a dimensiunii spațiului a datelor statistice

Orlov Alexander Ivanovich.

Dr.sci.chon., Dr.sci.Tech., Cand.phys-Math.sci.,

Bauman Moscova Universitatea Tehnică de Stat, Moscova, Rusia

Lutsenko Eugeny Veniaminovich Dr.sci.con., Cand.tech.sci., Profesor RSCI Cod spin: 9523-7101

Universitatea Agrară State Kuban, Krasnodar, Rusia

[E-mail protejat] Com.

Unul dintre "punctele de creștere" ale statisticilor aplicate este metodele de reducere a dimensiunii datelor statistice. Acestea sunt utilizate din ce în ce mai mult în analiza datelor în cercetări aplicate specifice, cum ar fi sociologia. Investigăm cele mai promițătoare metode de reducere a dimensionalității. Componentele principale sunt una dintre cele mai frecvent utilizate metode de reducere a dimensionalității. Pentru analiza vizuală a datelor sunt adesea folosite proiecțiile vectorilor originali pe planul primelor două componente principale. De obicei, structura de date este vizibilă, evidențiată Clustsere compacte de obiecte și vectori alocați separat. Componentele principale reprezintă o metodă de analiză a factorilor. Noua idee a analizei factorilor în comparație cu metoda principală a componentelor este că, pe baza încărcăturilor, factorii se descompun în grupuri. Într-un grup de factori, noul factor este combinat cu un impact similar asupra elementelor noii baze. Apoi, fiecare grup este recomandat să lase un reprezentant. Uneori, în loc de alegerea reprezentantului prin calcul, un nou factor care este esențial pentru grupul în cauză. Dimensiunea redusă are loc în timpul tranziției la factorii de sistem, care sunt reprezentanți ai grupurilor. Factorii OTER sunt aruncați. La utilizarea distanței (măsuri de proximitate, indicatori de diferențe) între caracteristici și clasa extinsă se bazează pe o scalare multidimensională. Ideea de bază a acestei clase de metode este de a prezenta fiecărui obiect ca punct al spațiului geometric (de obicei de dimensiune 1, 2 sau 3) ale căror coordonate sunt valorile factorilor ascunși (latent) care se combină în mod adecvat Descrieți obiectul. Ca exemplu de aplicare a modelării probabiliste și statistice și a rezultatelor statisticilor privind datele non-numerice, justificăm coerența estimatorilor

un obiect. Ca exemplu de aplicare a modelării statistice probabiliste și a rezultatelor statisticilor non-statistice, susținem coerența măsurării dimensiunii spațiului de date în scalarea multidimensională, propusă anterior de către Colromal din considerente euristice. Au fost luate în considerare o serie de lucrări la evaluarea dimensiunilor modelelor (în analiza de regresie și în teoria clasificării). Dana Informații despre algoritmii Reducerea dimensiunii într-o analiză automată a sistemului-cognitiv

Cuvinte cheie: matematică, statistici aplicate, statistici matematice, puncte de creștere, metoda componentă principală, analiza factorului, scalarea multidimensională, estimarea dimensiunii datelor, estimarea dimensiunii modelului

dimensiunea datelor în scalarea multidimensională, care sunt propuse anterior de Kruskal din considerente euristice. Am considerat o serie de estimări consecvente ale dimensiunii modelelor (în analiza de regresie și în teoria clasificării). De asemenea, oferim despre algoritmii pentru reducerea dimensionalității în analiza automată a sistemului-cognitiv

Cuvinte cheie: matematică, statistici aplicate, statistici matematice, puncte de creștere, analiza principală a componentelor, analiza factorului, scalarea multidimensională, estimarea dimensiunii datelor, estimarea dimensiunii modelului

1. Introducere

După cum sa menționat deja, unul dintre "punctele de creștere" ale statisticilor de aplicare sunt metode de reducere a dimensiunii spațiului de date statistice. Acestea sunt utilizate din ce în ce mai mult în analizarea datelor în studii specifice aplicate, de exemplu, sociologice. Luați în considerare cele mai promițătoare metode de dimensiune redusă. Ca exemplu de aplicare a modelării statistice probabiliste și a rezultatelor non-statistici, justificăm coerența dimensiunii spațiului propus anterior de către colomic din considerente euristice.

În analiza statistică multidimensională, fiecare obiect este descris de un vector, al cărui dimensiune este arbitrar (dar același pentru toate obiectele). Cu toate acestea, o persoană poate percepe numai numai date sau puncte numerice în avion. Analizați acumulările de puncte din spațiul tridimensional este deja mult mai dificil. Percepția directă a datelor de dimensiune superioară este imposibilă. Prin urmare, destul de natural este dorința de a trece de la o probă multidimensională la datele de dimensiuni mici, astfel încât "ar putea

uite". De exemplu, un comerciant poate vedea în mod clar câte tipuri diferite de comportament de consum (adică cât de mult este recomandabil să aloce segmente de piață) și care proprietăți sunt (cu proprietăți) consumatori în ele.

În plus față de dorința de claritate, există și alte motive pentru reducerea dimensiunii. Acești factori din care variabila este interesată de cercetător, nu numai că interferează cu analiza statistică. În primul rând, resursele financiare, temporare, de personal sunt cheltuite pentru colectarea de informații despre acestea. În al doilea rând, cum să demonstreze, includerea lor în analiză agravează proprietățile procedurilor statistice (în special, crește dispersia estimărilor parametrilor și caracteristicilor distribuțiilor). Prin urmare, este de dorit să scape de astfel de factori.

Atunci când analizați datele multidimensionale, nu una, dar multe sarcini, în special, alegând variabile independente și dependente în moduri diferite. Prin urmare, luăm în considerare problema dimensiunii reduse în următoarea formulare. Dana multidimensională. Este necesar să se deplaseze de la acesta la totalitatea vectorilor unei dimensiuni mai mici, salvând în același timp structura datelor sursă, dacă este posibil, fără a pierde informații conținute în date. Sarcina este specificată în cadrul fiecărei metode particulare de dimensiune redusă.

2. Metoda componentei principale

Este una dintre metodele de dimensiuni cele mai frecvent utilizate. Ideea principală este în concordanță cu detectarea zonelor în care datele au cea mai mare scatter. Lăsați eșantionul să fie compus din vectori distribuiți în mod egal cu vectorul x \u003d (1), x (2), ..., x (n)). Luați în considerare combinațiile liniare

7 (^ (1), x (2) ,., l (n)) \u003d x (1) x (1) + x (2) x (2) + ... + l (n) x (n) .

X2 (1) + x2 (2) + ... + x2 (N) \u003d 1. Aici, vector x \u003d (x (1), x (2), ..., x (n)) se află pe unitate sfera în spațiul p-dimensional.

În metoda principală a componentelor, în primul rând găsiți direcția de împrăștiere maximă, adică. Astfel de x, la care dispersia maximă a unei variabile aleatorie este 7 (x) \u003d 7 (x (1), x (2), ..., x (n)). Apoi vectorul X stabilește prima componentă principală, iar valoarea de 7 (x) este proiecția vectorului random al axei primei componente principale.

Apoi, exprimând termenii algebrei liniare, luați în considerare hiperplanul în spațiul p-dimensional, perpendicular la prima componentă principală și proiectarea tuturor elementelor eșantionului pe această hiperplană. Dimensiunea hiperplanei este de 1 mai mică decât dimensiunea spațiului sursă.

În hiperplanul în cauză, procedura este repetată. Se găsește direcția cea mai mare scatter, adică. A doua componentă principală. Apoi este izolat hiperplanul perpendicular la primele două componente principale. Dimensiunea sa este de 2 mai mică decât dimensiunea spațiului sursă. Apoi - următoarea iterație.

Din punctul de vedere al algebrei liniare vorbim despre construirea unei noi baze într-un spațiu p-dimensional, ale căror iituri servesc ca principalele componente.

Dispersie corespunzătoare fiecărei componente principale noi, mai puțin decât cea precedentă. De obicei opriți când este mai mică decât pragul specificat. Dacă este selectat pentru componentele principale, aceasta înseamnă că din spațiul p-dimensional a fost posibil să mergem la K-dimensional, adică Reduceți dimensiunea cu P-la K, practic fără a distorsiona structura datelor sursă.

Pentru analiza vizuală a datelor, sunt utilizate adesea proiecții ale vectorilor inițiali pe planul primelor două componente principale. Obișnuit

structura de date este clar vizibilă, sunt distinse clustere de obiecte compacte și vector eliberate separat.

3. Analiza factorilor

Metoda principală a componentelor este una dintre metodele de analiză a factorilor. Diferiți algoritmi pentru analiza factorilor sunt combinate de faptul că în toate acestea există o tranziție la o nouă bază în spațiul inițial n-dimensional. IMPORTANT este conceptul de "sarcină factor" utilizat pentru a descrie rolul factorului sursă (variabila) în formarea unui anumit vector de la noua bază.

Noua idee în comparație cu metoda principală a componentelor este aceea că pe baza încărcăturilor, factorii sunt împărțiți în grupuri. Într-un grup, factorii sunt combinați, având un efect similar asupra elementelor noii baze. Apoi, de la fiecare grup se recomandă să lase un reprezentant. Uneori, în loc să aleagă un reprezentant, se formează un nou factor, care este esențial pentru grupul în cauză. Reducerea dimensiunii are loc în timpul tranziției la sistemul de factori care sunt reprezentanți ai grupurilor. Factorii rămași sunt aruncați.

Procedura descrisă poate fi efectuată nu numai cu ajutorul analizei factorilor. Vorbim despre o analiză clusterică a semnelor (factori, variabile). Pentru a împărți semnele de grupuri, pot fi aplicate diferite algoritmi de analiză a clusterului. Este suficient să introduceți distanța (măsura de proximitate, indicatorul diferenței) între semne. Fie X și Y două semne. Diferența D (x, y) între ele poate fi măsurată utilizând coeficienți de corelare selectivă:

di (x, y) \u003d 1 - \\ rn (x, y) \\, d2 (x, y) \u003d 1 - \\ pn (x, y) \\, în cazul în care rn (x, y) este un coeficient de corelare liniar Pearson , Pn (x, y) este un coeficient selectiv al corelației fluviului al spirmei.

4. Scalarea multidimensională.

Cu privire la utilizarea distanțelor (măsuri de proximitate, indicatoarele de diferențe) d (x, y) între semnele x și u, se bazează clasa extinsă de metode de scalare multidimensională. Ideea principală a acestei metode este reprezentarea fiecărui obiect al punctului de spațiu geometric (de obicei dimensiunea 1, 2 sau 3), coordonatele care servesc drept valorile factorilor ascunși (latent), care sunt descriind destul de adecvat obiectul. În același timp, relațiile dintre obiecte sunt înlocuite de relațiile dintre puncte - reprezentanții acestora. Deci, date privind similitudinea obiectelor - distanțe între puncte, datele privind superioritatea - locația reciprocă a punctelor.

5. Problema evaluării dimensiunii reale a spațiului factorului

În practica analizării datelor sociologice, se utilizează un număr de modele diferite de scalare multidimensională. În toate acestea, problema evaluării dimensiunii reale a spațiului factorului. Luați în considerare această problemă cu privire la exemplul de prelucrare a datelor privind similitudinea obiectelor care utilizează scalarea metrică.

Să nu existe obiecte N 0 (1), O (2), ..., O (n), pentru fiecare pereche de obiecte 0 (/), o (j), măsura similarității lor (ij) este dată . Credem că întotdeauna s (i, j) \u003d s (j, i). Originea numărului S (IJ) nu contează pentru a descrie funcționarea algoritmului. Acestea ar putea fi obținute fie prin măsurarea directă, fie prin utilizarea experților sau prin calcularea combinației de caracteristici descriptive sau cumva altfel.

În spațiul Euclidian, obiectele n ar trebui să fie reprezentate de configurația n punctelor, iar distanța Euclidian D (I, J) apare ca măsură de apropiere a punctelor

între punctele corespunzătoare. Gradul de conformare dintre setul de obiecte și combinația punctelor lor este determinat prin compararea matricelor de similaritate || i (,) || și distanțele funcționalității SM-metrice a asemănărilor

i \u003d £ | * (/,]) - th (/, m

Configurația geometrică trebuie selectată astfel încât funcționalitatea să fie cea mai mică valoare.

Cometariu. În scalarea nonetică, în locul proximității proximității și distanțelor în sine, se ia în considerare proximitatea Ordinilor asupra setului de măsuri de proximitate și setul de distanțe corespunzătoare. În loc de funcțional S, sunt folosite analogii coeficienților de rang de corelație a spiritului și Kendalla. Cu alte cuvinte, scalarea nemetrică provine din ipoteza că măsurile de proximitate sunt măsurate în scara ordinală.

Fie ca spațiul Euclidian să fie dimensiunea T. Luați în considerare cel puțin eroarea la jumătatea pătratului

În cazul în care minimul este luat în toate configurațiile posibile ale punctelor din spațiul T-Merne Euclidian. Se poate demonstra că minimul în cauză este realizat pe o anumită configurație. Este clar că odată cu creșterea T, valoarea de la scăderi monotonice (mai precis, nu crește). Se poate demonstra că la t\u003e P-1 este egal cu 0 (IF - metric). Pentru a spori posibilitățile de interpretare semnificativă, este de dorit să acționăm în spațiu posibilă mai mică dimensiune. În același timp, totuși, dimensiunea trebuie aleasă astfel încât punctele să reprezinte obiecte fără o denaturare mare. Întrebarea apare: cum să alegeți rațional dimensiunea spațiului, adică. Numărul natural t?

6. Modele și metode de estimare a dimensiunii spațiului de date

Ca parte a analizei deterministe a datelor unui răspuns rezonabil la această întrebare, aparent nu. Prin urmare, este necesar să se studieze comportamentul AM în anumite modele probabiliste. Dacă proximitatea S (iJ) este valori aleatorii, a căror distribuție depinde de "dimensiunea adevărată" M0 (și, eventual de la orice alți parametri), apoi în stilul clasic matematic-statistic, pentru a stabili sarcina estimată de M0, la Căutați evaluări bogate și etc.

Să începem să construim modele probabiliste. Vom presupune că obiectele sunt puncte în spațiul euclidian de dimensiune, unde suficient de mare. Faptul că "adevărata dimensiune" este egală cu M0, înseamnă că toate aceste puncte se află pe hiperplanul dimensiunii M0. Acceptăm certitudine că setul de puncte în cauză este un eșantion de distribuție normală circulară cu dispersie O (0). Aceasta înseamnă că obiectele 0 (1), 0 (2), ..., O (n) sunt independente în agregarea vectorilor aleatorii, fiecare dintre acestea fiind construită ca

Z (1) E (1) + Z (2) E (2) + ... + Z (M0) E (M0), unde E (1), E (2), ..., E (M0) - Baza ortonormală în subspațiul dimensiunii M0, în care punctele considerate luate în considerare și Z (1), Z (2), Z (M0) sunt independente în variabilele aleatorie normale ansidimensionale agregate cu așteptări matematice 0 și dispersie O (0).

Luați în considerare două modele pentru obținerea proximității S (IJ). În primul dintre acestea, S (iJ) diferă de distanța euclidiană dintre punctele corespunzătoare datorită faptului că punctele sunt cunoscute de denaturarea. Lăsați cu (1), cu (2), ..., C (n) - punctele luate în considerare. Atunci

s (i, j) \u003d d (c (i) + e (i), c (j) + s (/)), ij \u003d 1, 2, ..., n,

În cazul în care Y este distanța Euclidiană între punctele din spațiul de măsurare, vectorul E (1), E (2), ..., E (p) sunt o probă de distribuție normală circulară a unui spațiu de măsurare cu o așteptare matematică zero și o matrice de covarianță pe (1) /, unde matricea i-a -edită. Cu alte cuvinte,

e (0 \u003d p (1) E (1) + p (2) E (2) + ... + C (k) în (k), unde E (1), E (2), ... E (k) - bază ortonormală într-un spațiu de măsurare și [c ^^), i \u003d 1, 2, ..., p,? \u003d 1, 2, ..., k) este un set de independență în agregarea variabilelor aleatorie unidimensionale, cu o așteptare matematică zero și dispersie a O (1).

În al doilea model de distorsiune se impune direct distanțelor în sine:

Kch) \u003d (f)) + £ (uh și \u003d 1, 2., n, i f j,

În cazul în care și, la primul interval, scade mai repede decât pe al doilea. De aici rezultă că statisticile

m * \u003d arg minam + 1 - 2am + an-x)

este o evaluare bogată a adevăratei dimensiuni M0.

Deci, din teoria probabilistică implică recomandarea - ca o estimare a dimensiunii spațiului factorial de utilizat T *. Rețineți că o astfel de recomandare a fost formulată ca fiind una euristică a fondatorilor scalării multidimensionale de către J. Kraskal. El a continuat din experiența utilizării practice a scalării multidimensionale și a experimentelor computaționale. Teoria probabilistică a făcut posibilă justificarea acestei recomandări euristice.

7. Evaluarea dimensiunii modelului

Dacă este posibil, subseturile de semne formează o familie în expansiune, de exemplu, gradul de polinom este estimat, este natural să se introducă termenul "dimensiune model" (acest concept este în mare parte similar cu dimensiunea spațiului de date în scară multidimensională). Autorul acestui articol are o serie de lucrări privind evaluarea dimensiunii modelului, care este recomandabilă să se compare cu lucrările privind estimarea dimensiunii spațiului de date, discutate mai sus.

Prima astfel de lucrare a fost efectuată de autor al acestui articol în timpul unei călătorii în Franța în 1976. O evaluare a dimensiunii modelului în regresie a fost studiată în acesta, și anume o evaluare a gradului de polinom conform ipotezei că dependența este descris de polinom. Această estimare a fost cunoscută în literatură, dar mai târziu sa confundat cu atribuirea autorului acestui articol, care și-a studiat proprietățile, în special, a constatat că nu este bogat și și-a găsit distribuția geometrică limită. Altele, deja estimări bogate ale dimensiunii modelului de regresie au fost propuse și studiate în articol. Acest ciclu a completat lucrarea care conține o serie de rafinări.

Publicația extremă pe această temă include o discuție despre rezultatele studierii vitezei convergenței în teoremele limită obținute de Monte Carlo.

Similar cu metodologia de estimare a dimensiunii modelului în problema amestecurilor de divizare (parte a teoriei de clasificare) sunt luate în considerare în articol.

Estimările de mai sus ale dimensiunii modelului în scalarea multidimensională sunt studiate în lucrări. În aceleași lucrări, comportamentul limită al caracteristicilor metodei componentelor principale (folosind teoria asimptotică a comportamentului deciziilor de probleme statistice extreme).

8. Algoritmi de reducere a dimensiunii într-o analiză automată a sistemului-cognitiv

Analiza automată a sistemului-cognitiv (ASC-analiza) este de asemenea propusă în sistemul EIDOS, este implementată o altă metodă de dimensiune redusă. Este descris în locul de muncă în secțiunile 4.2 "Descrierea algoritmilor operațiunilor cognitive de bază ale analizei sistemului (BKOS)" și 4,3 "algoritmi detaliați BKOS (ASK Analiză)". Să dăm o scurtă descriere a doi algoritmi - BKOS-4.1 și BKOS-4.2.

Bkosa-4.1. "Abstragerea factorilor (reducerea dimensiunii spațiului semantic al factorilor)"

Folosind metoda de aproximări consecutive (algoritm iterativ), într-o anumită limită, dimensiunea spațiului de atribut este redusă fără o scădere semnificativă a volumului său. Criteriul de oprire a procesului iterativ este realizarea uneia dintre condițiile de graniță.

BKOS-4.2. "Abstracția clasei (scăderea dimensiunii spațiului semantic al claselor)"

Folosind metoda de aproximări consecutive (algoritm iterativ), în condiții limită specificate, dimensiunea spațiului clasei este redusă fără o reducere semnificativă a volumului său. Criteriul de oprire a procesului iterativ este realizarea uneia dintre condițiile de graniță.

Iată toți algoritmii reali implementați în sistemul EIDOS al versiunii care au fost implementate la momentul pregătirii lucrărilor (2002): http: //lc.kubagro .ru / AIDOS / AIDOS02 / 4.3 .htm

Esența algoritmilor este după cum urmează.

1. Cantitatea de informații se calculează în valorile tranziției obiectului la starea corespunzătoare claselor.

2. Calculează valoarea valorii factorului pentru diferențierea obiectului prin clase. Această valoare este pur și simplu variabilitatea informativelor valorilor factorilor (măsuri cantitative de variabilitate: deviația medie de la media, deviația medie patrată, etc.). Cu alte cuvinte, dacă în valoarea factorului, în medie, există puține informații despre apartenență și nu aparțin obiectului la clasă, atunci această valoare nu este foarte valoroasă și dacă este valoroasă.

3. Calculează valoarea scalelor descriptive pentru diferențierea obiectelor pe clase. În lucrările lui E.V. Lutsenko se face acum ca medie de valorile gradațiilor acestei scale.

4. Apoi se efectuează optimizarea trecerii valorilor factorilor și a scalelor descriptive:

Valorile factorilor (gradarea scalării descriptive) sunt clasificate în ordinea scăderii valorii și sunt îndepărtate din modelul cel mai puțin valoros, care merg la dreapta curbei Pareto de 45 °;

Factorii (scale descriptive) sunt clasificate în ordinea descrescătoare a valorii și sunt eliminate din modelul celui mai puțin valoros, care merg la dreapta de 45 ° Curba de trecere.

Ca rezultat, dimensiunea spațiului construit pe scară descriptivă este semnificativ redusă prin îndepărtarea cântarelor care se corelează între ele, adică. În esență, este un spațiu ortonormal într-o metrică informativă.

Acest proces poate fi repetat, adică Fiind iterativ, în timp ce în noua versiune a sistemului "Eidos" iterații încep manual.

În mod similar, spațiul de informare al claselor este omis.

Scala și gradațiile pot fi numerice (apoi sunt procesate valorile intervalului) și pot fi, de asemenea, text (ordinale sau chiar nominale).

Astfel, cu ajutorul algoritmilor BKOS (ASK Analiza), dimensiunea spațiului este redusă maximă cu pierderea minimă a informațiilor.

Pentru a analiza datele statistice în statisticile aplicate, au fost elaborate o serie de algoritmi de reducere a dimensiunilor. Sarcinile acestui articol nu includ o descriere a întregului colector al acestor algoritmi.

Literatură

1. Orlov A.i. Puncte de creștere a metodelor statistice // Jurnalul științific al rețelei poligrafice a Universității Agrar State Kuban. 2014. Nr. 103. P. 136-162.

2. Paint J. Relația dintre scalarea multidimensională și analiza cluster // Clasificarea și cluster. M.: MIR, 1980. C.20-41.

4. Harman G. Analiza modernă a factorilor. M.: Statistici, 1972. 489 p.

5. Orlov A.i. Note privind teoria clasificării. / Sociologie: metodologie, metode, modele matematice. 1991. Nr. 2. C.28-50.

6. Orlov A.i. Rezultatele de bază ale teoriei matematice a clasificării // Rețeaua poliatică Jurnalul științific al Universității Agrar State Kuban. 2015. № 110. P. 219-239.

7. Orlov A.i. Metode matematice ale teoriei clasificării // Rețeaua polimată Rețeaua științifică electronică a Universității Agrar State Kuban. 2014. Nr. 95. P. 23 - 45.

8. Terekhina A.Yu. Analiza acestor metode de scalare multidimensională. -M.: Science, 1986. 168 p.

9. Perekrest V. T. Analiza tipologică neliniară a informațiilor socio-economice: metode matematice și computaționale. - l.: Știință, 1983. 176 p.

10. Tyurin Yu.N., Litvak B.g., Orlov A.i., Satarov G.A., Smerling D.S. Analiza informațiilor nevalide. M.: Consiliul științific al Academiei de Științe a URSS asupra problemei complexe "Cybernetics", 1981. - 80 s.

11. Orlov A.i. O viziune generală a statisticilor obiectelor non-naturale // Analiza informațiilor non-informative în studiile sociologice. - M.: ȘTIINȚĂ, 1985. S.58-92.

12. Orlov A.i. Distribuția limită a unei estimări a numărului de funcții de bază în regresie // Analiza statistică multidimensională aplicată. Oamenii de știință privind statisticile, T.33. - M.: ȘTIINȚĂ, 1978. P.380-381.

13. Orlov A.i. Evaluarea dimensiunii modelului în regresie // algoritmică și software pentru analiza statistică aplicată. Oamenii de știință pentru statistici, T.36. - M.: ȘTIINȚĂ, 1980. P.92-99.

14. Orlov A.i. Asimptotice ale unor estimări ale dimensiunii modelului în regresie // statistici aplicate. Oamenii de știință pentru statistici, T.35. - M.: ȘTIINȚĂ, 1983. P.260-265.

15. Orlov A.i. La evaluarea laboratorului de regresie polinom //. Diagnosticarea materialelor. 1994. T.60. № 5. P.43-47.

16. Orlov A.i. Unele întrebări de clasificare probabilistică // statistici aplicate. Oamenii de știință pentru statistici, T.35. - M.: ȘTIINȚĂ, 1983. C.166-179.

17. Orlov A.i. Privind elaborarea statisticilor obiectelor nonnumerice // Proiectarea experimentelor și analiza datelor: noi tendințe și rezultate. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.i. Metode de reducere a dimensiunii // Apendicele 1 la carte: Tolstova Yu.N. Elementele de bază ale scalării multidimensionale: tutorial pentru universități. - M.: Editorul CDU, 2006. - 160 p.

19. Orlov A.i. Asimptotica problemelor statistice extreme // Analiza datelor non-numerice în studiile de sistem. Colecția de muncitori. Vol. 10. - M.: Institutul de Cercetare al Sistemului All-Union, 1982. P. 412.

20. Orlov A.i. Modelarea organizațională și economică: Tutorial: în 3 ore. Partea 1: Statistici non-state. - M.: Editura MSTU. ANUNȚ Bauman. - 2009. - 541 p.

21. Lutsenko E.v. Analiza automată a sistemului-cognitiv în gestionarea obiectelor active (teoria sistemului și aplicarea acesteia în studiul sistemelor economice, socio-psihologice, tehnologice și organizaționale și tehnice): monografia (publicarea științifică). -SRASNODAR: KUBGU. 2002. - 605 p. http://elibrary.ru/item.asp?id\u003d18632909.

1. Orlov A.i. Tocki Rosta Statisticikih Metodov // Politematheskij setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agraarnogo Universita. 2014. № 103. S. 136-162.

2. Kraskal DZH. Vzaimosvjaz "Mezhdu Mnogomernym Shkalirovaniem I Klaster-Analizom // Klassifikacija i Klaster .: Mir, 1980. S.20-41.

3. Kruskal J.B., dorință M. Scalarea multidimensională // Sage University Hartie Series: Aplicații calitative în științele sociale. 1978. №11.

4. Harman G. Sovremennyj Faktornyj Analiz. M.: STATISTIKA, 1972. 489 S.

5. Orlov A.i. Zametki Po Teoriii Klassifikacii. / Sociologija: Metodologija, Metody, Matematheskie Modeli. 1991. Nr. 2. S.28-50.

6. Orlov A.i. Bazovye rezul "Taty Matematheskoj Teorii Klassifikacii // Politematheskij Setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrarnogo Universiteta 2015. № 110. S. 219-239.

7. Orlov A.i. Matematheskie Mediu Teorie Klassifikacii // Politematheskij setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrannogo Universita. 2014. № 95. S. 23 - 45.

8. Terehina a.ju. Analiz Dannyh Metodami Mnogomernogo Shkalirovanija. - M.: Nauka, 1986. 168 S.

9. Perekrest V.T. NelineJnyj Tipologicheskij Analiz Social "No-Jekonomicheskoj Informația: Matematheskie i Vychislitel" Nye Meody. - L.: Nauka, 1983. 176 S.

10. TJURIN JU.N., LITVAK B.G., Orlov A.i., Satarov G.A., Shmerling D.S. Analiz Nechislovoj Informația. M.: Nauchnyj Sovet Un SSRS PO Kompleksnoj Probleme "Kibernetika", 1981. - 80 s.

11. Orlov A.i. OBSHHIJ VZGLJAD NA STATISTIKU OB # EKTOV NECHISLOVOJ PRIODY // Analiz Nechislojoj informacii / sociologicheskih isdledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.i. Predede "NOE RAPREDLENIE ODNOJ ONKIJ CHISLA Bazisnyh Funkcij v Regresii // Prikladnoj mnogomernyj statisticikij analiz. UCHENYE ZAPISKI PO Statistica, T.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.i. Ocenka Razmernosti Modeli v Regresii // AlgoritMicheskoe i Programmnoe obespechnie prikladnogo statisticikogo analiza. UCHENYE ZAPISKI PO Statistica, T.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.i. Asimptotika Nekotoryh Ocenok Razmernosti Modeli v Regresii // Prikladnaja Statistika. UCHENYE ZAPISKI PO Statistica, T.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.i. OB OCENIVANII REGSONIONNOGO POLINOMA // ZAVODSKAJA Laboratorija. Diagnetika Materialov. 1994. T.60. № 5. S.43-47.

16. Orlov A.i. Nekotorye Verojatnostnye VoproSy Teorii Klassifikacii // Prikladnaja Statistika. UCHENYE ZAPISKI PO Statistica, T.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.i. Privind elaborarea statisticilor obiectelor nonnumerice // Proiectarea experimentelor și analiza datelor: noi tendințe și rezultate. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.i. METODY SNIZHENIJA RAZMERNOSTI // prilozhenie 1 k knilometru: Tolstova ju.n. Osnovy Mnogomernogo Shkalirovanija: Uchebnoe Posobie Dlja Vuzov. - M.: Izdatel "STVO KDU, 2006. - 160 S.

19. Orlov A.i. Asimptotika reshenij jekstremal "NYH Statisticikih Zadach // Analiz Nechislovyh Dannyh v Sbornknyh Issdovanija Sbornik Trudov Vyp.10 -... m.: VSEOJUZNYJ NAUCHNO-ISSDEDODEL" SKIJ Institut Sistemnyh Issdovanij, 1982. S. 4-12.

20. Orlov A.i. Organizație-Jekonomicheskoe Modelirovanie: Uchebnik: V 3 Ch. CHAST "1: NECHISLOVAJA STATISTIKA. - M.: IZD-VO MGTU IM. N.JE. BAUMANA. - 2009. - 541 s.

21. LUCENNKO E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob # ektami (sistemnaja teorija informácií i ee primenenie v issledovanii jekonomicheskih, sociale „no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdanie) - Krasnodar :. KubGAU 2002. -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

Ca urmare a studiului materialului capitolului 5, elevul trebuie:

știi

  • Concepte de bază și sarcini de dimensiune inferioară:
  • Abordări pentru rezolvarea problemei transformării spațiului caracteristic;

a fi capabil să

  • Utilizați metoda componentei principale pentru tranziția la caracteristicile ortogonale standardizate;
  • Evaluați reducerea informativă a datelor atunci când o scădere a dimensiunii spațiului de caracteristici;
  • Rezolvați problema construirii scalelor multidimensionale optime pentru cercetarea obiectelor;

proprii

  • Metode de reducere a dimensiunii pentru a rezolva sarcinile aplicate de analiză statistică;
  • Abilitățile de interpretare a variabilelor într-un spațiu semne transferat.

Concepte de bază și sarcini de dimensiune inferioară

La prima vedere, cu atât mai multe informații despre obiectele studiului sub forma unui set de caractere care caracterizează semnele lor vor fi folosite pentru a crea un model, cu atât mai bine. Cu toate acestea, cantitatea excesivă de informații poate duce la o scădere a eficacității analizei datelor. Există chiar și termenul "blestem de dimensiune" Blestem de dimensionalitate), caracterizând problemele de lucru cu date foarte produse. Cu necesitatea de a reduce dimensiunea într-o singură formă sau alta, soluția este asociată cu diferite probleme statistice.

Caracteristicile non-informative reprezintă o sursă suplimentară de zgomot și afectează acuratețea evaluării parametrilor modelului. În plus, seturile de date cu un număr mare de caracteristici pot conține grupuri de variabile corelate. Prezența unor astfel de semne de semne înseamnă duplicarea informațiilor care pot distorsiona specificația modelului și pot afecta calitatea parametrilor săi. Cu cât este mai mare dimensiunea datelor, cu atât volumul calculelor în timpul procesării lor algoritmice.

Două direcții se pot distinge în reducerea dimensiunii spațiului caracteristic pe principiul variabilelor utilizate pentru aceasta: selectarea semnelor de la setul sursă existentă și formarea de noi caracteristici prin transformarea datelor inițiale. În cazul ideal, reprezentarea abreviată a datelor trebuie să aibă dimensiunea corespunzătoare dimensiunii, datelor inerente intern. Dimensionalitate intrinsecă.

Căutarea celor mai informative caracteristici care caracterizează fenomenul studiat este o direcție evidentă de reducere a dimensiunii problemei care nu necesită transformarea variabilelor sursă. Acest lucru vă permite să faceți un model mai compact și să evitați pierderile asociate cu efectul de interferență al caracteristicilor reduse-informative. Selectarea caracteristicilor informative este găsirea celui mai bun subset al multor variabile sursă. Criteriile conceptului de "cele mai bune" pot fi fie cele mai înalte modele de calitate pentru o anumită dimensiune a spațiului caracteristica, fie cea mai mică dimensiune a datelor la care este posibil modelul calității specificate.

O soluție directă la sarcina de a crea cel mai bun model este asociată cu bustul tuturor combinațiilor posibile de semne, care este de obicei excesiv de laborioasă. Prin urmare, de regulă, acestea recurg la o selecție directă sau inversă a semnelor. În procedurile de selecție directă, se face o adăugare secvențială de variabile din setul original pentru a obține calitatea dorită a modelului. În algoritmii reducerii consecvente ale spațiului original al caracteristicilor (selecție inversă), există o eliminare treptată a variabilelor cele mai puțin informative la reducerea permisă a conținutului de informații al modelului.

Ar trebui să se țină cont de faptul că informativitatea semnelor este relativă. Selecția ar trebui să asigure informativitatea ridicată a setului de caracteristici și nu totalul informativ al componentelor variabilelor sale. Astfel, prezența corelației între semne reduce informativitatea lor generală datorită duplicării informațiilor comune acestora. Prin urmare, adăugarea unei noi caracteristici deja selectate asigură o creștere a informativității în măsura în care conține informații utile care lipsesc în variabilele selectate anterior. Cea mai simplă este situația selecției semnelor ortogonale reciproc, în care algoritmul de selecție este foarte simplu: variabilele se clasifică pe informativitate, iar compoziția primelor semne în acest clasament este utilizată, ceea ce asigură informativitatea specificată.

Metoda limitată de metode de selecție pentru reducerea dimensiunii spațiului este asociată cu presupunerea prezenței imediate a semnelor necesare în datele sursă, care este de obicei incorectă. O abordare alternativă a reducerii dimensiunii prevede conversia caracteristicilor într-un set redus de variabile noi. Spre deosebire de selecția semnelor originale, formarea unui nou spațiu caracteristică implică crearea de noi variabile, care sunt de obicei funcții ale semnelor sursă. Aceste variabile observate direct sunt adesea numite ascunse, sau latent. În procesul de creare, aceste variabile pot fi dotate cu diverse proprietăți utile, cum ar fi ortogonalitatea. În practică, semnele inițiale sunt de obicei interconectate, prin urmare transformarea spațiului lor la ortogonal generează noi coordonate, în care nu există niciun efect de duplicare a informațiilor despre obiectele studiate.

Afișarea obiectelor într-un nou spațiu caracteristic ortogonal creează capacitatea de a prezenta vizual utilitatea fiecărui semne din punctul de vedere al diferențelor dintre aceste obiecte. În cazul în care coordonatele noii baze sunt aranjate de dispersia care caracterizează gama de valori pe ele pentru observațiile luate în considerare, devine imposibilitate evidentă din punct de vedere practic al unor caracteristici cu variabile mici, deoarece obiectele de pe aceste caracteristici sunt practic indistinguizabil în comparație cu diferențele lor pe mai multe variabile informative. Într-o astfel de situație, putem vorbi despre așa-numita degenerare a spațiului inițial de la k. Variabile și dimensiunea reală a acestui spațiu t. poate fi mai puțin sursă (m< k.).

Reducerea spațiului caracteristicilor este însoțită de o anumită scădere a informațiilor privind datele, dar nivelul de reducere admisibilă poate fi determinat în avans. Selectarea caracteristicilor este proiectarea unui set de variabile sursă într-un spațiu de dimensiune mai mic. Comprimarea spațiului de caracteristici la două-tridimensionale poate fi utilă pentru vizualizarea datelor. Astfel, procesul de formare a unui nou spațiu de caracteristici duce, de obicei, la un set mai mic de variabile cu adevărat informative. Pe baza lor, un model mai bun poate fi construit ca pe baza unui număr mai mic de caracteristici cele mai informative.

Formarea de noi variabile bazate pe sursă este utilizată pentru analiza semantică latentă, comprimarea datelor, clasificarea și recunoașterea imaginilor, creșterea vitezei și eficienței proceselor de învățare. Datele comprimate sunt de obicei aplicate la analiza și modelarea ulterioară.

Una dintre aplicațiile importante de transformare a spațiului caracteristic și reduce dimensiunea este de a construi categorii latente sintetice bazate pe semnele măsurate de semne. Aceste semne latente pot caracteriza caracteristicile specifice ale fenomenului care integrează proprietățile private ale obiectelor observate, ceea ce ne permite să construim indicatori integrați de diferite niveluri de generalizare a informațiilor.

Rolul metodelor de reducere a spațiului de caracteristici în studiul problemei duplicării informațiilor în semnele inițiale, ceea ce duce la "umflarea" dispersiei estimărilor modelelor de regresie, este esențială. Tranziția la noi, în cazul ideal, variabile ortogonale și substanțial interpretate, este un mijloc eficient de modelare în condițiile multicollinearității datelor sursă.

Transformarea spațiului de caracteristici inițiale în ortogonală este convenabilă pentru a rezolva sarcinile de clasificare, deoarece face posibilă aplicarea în mod rezonabil anumite măsuri de proximitate sau diferențe de obiecte, cum ar fi distanța euclidană sau pătratul distanței euclidane. În analiza de regresie, construcția ecuației de regresie pe componentele principale permite rezolvarea problemei multicollinearității.

  • În statistici, teoria învățării și informațiilor, reducerea dimensiunii este de a transforma datele constând în reducerea numărului de variabile prin primirea principalelor variabile. Conversia poate fi împărțită în selecția de caracteristici și selectarea caracteristicilor.

Concepte conectate

Menționat în literatură

- Date de intrare și preprocesare - aspectul manual și automat al stimulului (selectarea zonelor de interes), - algoritm pentru calcularea matricei de reprezentare succesor, - construirea unei tabele de date extinse cu valorile variabilelor de intrare necesare pentru analiza ulterioară - metodă dimensiune redusă Spații spațiale (metoda componentei principale); - vizualizarea încărcăturilor componente pentru a selecta componenta interpretabilă - algoritmul de învățare a copacului de soluții, este un algoritm pentru evaluarea capacității predictive a copacului, - vizualizarea copacului de soluții.

Concepte legate (continuare)

Tehnicile de grupare spectrale utilizează spectrul (valorile proprii) ale matricei de similaritate a datelor pentru a reduce dimensiunea înainte de gruparea în spații mai mici. Matricea de similitudine este furnizată ca intrare și constă în estimări cantitative ale similitudinii relative a fiecărei perechi de puncte din date.

Metodele spectrale sunt o clasă de tehnician utilizat în matematica aplicată pentru o soluție numerică a unor ecuații diferențiale, este posibil să se implice transformarea rapidă Fourier. Ideea constă în realizarea ecuațiilor diferențiale de rezolvare a recensământului ca suma unor "funcții de bază" (de exemplu, deoarece seria Fourier sunt suma sinusoidului), apoi selectați coeficienții în cantitate pentru a satisface cât mai mult ecuația diferențială.

Analiza matematică (analiza matematică clasică) este un set de secțiuni de matematică corespunzătoare secțiunii istorice sub denumirea "Analiza infinit de mici", combină calculul diferențial și integral.

Evoluția diferențială (Eng. Differențial Evolution) - Metoda de optimizare matematică multidimensională legate de clasa algoritmilor de optimizare stochastică (adică funcționează folosind numere aleatorii) și folosind unele idei de algoritmi genetici, dar, spre deosebire de ele, nu necesită muncă cu Variabile în cod binar.

Metoda elementului discret (DEM, din metoda elementului discret) este o familie de metode numerice destinate calculării mișcării unui număr mare de particule, cum ar fi moleculele, pietrișul, pietrișul, pietricelele și alte medii granulate. Metoda a fost aplicată inițial cundall în 1971 pentru a rezolva problemele de mecanică rock.

Scopul studiului:

Evaluarea eficacității metodologiei de reducere a dimensiunii datelor pentru a optimiza aplicarea lor în practica de recunoaștere (identificare).

Sarcini de cercetare:

1. O prezentare generală a surselor literare privind metodele existente pentru reducerea dimensiunii datelor.

2. Efectuarea de cercetări (experimente) pentru a compara eficacitatea algoritmilor de reducere a datelor aplicate în practică în sarcinile de clasificare

Metode de cercetare (software):

C ++ Limba de programare, Biblioteca OpenCV

Percepția datelor cu dimensiuni mari pentru o persoană este dificilă și, uneori, este imposibilă. În acest sens, destul de natural a fost dorința de a trece de la un eșantion multidimensional la datele unei dimensiuni mici, astfel încât "ei ar putea să se uite la ele", să evalueze și să utilizeze, inclusiv pentru a atinge sarcinile de recunoaștere. În plus față de vizibilitate, reducerea dimensiunii vă permite să scăpați de factori (informații) care interferează cu analiza statistică, extinzând timpul de colectare a informațiilor, creșterea dispersiei estimărilor parametrilor și caracteristicilor distribuțiilor.

Reducerea dimensiunii este transformarea datelor sursă cu o dimensiune mare într-o nouă reprezentare a unei dimensiuni mai mici, care menține informații de bază. În cazul perfect, dimensiunea reprezentării convertite corespunde dimensiunii interne a datelor. Dimensiunea datelor interne este numărul minim de variabile necesare pentru a exprima toate proprietățile posibile de date. Un model analitic, construit pe baza unor date multiple reduse, ar trebui să fie mai ușor de prelucrare, implementare și înțelegere decât modelul construit pe setul sursă.

Decizia privind alegerea unei metode de reducere a dimensiunii se bazează pe cunoașterea caracteristicilor sarcinii care sunt rezolvate și rezultatele așteptate, precum și resursele limitate și resursele computaționale. Conform recenzii literare, cele mai frecvent utilizate metode de reducere a dimensiunii includ analisul principal al componentelor (PCA), analisii independenți (ICA) și descompunerea de valoare singulară (SVD).

Analiza componentei principale (PCA) - cea mai ușoară metodă de reducere a dimensiunii datelor. Este utilizat pe scară largă pentru a converti semnele, reducând în același timp dimensiunea datelor în sarcinile de clasificare. Metoda se bazează pe proiecția datelor către un nou sistem de coordonate de o dimensiune mai mică, care este determinată de vectorii proprii și de numerele proprii ale matricei. Din punct de vedere al matematicii, metoda principală a componentelor este o transformare liniară ortogonală.

Ideea principală a metodei este de a calcula valorile proprii și a eigenvectoarelor din matricea de covariance a datelor pentru a minimiza dispersia. Matricea de covariance este utilizată pentru a determina împrăștierea în raport cu media relativă unul față de celălalt. Covariance de două variabile aleatorii (dimensiuni) - măsura dependenței lor liniare:

În cazul în care - așteptarea matematică a valorii aleatorie a lui X, - așteptarea matematică a variabilei aleatorie y. De asemenea, putem scrie formula (1) sub forma:

unde - media x, unde - media Y, N este dimensionalitatea datelor.

După calcularea vectorilor săi și a numerelor proprii, valorile lor sunt sortate în ordine descrescătoare. Astfel, componentele sunt obținute pentru a reduce semnificația. Vector propriu cu cel mai mare număr natural și este componenta principală a setului de date. Principalele componente sunt obținute prin înmulțirea rândurilor de la vectorii proprii pe valori proprii sortate. Pentru a găsi spațiul optim de o dimensiune mai mică, formula (3) este utilizată, ceea ce calculează eroarea minimă între setul sursă de date și următorul criteriu:

În cazul în care P este dimensiunea spațiului nou, N este dimensiunea eșantionului original, - valoroase, - prag. În timpul funcționării algoritmului, obținem o matrice cu date MP, convertită liniar din Mn, după care PCA găsește o mapare liniară M, o funcție de estimare minimizantă:

în cazul în care - distanța euclideană între puncte și, - distanța euclidiană între puncte și, . Minimul acestei funcții estimate poate fi calculat prin efectuarea unei descompuneri spectrale a matricei gram și multiplicând vectorul propriu al acestei matrice la rădăcina de la valori proprii.

Analiza componentelor independente ( ICa. ) , Spre deosebire de PCA, suficient de nou, dar câștigând rapid metoda de popularitate. Se bazează pe ideea unei transformări liniare a datelor în componente noi, care sunt cele mai independente din punct de vedere statistic și opțional ortogonale unul față de celălalt. Pentru cercetarea în această lucrare, algoritmul FASTASTIC a fost selectat, descris în detaliu în articol. Principalele sarcini ale acestei metode sunt centrul (scăderea media a datelor) și "albire" (conversia liniară a vectorului x într-un vector cu coordonate necorelate a căror dispersie este egală cu una).

Criteriul de independență din Fastica este non-Geasura, care este măsurat utilizând coeficientul excese:

Pentru variabilele aleatorie Gaussian, această valoare este zero, astfel încât FASTASTA maximizează valoarea acestuia. Dacă - datele "albite", apoi matricea de covarianie a datelor "albite" este o singură matrice.

O astfel de transformare este întotdeauna posibilă. Metoda populară de "albire" utilizează descompunerea spectrală a matricei de covarianțe , în cazul în care - matricea ortogonală a vectorilor săi, A este o matrice diagonală a numerelor proprii,. Se pare că "albire" poate fi reprezentată ca:

În cazul în care matricea este calculată de operațiunea pomoponentă:

Experimente

Pentru studiul experimental al metodelor propuse, a fost utilizată o secvență video bazată pe dicționar din baza de date Casia Gait. Baza conține secvențele de imagini binare corespunzătoare cadrelor individuale ale secvenței video pe care a fost deja făcută alocarea obiectelor în mișcare.

Dintre toate numeroasele videoclipuri, 15 clase au fost luate în mod aleatoriu, în care unghiul de împușcare este de 90 de grade, oamenii sunt descriși în haine obișnuite non-iarnă și fără saci. În fiecare clasă au fost 6 secvențe. Lungimea fiecărei secvențe a fost de cel puțin 60 de cadre. Clasele au fost împărțite în eșantioane de învățare și de testare de câte 3 secvențe fiecare.

Caracteristicile obținute ca urmare a metodelor PCA și ICA au fost utilizate pentru a studia clasificatorul, care în lucrarea de față a fost vectorii de sprijin (mașini vectoriale de sprijin, SVM).

Pentru a determina calitatea metodei metodei, a fost estimată acuratețea clasificării, definită ca fiind proporția obiectelor clasificate corect. În timpul experimentului, timpul petrecut în modul de instruire și testare a fost, de asemenea, fixat.

Figura 1. (a) Componenta principală (PCA) b) Metoda componentă independentă (ICA)

Figura 1 (a, b) prezintă relația dintre precizia de clasificare din valoarea dimensiunii de ieșire a datelor după conversie. Se poate observa că în PCA acuratețea clasificării cu o creștere a numărului de componente variază ușor și când se utilizează ICA, precizia pornind de la o anumită valoare, începe să cadă.

Figura 2. Dependența timpului de clasificare pe numărul de componente dar) PCA. b) ICa.

Figura 2 (a, b) prezintă dependența timpului de clasificare pe numărul de componente PCA și ICA. Creșterea dimensiunii în ambele cazuri a fost însoțită de o creștere liniară a timpului de procesare. Graficele arată că clasificatorul SVM a lucrat mai repede după scăderea dimensiunii utilizând metoda componentă principală (PCA).

Metodele principale de analiză a componentelor (PCA), analisele componente independente (ICA) au funcționat destul de repede și cu anumiți parametri rezultate ridicate au fost obținute în sarcina de clasificare. Dar, cu date cu o structură complexă, aceste metode nu vă permit întotdeauna să atingeți rezultatul dorit. Prin urmare, metodele locale neliniare plătesc din ce în ce mai mult la proiecția datelor pe unele varietăți, ceea ce face posibilă păstrarea structurii de date.

În viitor, este planificată extinderea atât a listei de algoritmi utilizați pentru a forma o descriere a caracteristicilor, cât și o listă de metode de clasificare utilizate. Un alt domeniu important de cercetare pare să reducă timpul de procesare.

Bibliografie:

  1. Jolliffe, I.T, Analiza principală a componentelor, Springer, 2002
  2. Hyvärinen și Erkki OJA, analiză independentă a componentelor: algoritmi și aplicații, rețele neuronale, 13, 2000
  3. Josiński, H. Extragerea caracteristică și clasificarea bazată pe HMM a secvențelor video de mers în scopul identificării umane / Springer, 2013 - Vol 481.