Evaluasi metode untuk mengurangi dimensi data yang digunakan untuk mengonversi aliran video saat mengidentifikasi seseorang. Pengantar Pengurangan Dimensi Pengurangan Dimensi Data

Pengurangan data (pengurangan data)

Dalam teknologi analitis, di bawah penurunan dimensi data, proses transformasi mereka ke dalam formulir paling nyaman untuk analisis dan interpretasi. Biasanya dicapai dengan mengurangi volume mereka, mengurangi jumlah fitur yang digunakan dan keragaman nilai-nilai mereka.

Data yang sering dianalisis tidak lengkap ketika mereka tidak mencerminkan ketergantungan dan pola proses bisnis yang diteliti. Alasan untuk ini mungkin merupakan jumlah pengamatan yang tidak mencukupi, kurangnya tanda-tanda yang mencerminkan sifat-sifat penting objek. Dalam hal ini, pengayaan data diterapkan.

Pengurangan dimensi diterapkan dalam kasus berlawanan ketika data berlebihan. Redundansi terjadi ketika tugas analisis dapat diselesaikan dengan tingkat efisiensi dan akurasi yang sama, tetapi menggunakan dimensi data yang lebih kecil. Ini memungkinkan Anda untuk mengurangi waktu dan biaya komputasi untuk menyelesaikan masalah, membuat data dan hasil analisis mereka lebih ditafsirkan dan dimengerti bagi pengguna.

Mengurangi jumlah pengamatan data diterapkan jika solusi kualitas yang sebanding dapat diperoleh pada sampel yang lebih kecil, korslet, dengan demikian, biaya komputasi dan waktu. Ini terutama berlaku untuk algoritma yang tidak dapat diskalakan ketika bahkan sedikit pengurangan jumlah catatan mengarah pada kenaikan signifikan dalam biaya waktu komputasi.

Pengurangan jumlah fitur masuk akal ketika informasi yang diperlukan untuk solusi kualitatif dari masalah tersebut terkandung dalam beberapa bagian dari tanda dan tidak perlu menggunakan semuanya. Ini terutama berlaku untuk tanda-tanda berkorelasi. Misalnya, menandatangani "usia" dan "pengalaman kerja", pada kenyataannya, membawa informasi yang sama, sehingga salah satu dari mereka dapat dikecualikan.

Cara paling efektif untuk mengurangi jumlah fitur adalah analisis faktor dan metode komponen utama.

Mengurangi keragaman tanda-tanda tanda masuk akal, misalnya, jika keakuratan menyajikan data bersifat berlebihan dan alih-alih nilai riil dapat digunakan sebanyak kualitas model yang memburuk. Tetapi ini akan mengurangi jumlah memori dan biaya komputasi.

Subset data yang diperoleh sebagai akibat dari pengurangan dimensi harus mewarisi dari set asli begitu banyak informasi karena perlu untuk menyelesaikan masalah dengan akurasi yang diberikan, dan biaya komputasi dan waktu untuk mengurangi data tidak akan terdepresiasi diterima darinya.

Model analitik, yang dibangun berdasarkan data berganda yang dikurangi, harus lebih mudah untuk diproses, implementasi dan pemahaman daripada model yang dibangun di set sumber.

Keputusan tentang pilihan metode pengurangan dimensi didasarkan pada pengetahuan apriori tentang fitur-fitur tugas dan hasil yang diharapkan, serta waktu yang terbatas dan sumber daya komputasi.

Kata kunci.

Matematika / Statistik Terapan / Statistik Matematika / Poin Pertumbuhan / Metode komponen utama / ANALISIS FAKTOR / Skala multidimensi / Evaluasi dimensi data / Estimasi dimensi model / Matematika / Statistik Terapan / Statistik Matematika / Poin Pertumbuhan / Analisis Komponen Utama / Analisis Faktor / Scaling Multidimensional / Estimasi Dimensi Model Dimensi Model

anotasi artikel ilmiah dalam Matematika, penulis karya ilmiah - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

Salah satu "poin pertumbuhan" statistik Terapan adalah metode untuk mengurangi dimensi ruang data statistik. Mereka semakin banyak digunakan dalam menganalisis data dalam studi terapan spesifik, misalnya sosiologis. Pertimbangkan metode pengurangan dimensi yang paling menjanjikan. Metode komponen utama Ini adalah salah satu metode dimensi yang paling umum digunakan. Untuk analisis visual data, proyeksi vektor awal pada bidang dua komponen utama pertama sering digunakan. Biasanya, struktur data terlihat jelas, cluster objek kompak dan vektor yang dirilis secara terpisah dibedakan. Metode komponen utama adalah salah satu metode analisis faktor. Ide baru dibandingkan dengan metode komponen utama Itu adalah bahwa atas dasar beban, faktor-faktor dibagi menjadi beberapa kelompok. Dalam satu kelompok, faktor digabungkan, memiliki efek yang sama pada elemen-elemen basis baru. Kemudian dari setiap kelompok disarankan untuk meninggalkan satu perwakilan. Kadang-kadang, alih-alih memilih perwakilan, faktor baru dibentuk, yang merupakan pusat bagi kelompok yang dipertimbangkan. Pengurangan dimensi terjadi selama transisi ke sistem faktor yang merupakan perwakilan kelompok. Faktor-faktor yang tersisa dibuang. Pada penggunaan jarak (ukuran kedekatan, perbedaan indikator) antara tanda-tanda dan kelas metode yang luas didasarkan scaling Multidimensional. Gagasan utama metode metode ini adalah untuk mewakili setiap objek dari titik ruang geometris (biasanya dimensi 1, 2 atau 3), koordinat yang berfungsi sebagai nilai faktor tersembunyi (laten), yaitu cukup memadai menggambarkan objek. Sebagai contoh penerapan pemodelan statistik probabilistik dan hasil non-statinis, kami membenarkan konsistensi pengukuran dimensi ruang data di scaling Multidimensionalsebelumnya diusulkan oleh Colromal dari pertimbangan heuristik. Dianggap sejumlah karya penilaian dimensi model (dalam analisis regresi dan dalam teori klasifikasi). Dana informasi tentang algoritma pengurangan dimensi dalam analisis sistem-kognitif otomatis

Topik serupa. karya ilmiah pada matematika, penulis karya ilmiah - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Metode matematika dalam sosiologi selama empat puluh lima tahun

  • Berbagai objek non-alam

  • Evaluasi Parameter: Perkiraan satu langkah lebih disukai untuk estimasi kredibilitas maksimum

  • Statistik Terapan - Statistik dan Perspektif

    2016 / Orlov Alexander Ivanovich
  • Negara dan prospek untuk pengembangan statistik terapan dan teoritis

    2016 / Orlov Alexander Ivanovich
  • Hubungan Teorema Batas dan Metode Monte Carlo

    2015 / Orlov Alexander Ivanovich
  • Pada pengembangan statistik objek non-alam

    2013 / Orlov Alexander Ivanovich
  • Poin Pertumbuhan Metode Statistik

    2014 / Orlov Alexander Ivanovich
  • Tentang instrumen matematika baru yang menjanjikan

    2015 / Orlov Alexander Ivanovich
  • Jarak dalam ruang statistik

    2014 / Orlov Alexander Ivanovich

Salah satu "titik pertumbuhan" statistik terapan adalah metode mengurangi dimensi data statistik. Mereka semakin banyak digunakan dalam analisis data dalam penelitian terapan spesifik, seperti sosiologi. Kami menyelidiki metode yang paling menjanjikan untuk mengurangi dimensi. Komponen utama adalah salah satu metode yang paling umum digunakan untuk mengurangi dimensi. Untuk analisis visual data sering digunakan proyeksi vektor asli pada bidang dua komponen utama pertama. Biasanya struktur data terlihat jelas, menyoroti compact clustsers of objek dan memisahkan vektor yang dialokasikan. Komponen utama adalah salah satu metode analisis faktor. Ide baru analisis faktor dibandingkan dengan metode komponen pokok adalah bahwa, berdasarkan beban, faktor-faktor tersebut pecah menjadi kelompok. Dalam satu kelompok faktor, faktor baru dikombinasikan dengan dampak serupa pada elemen-elemen basis baru. Kemudian setiap kelompok disarankan untuk meninggalkan satu perwakilan. Kadang-kadang, alih-alih pilihan perwakilan dengan perhitungan, faktor baru yang merupakan pusat dari kelompok yang dimaksud. Dimensi yang dikurangi terjadi selama transisi ke faktor sistem, yang merupakan perwakilan kelompok. Faktor-faktor OTER dibuang. Pada penggunaan jarak (ukuran kedekatan, indikator perbedaan) antara fitur dan kelas yang luas berbasis metode penskalaan multidimensi. Gagasan dasar dari metode metode ini adalah untuk menyajikan setiap objek sebagai titik ruang geometris (biasanya dimensi 1, 2, atau 3) yang koordinatnya adalah nilai-nilai faktor yang tersembunyi (laten) yang bergabung untuk memadai. Jelaskan objeknya. Sebagai contoh penerapan pemodelan probabilistik dan statistik dan hasil statistik data non-numerik, kami membenarkan konsistensi penduga dimensi data dalam penskalaan multidimensi, yang sebelumnya diusulkan oleh Kruskal dari pertimbangan heuristik. Kami telah mempertimbangkan sejumlah estimasi dimensi model yang konsisten (dalam analisis regresi dan secara teori klasifikasi). Kami juga memberikan beberapa informasi tentang algoritma untuk mengurangi dimensi dalam analisis sistem-kognitif otomatis

Teks pekerjaan ilmiah pada topik "metode untuk mengurangi dimensi ruang data statistik"

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 Fisika dan Matematika

Metode untuk mengurangi dimensi ruang data statistik

Orlov Alexander Ivanovich.

d.E.N., D.T.N., K.F.-M.N., Profesor

Kode Rinz Brosh: 4342-4994

Moscow State Technical.

universitas. IKLAN Bauman, Rusia, 105005,

Moskow, 2nd Baumanskaya St., 5, [Dilindungi Email]t.

Lutsenko Evgeny Veniaminovich D.N., Ph.D., Profesor Rinz Brosh Kode: 9523-7101 Kuban State Agraria University, Krasnodar, Rusia [Dilindungi Email] Com.

Salah satu "titik pertumbuhan" statistik aplikasi adalah metode untuk mengurangi dimensi ruang data statistik. Mereka semakin banyak digunakan dalam menganalisis data dalam studi terapan spesifik, misalnya sosiologis. Pertimbangkan metode pengurangan dimensi yang paling menjanjikan. Metode komponen utama adalah salah satu metode reduksi dimensi yang paling umum digunakan. Untuk analisis visual data, proyeksi vektor awal pada bidang dua komponen utama pertama sering digunakan. Biasanya, struktur data terlihat jelas, cluster objek kompak dan vektor yang dirilis secara terpisah dibedakan. Metode komponen utama adalah salah satu metode analisis faktor. Gagasan baru dibandingkan dengan metode komponen utama adalah bahwa berdasarkan beban, faktor dibagi menjadi beberapa kelompok. Dalam satu kelompok, faktor digabungkan, memiliki efek yang sama pada elemen-elemen basis baru. Kemudian dari setiap kelompok disarankan untuk meninggalkan satu perwakilan. Kadang-kadang, alih-alih memilih perwakilan, faktor baru dibentuk, yang merupakan pusat bagi kelompok yang dipertimbangkan. Pengurangan dimensi terjadi selama transisi ke sistem faktor yang merupakan perwakilan kelompok. Faktor-faktor yang tersisa dibuang. Pada penggunaan jarak (ukuran kedekatan, perbedaan indikator) antara tanda-tanda dan kelas luas metode penskalaan multidimensi didirikan. Gagasan utama dari kelas metode ini adalah untuk mewakili setiap objek dengan titik ruang geometris (biasanya dimensi 1, 2 atau 3), koordinat yang merupakan nilai faktor tersembunyi (laten), secara agregat , cukup menggambarkan secara memadai

UDC 519.2: 005.521: 633.1: 004.8

Ilmu Fisika dan Matematika

Metode Mengurangi Dimensi Ruang Data Statistik

Orlov Alexander Ivanovich.

Dr.Sci.chon., Dr.Sci.tech., Cand.phys-math.sci.,

Universitas Teknik Negeri Bauman Moskow, Moskow, Rusia

Lutsenko eugeny veniaminovich dr.sci.con., Cand.tech.sci., Profesor RSCI spin-code: 9523-7101

Kuban State Agraria University, Krasnodar, Rusia

[Dilindungi Email] Com.

Salah satu "titik pertumbuhan" statistik terapan adalah metode mengurangi dimensi data statistik. Mereka semakin banyak digunakan dalam analisis data dalam penelitian terapan spesifik, seperti sosiologi. Kami menyelidiki metode yang paling menjanjikan untuk mengurangi dimensi. Komponen utama adalah salah satu metode yang paling umum digunakan untuk mengurangi dimensi. Untuk analisis visual data sering digunakan proyeksi vektor asli pada bidang dua komponen utama pertama. Biasanya struktur data terlihat jelas, menyoroti compact clustsers of objek dan memisahkan vektor yang dialokasikan. Komponen utama adalah salah satu metode analisis faktor. Ide baru analisis faktor dibandingkan dengan metode komponen pokok adalah bahwa, berdasarkan beban, faktor-faktor tersebut pecah menjadi kelompok. Dalam satu kelompok faktor, faktor baru dikombinasikan dengan dampak serupa pada elemen-elemen basis baru. Kemudian setiap kelompok disarankan untuk meninggalkan satu perwakilan. Kadang-kadang, alih-alih pilihan perwakilan dengan perhitungan, faktor baru yang merupakan pusat dari kelompok yang dimaksud. Dimensi yang dikurangi terjadi selama transisi ke faktor sistem, yang merupakan perwakilan kelompok. Faktor-faktor OTER dibuang. Pada penggunaan jarak (ukuran kedekatan, indikator perbedaan) antara fitur dan kelas yang luas berbasis metode penskalaan multidimensi. Gagasan dasar dari metode metode ini adalah untuk menyajikan setiap objek sebagai titik ruang geometris (biasanya dimensi 1, 2, atau 3) yang koordinatnya adalah nilai-nilai faktor yang tersembunyi (laten) yang bergabung untuk memadai. Jelaskan objeknya. Sebagai contoh penerapan pemodelan probabilistik dan statistik dan hasil statistik data non-numerik, kami membenarkan konsistensi penduga

sebuah Objek. Sebagai contoh aplikasi pemodelan statistik probabilistik dan hasil statistik non-non-statistik, kami memperkuat konsistensi pengukuran dimensi ruang data dalam penskalaan multidimensi, yang sebelumnya diusulkan oleh Colromal dari pertimbangan heuristik. Sejumlah pekerjaan pada penilaian dimensi model (dalam analisis regresi dan dalam teori klasifikasi) dipertimbangkan. Dana informasi tentang algoritma pengurangan dimensi dalam analisis sistem-kognitif otomatis

Kata kunci: matematika, statistik terapan, statistik matematika, titik pertumbuhan, metode komponen utama, analisis faktor, penskalaan multidimensi, estimasi dimensi model, estimasi dimensi model

dimensi data dalam penskalaan multidimensi, yang sebelumnya diusulkan oleh Kruskal dari pertimbangan heuristik. Kami telah mempertimbangkan sejumlah estimasi dimensi model yang konsisten (dalam analisis regresi dan secara teori klasifikasi). Kami juga memberikan beberapa informasi tentang algoritma untuk mengurangi dimensi dalam analisis sistem-kognitif otomatis

Kata kunci: matematika, statistik terapan, statistik matematika, titik pertumbuhan, analisis komponen utama, analisis faktor, penskalaan multidimensi, estimasi dimensi model, estimasi dimensi model

1. Perkenalan

Seperti yang sudah dicatat, salah satu "titik pertumbuhan" statistik aplikasi adalah metode mengurangi dimensi ruang data statistik. Mereka semakin banyak digunakan dalam menganalisis data dalam studi terapan spesifik, misalnya sosiologis. Pertimbangkan metode pengurangan dimensi yang paling menjanjikan. Sebagai contoh penerapan pemodelan statistik probabilistik dan hasil non-statistik, kami membenarkan konsistensi ukuran ukuran ruang yang sebelumnya diusulkan oleh Colromic dari pertimbangan heuristik.

Dalam analisis statistik multidimensi, setiap objek dijelaskan oleh vektor, dimensi yang sewenang-wenang (tetapi sama untuk semua objek). Namun, seseorang dapat langsung menganggap hanya data numerik atau titik pada pesawat. Menganalisis akumulasi poin dalam ruang tiga dimensi sudah jauh lebih sulit. Persepsi langsung data dimensi yang lebih tinggi tidak mungkin. Oleh karena itu, cukup alami adalah keinginan untuk pindah dari sampel multidimensi ke data dimensi kecil sehingga "mereka bisa

lihat". Misalnya, seorang pemasar dapat dengan jelas melihat berapa banyak jenis perilaku konsumen (I.E., seberapa besar disarankan untuk mengalokasikan segmen pasar) dan sifat-sifat mana (dengan sifat apa) konsumen di dalamnya.

Selain keinginan untuk kejelasan, ada motif lain untuk mengurangi dimensi. Faktor-faktor dari mana variabel tertarik pada peneliti tidak hanya mengganggu analisis statistik. Pertama, keuangan, sementara, sumber daya personel dihabiskan untuk mengumpulkan informasi tentang mereka. Kedua, bagaimana cara membuktikan, dimasukkannya dalam analisis memperburuk sifat-sifat prosedur statistik (khususnya, meningkatkan dispersi estimasi parameter dan karakteristik distribusi). Karena itu, diinginkan untuk menghilangkan faktor-faktor tersebut.

Saat menganalisis data multidimensi, bukan satu, tetapi banyak tugas, khususnya, memilih variabel independen dan tergantung pada berbagai cara. Oleh karena itu, kami menganggap masalah dimensi berkurang pada kata-kata berikut. Sampel multidimensi Dana. Diperlukan untuk pindah darinya ke totalitas vektor dimensi yang lebih kecil, sambil menyimpan struktur data sumber, jika memungkinkan, tanpa kehilangan informasi yang terkandung dalam data. Tugas ditentukan dalam setiap metode tertentu dari dimensi berkurang.

2. Metode komponen utama

Ini adalah salah satu metode dimensi yang paling umum digunakan. Gagasan utama konsisten dengan deteksi area di mana data memiliki segar terbesar. Biarkan sampel terdiri dari vektor yang sama didistribusikan dengan vektor x \u003d (x (1), x (2), ..., x (n)). Pertimbangkan kombinasi linier

7 (^ (1), x (2) ,., L (n)) \u003d x (1) x (1) + x (2) x (2) + ... + l (n) x (n) .

X2 (1) + x2 (2) + ... + x2 (n) \u003d 1. Di sini, vektor x \u003d (x (1), x (2), ..., x (n)) terletak pada unit bola di ruang p-dimensi.

Dalam metode komponen utama, pertama-tama menemukan arah hamburan maksimum, I.E. Seperti X, di mana dispersi maksimum variabel acak adalah 7 (x) \u003d 7 (x (1), x (2), ..., x (n)). Kemudian vektor x menetapkan komponen utama pertama, dan nilai 7 (x) adalah proyeksi vektor acak x pada sumbu komponen utama pertama.

Kemudian, mengekspresikan ketentuan aljabar linier, pertimbangkan hiperplane dalam ruang p-dimensional, tegak lurus terhadap komponen utama pertama, dan merancang semua elemen sampel pada hyperplane ini. Dimensi hyperplane adalah 1 kurang dari dimensi ruang sumber.

Di hyperplane yang sedang dipertimbangkan, prosedur ini diulang. Itu menemukan arah sebaran terbesar, I.E. Komponen utama kedua. Kemudian hiperplane tegak lurus dengan dua komponen utama pertama diisolasi. Dimensinya adalah 2 kurang dari dimensi ruang sumber. Selanjutnya - iterasi berikutnya.

Dari sudut pandang aljabar linier kita berbicara tentang membangun dasar baru di ruang p-dimensi, yang aths berfungsi sebagai komponen utama.

Dispersi sesuai dengan masing-masing komponen utama baru, kurang dari untuk yang sebelumnya. Biasanya berhenti ketika kurang dari ambang yang ditentukan. Jika dipilih ke komponen utama, ini berarti bahwa dari ruang P-Dimensional, mungkin untuk pergi ke K-Dimensional, I.E. Kurangi dimensi dengan p-ke K, praktis tanpa mendistorsi struktur data sumber.

Untuk analisis visual data, proyeksi vektor awal pada bidang dua komponen utama pertama sering digunakan. Biasanya

struktur data terlihat jelas, cluster objek kompak dan vektor yang dirilis secara terpisah dibedakan.

3. Analisis Faktor

Metode komponen utama adalah salah satu metode analisis faktor. Berbagai algoritma untuk analisis faktor dikombinasikan dengan fakta bahwa di semua dari mereka ada transisi ke dasar baru di ruang n-dimensi awal. Penting adalah konsep "Factor Load" yang digunakan untuk menggambarkan peran faktor sumber (variabel) dalam pembentukan vektor tertentu dari basis baru.

Gagasan baru dibandingkan dengan metode komponen utama adalah bahwa berdasarkan beban, faktor dibagi menjadi beberapa kelompok. Dalam satu kelompok, faktor digabungkan, memiliki efek yang sama pada elemen-elemen basis baru. Kemudian dari setiap kelompok disarankan untuk meninggalkan satu perwakilan. Kadang-kadang, alih-alih memilih perwakilan, faktor baru dibentuk, yang merupakan pusat bagi kelompok yang dipertimbangkan. Pengurangan dimensi terjadi selama transisi ke sistem faktor yang merupakan perwakilan kelompok. Faktor-faktor yang tersisa dibuang.

Prosedur yang dijelaskan dapat dilakukan tidak hanya dengan bantuan analisis faktor. Kita berbicara tentang analisis cluster dari tanda-tanda (faktor, variabel). Untuk membagi tanda-tanda grup, berbagai algoritma analisis cluster dapat diterapkan. Cukup memasuki jarak (ukuran kedekatan, indikator perbedaan) antara tanda-tanda. Biarkan x dan y menjadi dua tanda. Perbedaan D (x, y) di antara mereka dapat diukur menggunakan koefisien korelasi selektif:

di (x, y) \u003d 1 - \\ rn (x, y) \\, d2 (x, y) \u003d 1 - \\ pn (x, y) \\, di mana rn (x, y) adalah koefisien korelasi linear pearson selektif , PN (x, y) adalah koefisien selektif dari korelasi sungai spirme.

4. Penskalaan multidimensi.

Pada penggunaan jarak (ukuran kedekatan, perbedaan indikator) d (x, y) antara tanda-tanda X dan U, kelas luas metode penskalaan multidimensional didasarkan. Gagasan utama metode metode ini adalah untuk mewakili setiap objek dari titik ruang geometris (biasanya dimensi 1, 2 atau 3), koordinat yang berfungsi sebagai nilai faktor tersembunyi (laten), yaitu cukup memadai menggambarkan objek. Pada saat yang sama, hubungan antara objek digantikan oleh hubungan antara titik - perwakilan mereka. Jadi, data tentang kemiripan objek - jarak antara titik, data tentang keunggulan - lokasi timbal balik poin.

5. Masalah menilai dimensi sebenarnya dari ruang faktor

Dalam praktik menganalisis data sosiologis, sejumlah model penskalaan multidimensi yang berbeda digunakan. Dalam semua itu, masalah menilai dimensi sebenarnya dari ruang faktor. Pertimbangkan masalah ini pada contoh pemrosesan data pada kesamaan objek menggunakan penskalaan metrik.

Biarkan ada n objek 0 (1), o (2), ..., o (n), untuk setiap pasangan benda 0 (/), o (j), ukuran kesamaan mereka (IJ) diberikan . Kami percaya bahwa selalu S (i, j) \u003d s (j, i). Asal mula angka S (IJ) tidak masalah untuk menggambarkan operasi algoritma. Mereka dapat diperoleh dengan pengukuran langsung, atau menggunakan ahli, atau dengan menghitung kombinasi karakteristik deskriptif, atau entah bagaimana sebaliknya.

Di ruang Euclidean, objek N yang sedang dipertimbangkan harus diwakili oleh konfigurasi N poin, dan jarak Euclidean D (I, J) muncul sebagai ukuran kedekatan poin

antara titik-titik yang sesuai. Tingkat kesesuaian antara serangkaian objek dan kombinasi poin mereka ditentukan dengan membandingkan matriks kesamaan || i (,) || dan jarak fungsionalitas SM-metrik kesamaan

i \u003d £ | * (/,]) - th (/, m

Konfigurasi geometris harus dipilih sehingga fungsionalnya mencapai nilai terkecilnya.

Komentar. Dalam penskalaan nonethenetik, alih-alih kedekatan kedekatan dan jarak itu sendiri, kedekatan orderlio pada serangkaian langkah-langkah kedekatan dan serangkaian jarak yang sesuai dipertimbangkan. Alih-alih fungsional S, analog koefisien peringkat korelasi Roh dan Kendalla digunakan. Dengan kata lain, penskalaan non-metrik berasal dari asumsi bahwa langkah-langkah kedekatan diukur dalam skala ordinal.

Biarkan ruang Euclidean menjadi dimensi t. Pertimbangkan setidaknya kesalahan tengah persegi

di mana minimum diambil dalam semua konfigurasi poin yang memungkinkan di ruang T-Merne Euclidean. Dapat ditunjukkan bahwa minimum yang dimaksud dicapai pada beberapa konfigurasi. Jelas bahwa dengan pertumbuhan T, nilai pada berkurang secara monoton (lebih tepatnya, itu tidak meningkat). Dapat ditunjukkan bahwa pada T\u003e P - 1 sama dengan 0 (jika - metrik). Untuk meningkatkan kemungkinan interpretasi yang bermakna, diinginkan untuk bertindak dalam ruang yang mungkin lebih sedikit dimensi. Namun, pada saat yang sama, dimensi harus dipilih sehingga poin mewakili objek tanpa distorsi besar. Pertanyaan muncul: bagaimana cara secara rasional memilih dimensi ruang, I.E. Nomor alami t?

6. Model dan metode untuk memperkirakan dimensi ruang data

Sebagai bagian dari analisis deterministik data jawaban yang masuk akal untuk pertanyaan ini, tampaknya tidak. Oleh karena itu, perlu untuk mempelajari perilaku dalam model probabilistik tertentu. Jika kedekatan S (IJ) adalah nilai acak, distribusi yang tergantung pada m0 "dimensi benar" (dan mungkin dari parameter lain), maka dalam gaya statistik matematika klasik, untuk mengatur tugas M0, untuk mencari penilaian kaya dan lain-lain

Mari kita mulai membangun model probabilistik. Kami akan berasumsi bahwa objek adalah titik di ruang Euclidean dimensi hingga, di mana cukup besar. Fakta bahwa "dimensi sejati" sama dengan M0, berarti bahwa semua poin ini terletak pada hyperplane dari dimensi m0. Kami menerima kepastian bahwa set poin yang dipertimbangkan adalah sampel distribusi normal melingkar dengan dispersi O (0). Ini berarti bahwa objek 0 (1), 0 (2), ..., O (n) independen dalam agregat vektor acak, yang masing-masing dibangun sebagai

Z (1) E (1) + z (2) E (2) + ... + Z (m0) E (m0), di mana E (1), E (2), ..., E (M0) - dasar ortonormal di subruang dimensi m0, di mana titik yang dipertimbangkan dalam pertimbangan, dan z (1), z (2), z (m0) independen dalam variabel acak normal satu dimensi agregat dengan harapan matematika 0 dan dispersi o (0).

Pertimbangkan dua model untuk mendapatkan kedekatan (IJ). Dalam hal pertama ini, S (IJ) berbeda dari jarak Euclidean antara titik-titik yang sesuai karena fakta bahwa poin diketahui distorsi. Biarkan dengan (1), dengan (2), ..., c (n) - poin yang sedang dipertimbangkan. Kemudian

s (i, j) \u003d d (c (i) + e (i), c (j) + s (/)), ij \u003d 1, 2, ..., n, ..., n, ...

di mana Y adalah jarak Euclidean antara titik-titik dalam ruang pengukuran, vektor E (1), E (2), ..., E (P) adalah sampel distribusi normal melingkar dari ruang pengukuran dengan nol ekspektasi matematika dan matriks kovarians pada (1) /, di mana i-a -edite matriks. Dengan kata lain,

e (0 \u003d P (1) E (1) + P (2) E (2) + ... + c (k) di (k), di mana E (1), e (2), ... e (k) - dasar ortonormal dalam ruang pengukuran, dan [c ^^), i \u003d 1, 2, ..., p,? \u003d 1, 2, ..., k) adalah seperangkat independen dalam agregat variabel acak satu dimensi dengan nol ekspektasi matematika dan dispersi O (1).

Dalam model distorsi kedua dipaksakan langsung ke jarak itu sendiri:

Kch) \u003d th (f \\ s)) + £ (uh dan \u003d 1, 2., n, i f j,

di mana dan, dan pada interval pertama, itu berkurang lebih cepat dari pada yang kedua. Dari sini ia mengikuti statistik itu

m * \u003d arg minam + 1 - 2am + an-x)

ini adalah penilaian kaya dari dimensi sebenarnya m0.

Jadi, dari teori probabilistik menyiratkan rekomendasi - sebagai perkiraan dimensi ruang faktorial untuk menggunakan t *. Perhatikan bahwa rekomendasi seperti itu dirumuskan sebagai heuristik salah satu pendiri penskalaan multidimensi oleh J. Kraskal. Dia melanjutkan dari pengalaman penggunaan praktis penskalaan multidimensi dan eksperimen komputasi. Teori probabilistik memungkinkan untuk membenarkan rekomendasi heuristik ini.

7. Evaluasi dimensi model

Jika kemungkinan himpunan himpunan tanda membentuk keluarga yang memperluas, misalnya, tingkat polinomial diperkirakan, wajar untuk memperkenalkan istilah "dimensi model" (konsep ini sebagian besar mirip dengan dimensi ruang data dalam skala multidimensi). Penulis artikel ini memiliki sejumlah pekerjaan pada evaluasi dimensi model, yang disarankan untuk dibandingkan dengan pekerjaan pada estimasi dimensi ruang data, dibahas di atas.

Pekerjaan pertama yang dilakukan oleh penulis artikel ini selama perjalanan ke Prancis pada tahun 1976. Satu penilaian dimensi model dalam regresi dipelajari di dalamnya, yaitu, penilaian tingkat polinomial di bawah asumsi bahwa ketergantungan dijelaskan oleh polinomial. Perkiraan ini dikenal dalam literatur, tetapi kemudian menjadi keliru untuk menghubungkan kepada penulis artikel ini, yang hanya mempelajari sifat-sifatnya, khususnya, menemukan bahwa itu tidak kaya, dan menemukan batasnya distribusi geometris. Yang lain, perkiraan kaya tentang dimensi model regresi diusulkan dan dipelajari dalam artikel. Siklus ini menyelesaikan pekerjaan yang berisi sejumlah penyempurnaan.

Publikasi ekstrem tentang hal ini mencakup diskusi tentang hasil mempelajari kecepatan konvergensi dalam batas teorema yang diperoleh Monte Carlo.

Mirip dengan metodologi untuk memperkirakan dimensi model dalam masalah campuran pemisahan (bagian dari teori klasifikasi) dipertimbangkan dalam artikel.

Perkiraan di atas dari dimensi model dalam penskalaan multidimensi dipelajari dalam pekerjaan. Dalam karya yang sama, perilaku batas karakteristik metode komponen utama (menggunakan teori asimptotik perilaku keputusan dari masalah statistik ekstrem).

8. Algoritma pengurangan dimensi dalam analisis sistem-kognitif otomatis

Sistem otomatis-analisis kognitif (ASC-analisis) juga diusulkan dalam sistem EIDOS, metode lain dari dimensi berkurang diimplementasikan. Ini dijelaskan dalam pekerjaan di bagian 4.2 "Deskripsi algoritma operasi kognitif dasar analisis sistem (BKOS)" dan 4,3 "algoritma BKOS terperinci (Analisis Ask)". Mari kita memberikan deskripsi singkat tentang dua algoritma - BKOS-4.1 dan BKOS-4.2.

BKOSA-4.1. "Abstraksi Faktor (Mengurangi Dimensi Ruang Semantik Faktor)"

Dengan menggunakan metode perkiraan berurutan (algoritma berulang), pada kondisi batas tertentu, dimensi ruang atribut berkurang tanpa penurunan volumenya yang signifikan. Kriteria untuk menghentikan proses iteratif adalah untuk mencapai salah satu kondisi batas.

BKOS-4.2. "Abstraksi kelas (penurunan dimensi ruang semantik kelas)"

Menggunakan metode perkiraan berurutan (algoritma berulang), dalam kondisi batas tertentu, ukuran ruang kelas berkurang tanpa pengurangan volumenya yang signifikan. Kriteria untuk menghentikan proses iteratif adalah untuk mencapai salah satu kondisi batas.

Berikut ini semua algoritma nyata yang diimplementasikan dalam sistem EIDOS versi yang diimplementasikan pada saat persiapan kerja (2002): http: //c.kubagro .ru / aidos / aidos02 / 4.3 .htm

Esensi algoritma adalah sebagai berikut.

1. Jumlah informasi dihitung dalam nilai-nilai transisi objek ke status yang sesuai dengan kelas.

2. Menghitung nilai nilai faktor untuk diferensiasi objek berdasarkan kelas. Nilai ini hanyalah variabilitas informatif dari nilai-nilai faktor (ukuran kuantitatif variabilitas banyak: deviasi rata-rata dari rata-rata, rata-rata penyimpangan kuadratik, dll.) Dengan kata lain, jika dalam nilai faktor rata-rata, ada sedikit informasi tentang memiliki dan bukan milik objek ke kelas, maka nilai ini tidak terlalu berharga, dan jika banyak yang berharga.

3. Menghitung nilai skala deskriptif untuk diferensiasi objek berdasarkan kelas. Dalam karya E.V. Lutsenko sekarang dilakukan sebagai rata-rata dari nilai-nilai gradasi skala ini.

4. Kemudian pengoptimalan pass dari nilai-nilai faktor dan skala deskriptif dilakukan:

Nilai-nilai faktor (Gradasi Penskalaan Deskriptif) berada di peringkat dalam urutan penurunan nilai dan dihapus dari model yang paling tidak berharga, yang pergi ke kanan kurva pareto 45 °;

Faktor-faktor (skala deskriptif) peringkat dalam urutan nilai yang menurun dan dihapus dari model yang paling tidak berharga, yang pergi ke kanan 45 ° kurva pass.

Akibatnya, dimensi ruang yang dibangun pada skala deskriptif berkurang secara signifikan dengan menghilangkan timbangan yang berkorelasi di antara mereka sendiri, yaitu. Intinya, itu adalah ruang ortonormaling dalam metrik informasi.

Proses ini dapat diulang, I.E. Menjadi berulang, sedangkan dalam versi baru sistem "eidos" iterasi mulai secara manual.

Demikian pula, ruang informasi kelas dihilangkan.

Skala dan gradasi dapat berupa angka (maka nilai interval diproses), dan mungkin juga merupakan teks (ordinal atau bahkan nominal).

Dengan demikian, dengan bantuan algoritma BKOS (Ask analisis), dimensi ruang berkurang secara maksimal dengan hilangnya informasi minimum.

Untuk menganalisis data statistik dalam statistik terapan, sejumlah algoritma reduksi dimensi lain telah dikembangkan. Tugas dari artikel ini tidak termasuk deskripsi seluruh manifold dari algoritma tersebut.

literatur

1. Orlov A.I. Poin Pertumbuhan Metode Statistik // Polygraph Network Electronic Scientific Journal of the Kuban State Agraria University. 2014. No. 103. P. 136-162.

2. Paint J. Hubungan antara penskalaan multidimensi dan analisis cluster // klasifikasi dan cluster. M.: Mir, 1980. C.20-41.

4. Harman G. analisis faktor modern. M.: Statistik, 1972. 489 p.

5. Orlov A.I. Catatan tentang teori klasifikasi. / Sosiologi: Metodologi, Metode, Model Matematika. 1991. No. 2. C.28-50.

6. Orlov A.I. Hasil Dasar Teori Matematika Klasifikasi // Jaringan Polimatik Jurnal Ilmiah Elektronik Universitas Agraria Kuban. 2015. № 110. P. 219-239.

7. Orlov A.I. Metode matematika Teori Klasifikasi // Jaringan Polimatis Elektronik Jurnal Ilmiah Universitas Agraria Kuban. 2014. No. 95. P. 23 - 45.

8. Terekhina A.Yu. Analisis metode penskalaan multidimensi ini. -M.: Sains, 1986. 168 p.

9. Perekrest V. T. Analisis Typological Analisis Sosial-Ekonomi: Metode matematika dan komputasi. - L.: Sains, 1983. 176 p.

10. Tyurin Yu.n., Litvak B.G., Orlov A.I., Satarov G.A., Smerling D.S. Analisis informasi yang tidak valid. M.: Dewan Ilmiah Akademi Ilmu Pengetahuan Uni Soviet pada masalah kompleks "Cybernetics", 1981. - 80 p.

11. Orlov A.I. Pandangan umum statistik objek non-alam // analisis informasi non-informasi dalam studi sosiologis. - M.: Sains, 1985. S.58-92.

12. Orlov A.I. Batas distribusi satu estimasi jumlah fungsi dasar dalam regresi // analisis statistik multidimensi yang diterapkan. Ilmuwan pada statistik, T.33. - M.: Sains, 1978. P.380-381.

13. Orlov A.I. Penilaian dimensi model dalam regresi // algoritmik dan perangkat lunak untuk analisis statistik yang diterapkan. Ilmuwan untuk Statistik, T.36. - M.: Sains, 1980. hal.92-99.

14. Orlov A.I. Asimtots dari beberapa perkiraan dimensi model dalam regresi // statistik terapan. Ilmuwan untuk statistik, T.35. - M.: Sains, 1983. hal.260-265.

15. Orlov A.I. Pada penilaian laboratorium regresi Polynomial //. Diagnosis bahan. 1994. T.60. № 5. P.43-47.

16. Orlov A.I. Beberapa pertanyaan teori klasifikasi probabilistik // statistik yang diterapkan. Ilmuwan untuk statistik, T.35. - M.: Sains, 1983. C.166-179.

17. Orlov A.I. Pada pengembangan statistik objek nonnumerik // desain eksperimen dan analisis data: tren dan hasil baru. - m.: Antal, 1993. R.52-90.

18. Orlov A.I. Metode pengurangan dimensi // Lampiran 1 ke buku: Tolstova Yu.n. Dasar-dasar penskalaan multidimensi: tutorial untuk universitas. - m.: Penerbit CDU, 2006. - 160 p.

19. Orlov A.I. Asimtotik dari masalah statistik ekstrem // analisis data non-numerik dalam studi sistem. Koleksi buruh. Vol. 10. - M.: All-Union Research Institute of System Research, 1982. P. 412.

20. Orlov A.I. Pemodelan Organisasi dan Ekonomi: Tutorial: Dalam 3 jam. Bagian 1: Statistik non-saham. - m.: Penerbitan rumah MSTU. IKLAN Bauman. - 2009. - 541 p.

21. Lutsenko E.V. Sistem-sistem otomatis-kognitif dalam pengelolaan objek aktif (Teori Sistem Informasi dan penerapannya dalam studi sistem ekonomi, sosial-psikologis, teknologi dan organisasi dan teknis): Monograph (publikasi ilmiah). -Sasnodar: Kubgu. 2002. - 605 p. http://elibrary.ru/item.asp?id\u003d18632909.

1. Orlov A.I. Tochki Rosta Statisticheskih Metodov // Politematicheskij Setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrararnogo Universita. 2014. № 103. S. 136-162.

2. DZH KRONKAL. Vzaimosvjaz "Mezhdu Mnogomernym Shkalirovaniem I Klaster-analisis // Klassifikacija I Klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimensial Scaling // Sage University Paper Series: Aplikasi kualitatif dalam Ilmu Sosial. 1978. №11.

4. Harman G. sovremennyj faktornyj analiz. M.: Statistik, 1972. 489 s.

5. Orlov A.I. Zametki Po Teorii Klassifikacii. / Sociologija: Metodologija, Metody, Matematicheskie Modeli. 1991. No. 2. S28-50.

6. Orlov A.I. Bazovye Rezul "Taty Matematicheskoj Teorii Klassifikacii // Politematicheskij Setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrarnogo Universiteta. 2015. № 110. S. 219-239.

7. Orlov A.I. Matematicheskie Metody Teorii Klassifikacii // Politematicheskij Setevoj Jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrannogo Universita. 2014. № 95. S. 23 - 45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - m.: Nauka, 1986. 168 s.

9. PEREKREST V.T. NelineJnyJ Tipologicheskij Analiz Sosial "No-Jekonomicheskoj Informacii: Matematicheskie I vychislitel" NYE Metody. - l.: Nauka, 1983. 176 s.

10. Tjurin Ju.n., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analisis Nechislovoj Informacii. M.: NAUCHNYJ SOVET AN SSSR PO KOMPLEKSNOJ Masalahe "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob # ektov nechislovoj prirody // analiz nechislovoj informaci v sociologicheskih isslidovanijah. - m.: Nauka, 1985. S.58-92.

12. Orlov A.I. Predel "Noe Raspredlenie Odnoj Ocenki Chisla Bazisnyh Funkcij v Regressii // Prikladnoj Mnogomernyj Statisticheskij Analiz. Uchenye Zapiski PO Statistik, T.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Ocenka Razmernosti Modeli v Regressii // Algoritmicheskoe I Programmnoe Obespechnie Prikladnogo Statisticheskogo Analiza. Uchenye zapiski po statistik, t.36. - m.: Nauka, 1980. S.92-99.

14. Orlov A.I. ASImptotika Nekotoryh Ocenok Razmernosti Modeli V Regressii // Prikladnaja Statistika. Uchenye zapiski po statistik, t.45. - m.: Nauka, 1983. S.260-265.

15. Orlov A.I. Obr Ocenivanii RegressionNogo Polinoma // Zavodskaja Laboratorija. Material diagnostika. 1994. T.60. № 5. S.43-47.

16. Orlov A.I. Nekotorye VerojatnostNye Voposy Teorii Klassifikacii // Prikladnaja Statistika. Uchenye zapiski po statistik, t.45. - m.: Nauka, 1983. S.166-179.

17. Orlov A.I. Pada pengembangan statistik objek nonnumerik // desain eksperimen dan analisis data: tren dan hasil baru. - m.: Antal, 1993. R.52-90.

18. Orlov A.I. Metody Snizhenija Razmernosti // Prilozhenie 1 K Knige: Tolstova Ju.n. Osnovy mnogomernogo shkalirovanija: uchebnoe posobie dlja vuzov. - m.: Izdatel "Stvo KDU, 2006. - 160 s.

19. Orlov A.I. Asimptotika Reshenij Jekstremal "NYH Statisticheskih Zadach // Analiz Nechislovyh Dannyh V Sistembyh Isslburjah Sbbornik Trudov VYP.10 -... m.: Vsesojuznyj Nauchno-Issledovatel" SKIJ Institut Sistemnyh Issledovanij, 1982. S. 4-12.

20. Orlov A.I. Organisasi-Jekonomicheskoe Modelirovanie: Uchebnik: V 3 Ch. Chast "1: Nechislovaja Statistika. - M.: Izd-vo Mgtu im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj Analiz v upravlenii aktivnymi ob # ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, sosial "no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih Sistem): Monografija (nauchnoe izdanie) - Krasnodar :. KubGAU 2002. -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

Sebagai hasil dari studi materi Bab 5, siswa harus:

tahu

  • Konsep dasar dan tugas dimensi yang lebih rendah:
  • Pendekatan untuk memecahkan masalah transformasi ruang fitur;

mampu untuk

  • Gunakan metode komponen utama untuk transisi ke fitur ortogonal standar;
  • mengevaluasi pengurangan data yang informatif ketika penurunan dimensi ruang fitur;
  • Memecahkan masalah membangun skala multidimensi yang optimal untuk meneliti objek;

sendiri

  • Metode untuk mengurangi dimensi untuk menyelesaikan tugas-tugas terapan analisis statistik;
  • Keterampilan interpretasi variabel dalam rambu yang diubah.

Konsep dasar dan tugas dimensi yang lebih rendah

Pada pandangan pertama, semakin banyak informasi tentang objek penelitian dalam bentuk serangkaian karakter yang mengkarakterisasi tanda-tanda mereka akan digunakan untuk membuat model, semakin baik. Namun, jumlah informasi yang berlebihan dapat menyebabkan penurunan efektivitas analisis data. Bahkan ada istilah "kutukan dimensi" Kutukan dimensionalitas), mengkarakterisasi masalah bekerja dengan data produk yang sangat tinggi. Dengan kebutuhan untuk mengurangi dimensi dalam satu bentuk atau yang lain, solusinya dikaitkan dengan berbagai masalah statistik.

Fitur non-informatif adalah sumber kebisingan tambahan dan mempengaruhi keakuratan penilaian parameter model. Selain itu, set data dengan sejumlah besar fitur dapat berisi kelompok variabel berkorelasi. Kehadiran tanda-tanda tanda-tanda tersebut berarti duplikasi informasi yang dapat mengubah spesifikasi model dan mempengaruhi kualitas parameternya. Semakin tinggi dimensi data, semakin tinggi volume perhitungan selama pemrosesan algoritmik mereka.

Dua arah dapat dibedakan dalam mengurangi dimensi ruang fitur pada prinsip variabel yang digunakan untuk ini: pemilihan tanda-tanda dari set sumber yang ada dan pembentukan fitur baru dengan transformasi data awal. Dalam kasus ideal, representasi data yang disingkat harus memiliki dimensi yang sesuai dengan dimensi, data yang melekat secara internal. Dimensi intrinsik.

Pencarian fitur paling informatif yang mengkarakterisasi fenomena yang dipelajari adalah arah yang jelas untuk mengurangi dimensi masalah yang tidak memerlukan transformasi variabel sumber. Ini memungkinkan Anda untuk membuat model lebih kompak dan menghindari kerugian yang terkait dengan efek interfering dari fitur informatif rendah. Pemilihan fitur informatif adalah untuk menemukan subset terbaik dari banyak variabel sumber. Kriteria konsep "yang terbaik" dapat menjadi pemodelan kualitas tertinggi untuk dimensi tertentu dari ruang fitur, atau dimensi terkecil dari data di mana model kualitas yang ditentukan dimungkinkan.

Solusi langsung untuk tugas menciptakan model terbaik dikaitkan dengan bust semua kemungkinan kombinasi tanda, yang biasanya berlebihan. Oleh karena itu, sebagai aturan, mereka menggunakan untuk mengarahkan atau membalikkan pemilihan tanda. Dalam prosedur seleksi langsung, penambahan variabel berurutan dari set asli dibuat untuk mencapai kualitas model yang diinginkan. Dalam algoritma pengurangan yang konsisten dari ruang fitur asli (pemilihan terbalik), ada penghapusan bertahap dari variabel paling informatif terhadap pengurangan yang diizinkan dalam konten informasi model.

Harus diingat bahwa informatitas tanda-tanda itu relatif. Seleksi harus memastikan informatitas tinggi dari serangkaian fitur, dan bukan informatif total dari komponen variabelnya. Dengan demikian, adanya korelasi antara tanda-tanda mengurangi informatitas mereka secara keseluruhan karena duplikasi informasi yang umum bagi mereka. Oleh karena itu, tambahkan fitur baru untuk dipilih memastikan peningkatan informativitas sejauh itu berisi informasi yang berguna yang hilang dalam variabel yang dipilih sebelumnya. Yang paling sederhana adalah situasi dari pemilihan tanda-tanda ortogonal yang saling ortogonal, di mana algoritma seleksi sangat sederhana: variabel-variabel tersebut diperingkat informatik, dan komposisi tanda-tanda pertama dalam peringkat ini digunakan, yang memastikan informativitas yang ditentukan.

Metode seleksi yang terbatas untuk mengurangi dimensi ruang dikaitkan dengan asumsi kehadiran langsung dari tanda-tanda yang diperlukan dalam data sumber, yang biasanya salah. Pendekatan alternatif untuk pengurangan dimensi menyediakan konversi fitur menjadi serangkaian variabel baru. Berbeda dengan pemilihan tanda-tanda asli, pembentukan ruang fitur baru melibatkan pembuatan variabel baru, yang biasanya merupakan fungsi dari tanda-tanda sumber. Variabel-variabel ini yang diamati secara langsung sering disebut tersembunyi, atau terpendam. Dalam proses pembuatan, variabel-variabel ini dapat diberkahi dengan berbagai sifat yang berguna, seperti ortogonality. Dalam praktiknya, tanda-tanda awal biasanya saling terkait, oleh karena itu transformasi ruang mereka ke ortogonal menghasilkan koordinat baru, di mana tidak ada efek duplikat informasi tentang objek yang diteliti.

Tampilan objek dalam ruang fitur ortogonal baru menciptakan kemampuan untuk menyajikan kegunaan secara visual dari masing-masing tanda-tanda dari sudut pandang perbedaan antara objek-objek ini. Jika koordinat basis baru diatur dengan dispersi mengkarakterisasi kisaran nilai pada mereka untuk pengamatan yang dipertimbangkan, menjadi ketidakmungkinan yang jelas dari sudut pandang praktis beberapa fitur dengan variabel kecil, karena objek pada fitur-fitur ini praktis tidak dapat dibedakan dibandingkan dengan perbedaan mereka pada variabel yang lebih informatif. Dalam situasi seperti itu, kita dapat berbicara tentang apa yang disebut degenerasi ruang fitur awal dari k. variabel dan dimensi nyata dari ruang ini t. mungkin lebih sedikit sumber (m< k.).

Pengurangan ruang fitur disertai dengan penurunan informasi data tertentu, tetapi tingkat pengurangan yang diizinkan dapat ditentukan sebelumnya. Pemilihan fitur memproyeksikan satu set variabel sumber ke ruang dimensi yang lebih kecil. Kompresi ruang fitur ke dua-tiga dimensi dapat bermanfaat untuk visualisasi data. Dengan demikian, proses pembentukan ruang fitur baru biasanya mengarah ke set yang lebih kecil dari variabel yang benar-benar informatif. Pada basis mereka, model yang lebih baik dapat dibangun seperti berdasarkan jumlah yang lebih kecil dari fitur yang paling informatif.

Pembentukan variabel baru berdasarkan sumber digunakan untuk analisis semantik laten, kompresi data, klasifikasi dan pengakuan gambar, meningkatkan kecepatan dan efisiensi proses pembelajaran. Data terkompresi biasanya diterapkan pada analisis dan pemodelan lebih lanjut.

Salah satu aplikasi penting untuk transformasi ruang fitur dan mengurangi dimensi adalah untuk membangun kategori laten sintetis berdasarkan tanda-tanda tanda yang diukur. Tanda-tanda laten ini dapat mengkarakterisasi fitur spesifik umum dari fenomena yang mengintegrasikan sifat-sifat pribadi dari objek yang diamati, yang memungkinkan kita untuk membangun indikator terintegrasi dari berbagai tingkat generalisasi informasi.

Peran metode untuk pengurangan ruang fitur dalam studi tentang masalah duplikasi informasi pada tanda-tanda awal, yang mengarah pada "pembengkakan" dispersi estimasi koefisien model regresi, sangat penting. Transisi ke yang baru, dalam kasus ideal, ortogonal dan ditafsirkan secara substantif, variabel adalah cara pemodelan yang efektif dalam kondisi multikolinieritas data sumber.

Transformasi ruang fitur awal ke ortogonal nyaman untuk menyelesaikan tugas klasifikasi, karena memungkinkan untuk secara wajar menerapkan ukuran tertentu dari kedekatan atau perbedaan dalam objek, seperti jarak Euclidean atau kuadrat dari jarak Euclidean. Dalam analisis regresi, konstruksi persamaan regresi pada komponen utama memungkinkan untuk menyelesaikan masalah multikolinieritas.

  • Dalam statistik, pembelajaran mesin dan teori informasi, pengurangan dimensi adalah untuk mengkonversi data yang terdiri dalam mengurangi jumlah variabel dengan menerima variabel utama. Konversi dapat dibagi menjadi pilihan fitur dan pemilihan fitur.

Konsep yang terhubung

Disebutkan dalam literatur

- Memuat dan memproduksi data input - tata letak manual dan otomatis stimulus (pemilihan zona minat), - algoritma untuk menghitung matriks representasi penerus, - Membangun tabel data yang diperluas dengan nilai-nilai variabel input yang diperlukan untuk analisis selanjutnya - metode dimensi berkurang Ruang ruang (metode komponen utama), - visualisasi muatan komponen untuk memilih komponen yang ditafsirkan - algoritma untuk mempelajari solusi pohon, adalah algoritma untuk menilai kemampuan prediksi pohon, - visualisasi pohon solusi.

Konsep terkait (lanjutan)

Teknik pengelompokan spektral menggunakan spektrum (value eigen) dari matriks kesamaan data untuk mengurangi dimensi sebelum pengelompokan di ruang yang lebih kecil. Matriks kesamaan dipasok sebagai entri dan terdiri dari perkiraan kuantitatif dari kesamaan relatif dari setiap pasangan titik dalam data.

Metode spektral adalah kelas teknisi yang digunakan dalam matematika terapan untuk solusi numerik dari beberapa persamaan diferensial, dimungkinkan untuk melibatkan transformasi fourier cepat. Idenya terdiri dalam persamaan diferensial pemecahan sensus sebagai jumlah dari beberapa "fungsi dasar" (misalnya, karena seri Fourier adalah jumlah sinusoid), dan kemudian memilih koefisien dalam jumlah untuk memenuhi persamaan diferensial sebanyak mungkin.

Analisis matematika (analisis matematika klasik) adalah seperangkat bagian matematika yang sesuai dengan bagian historis dengan nama "Analisis sangat kecil", menggabungkan kalkulus diferensial dan integral.

Evolusi diferensial (ENG. Evolusi Perbedaan) - Metode optimasi matematika multidimensi terkait dengan kelas algoritma optimasi stokastik (yaitu, ini berfungsi menggunakan angka acak) dan menggunakan beberapa ide algoritma genetik, tetapi, tidak seperti pekerjaan dengan mereka, tidak memerlukan pekerjaan dengan variabel dalam kode biner.

Metode elemen diskrit (dem, dari bahasa Inggris. Metode elemen diskrit) adalah keluarga metode numerik yang dimaksudkan untuk menghitung pergerakan sejumlah besar partikel, seperti molekul, kerikil, kerikil, kerikil dan media granulasi lainnya. Metode ini awalnya diterapkan Cundall pada tahun 1971 untuk memecahkan masalah mekanika batuan.

Tujuan penelitian:

Evaluasi efektivitas metodologi pengurangan dimensi data untuk mengoptimalkan aplikasi mereka dalam praktik pengakuan (identifikasi).

Tugas Penelitian:

1. Tinjauan umum sumber sastra pada metode yang ada untuk mengurangi dimensi data.

2. Melakukan penelitian (eksperimen) untuk membandingkan efektivitas algoritma reduksi data yang diterapkan dalam praktik dalam tugas-tugas klasifikasi

Metode Penelitian (Perangkat Lunak):

C ++ Bahasa Pemrograman, Pustaka OpenCV

Persepsi data dimensi tinggi untuk seseorang itu sulit, dan kadang-kadang tidak mungkin. Dalam hal ini, cukup alami adalah keinginan untuk pindah dari sampel multidimensi ke data dimensi kecil sehingga "mereka dapat melihat mereka," mengevaluasi dan menggunakan, termasuk untuk mencapai tugas pengakuan. Selain visibilitas, pengurangan dimensi memungkinkan Anda untuk menyingkirkan faktor (informasi) yang mengganggu analisis statistik, memperpanjang waktu untuk mengumpulkan informasi, meningkatkan dispersi estimasi parameter dan karakteristik distribusi.

Pengurangan dimensi adalah transformasi data sumber dengan dimensi besar dalam representasi baru dari dimensi yang lebih kecil yang memelihara informasi dasar. Dalam kasus yang sempurna, dimensi representasi yang dikonversi sesuai dengan dimensi internal data. Dimensi data internal adalah jumlah minimum variabel yang diperlukan untuk mengekspresikan semua kemungkinan data. Model analitik, yang dibangun berdasarkan data berganda yang dikurangi, harus lebih mudah untuk diproses, implementasi dan pemahaman daripada model yang dibangun di set sumber.

Keputusan tentang pilihan metode reduksi dimensi didasarkan pada pengetahuan tentang fitur-fitur tugas yang diselesaikan dan hasil yang diharapkan, serta waktu yang terbatas dan sumber daya komputasi. Menurut ulasan sastra, metode reduksi dimensi yang paling umum digunakan termasuk analisis komponen utama (PCA), analisis komponen independen (ICA) dan dekomposisi nilai tunggal (SVD).

Analisis komponen utama (PCA) - Metode termudah untuk mengurangi dimensi data. Ini banyak digunakan untuk mengkonversi tanda-tanda sambil mengurangi dimensi data dalam tugas klasifikasi. Metode ini didasarkan pada proyeksi data ke sistem koordinat baru dimensi yang lebih kecil, yang ditentukan oleh vektornya sendiri dan jumlah matriks sendiri. Dari sudut pandang matematika, metode komponen utama adalah transformasi linear ortogonal.

Gagasan utama dari metode ini adalah untuk menghitung nilai eigen dan eigenvektor dari matriks kovarians data untuk meminimalkan dispersi. Matriks kovarians digunakan untuk menentukan pencar relatif terhadap rata-rata relatif satu sama lain. Kovarians dari dua variabel acak (dimensi) - ukuran ketergantungan linear mereka:

di mana - ekspektasi matematika dari nilai acak X, - ekspektasi matematika dari variabel acak y. Kita juga dapat menuliskan formula (1) dalam formulir:

di mana - rata-rata X, di mana - rata-rata y, n adalah dimensi data.

Setelah menghitung vektornya sendiri dan nomor mereka sendiri, nilai-nilai mereka diurutkan dalam urutan menurun. Dengan demikian, komponen diperoleh untuk mengurangi signifikansi. Vektor sendiri dengan angka alami terbesar dan merupakan komponen utama dari kumpulan data. Komponen utama diperoleh dengan mengalikan baris dari vektornya sendiri pada nilai eigen yang diurutkan. Untuk menemukan ruang optimal dimensi yang lebih kecil, rumus (3) digunakan, yang menghitung kesalahan minimum antara serangkaian sumber data dan kriteria berikut:

di mana P adalah dimensi ruang baru, N adalah dimensi sampel asli, - nilai eigen, - ambang batas. Selama pengoperasian algoritma, kami memperoleh matriks dengan data MP, dikonversi secara linear dari MN, setelah itu PCA menemukan pemetaan linear M, fungsi estimasi meminimalkan:

di mana - jarak Euclidean antara titik dan, - jarak euclidean antara titik dan ,, . Minimum yang diperkirakan fungsi ini dapat dihitung dengan melakukan dekomposisi spektral dari matriks gram dan mengalikan vektornya sendiri dari matriks ini ke akar dari nilai eigen yang sesuai.

Analisis komponen independen ( ICA. ) , Tidak seperti PCA, cukup baru, tetapi dengan cepat mendapatkan metode popularitas. Ini didasarkan pada gagasan transformasi data linear menjadi komponen baru, yang paling mandiri secara statistik dan secara opsional ortogonal satu sama lain. Untuk penelitian dalam makalah ini, algoritma Fastica dipilih, dijelaskan secara rinci dalam artikel. Tugas utama dari metode ini adalah pemusatan (pengurangan rata-rata data) dan "pemutihan" (konversi linear dari vektor X menjadi vektor dengan koordinat yang tidak berkorelasi yang diservisnya sama dengan satu).

Kriteria Kemerdekaan di Fastica adalah non-Geasura, yang diukur menggunakan koefisien ekses:

Untuk variabel acak Gaussian, nilai ini nol, jadi fastica memaksimalkan nilainya. Jika - "memutihkan" data, maka matriks kovarians data "bleached" adalah matriks tunggal.

Transformasi semacam itu selalu memungkinkan. Metode populer "Bleaching" menggunakan dekomposisi spektral dari matriks kovarians , di mana - matriks ortogonal vektornya sendiri, A adalah matriks diagonal dari angka sendiri,. Ternyata "pemutihan" dapat diwakili sebagai:

di mana matriks dihitung oleh operasi pomopon:

Eksperimen.

Untuk studi eksperimental dari metode yang diusulkan, urutan video berbasis kamus dari basis data CASIA GAITAL digunakan. Basis berisi urutan gambar biner yang sesuai dengan frame individu dari urutan video di mana alokasi objek bergerak telah dibuat.

Dari semua video, 15 kelas diambil secara acak, di mana sudut penembakan adalah 90 derajat, orang digambarkan pada pakaian non-musim dingin biasa dan tanpa tas. Di setiap kelas ada 6 urutan. Panjang setiap urutan setidaknya 60 frame. Kelas dibagi menjadi pembelajaran dan uji sampel 3 urutan masing-masing.

Fitur yang diperoleh sebagai hasil dari metode PCA dan ICA digunakan untuk mempelajari classifier, yang dalam pekerjaan ini adalah vektor dukungan (Mendukung Mesin Vektor, SVM).

Untuk menentukan kualitas metode metode, keakuratan klasifikasi diperkirakan, didefinisikan sebagai proporsi objek yang diklasifikasikan dengan benar. Selama percobaan, waktu yang dihabiskan dalam mode pelatihan dan pengujian juga diperbaiki.

Gambar 1. (a) Metode Komponen Utama (PCA) b) Metode Komponen Independen (ICA)

Gambar 1 (A, b) menyajikan hubungan akurasi klasifikasi dari nilai dimensi output data setelah konversi. Dapat dilihat bahwa dalam PCA akurasi klasifikasi dengan peningkatan jumlah komponen sedikit bervariasi, dan ketika menggunakan ICA, akurasi mulai dari nilai tertentu, mulai turun.

Gambar 2. Ketergantungan waktu klasifikasi pada jumlah komponen tapi) PCA. b) ICA.

Gambar 2 (a, b) menyajikan ketergantungan waktu klasifikasi pada jumlah komponen PCA dan ICA. Pertumbuhan dimensi dalam kedua kasus disertai dengan peningkatan linear dalam waktu pemrosesan. Grafik menunjukkan bahwa Classifier SVM bekerja lebih cepat setelah menurunkan dimensi menggunakan metode komponen utama (PCA).

Metode Analisis Komponen Utama (PCA), Analisis Komponen Independen (ICA) bekerja dengan cepat dan dengan parameter tertentu hasil tinggi diperoleh dalam tugas klasifikasi. Tetapi dengan data dengan struktur yang kompleks, metode ini tidak selalu memungkinkan Anda untuk mencapai hasil yang diinginkan. Oleh karena itu, metode nonlinier lokal semakin memperhatikan proyeksi data pada beberapa varietas, yang memungkinkan untuk melestarikan struktur data.

Di masa depan, direncanakan untuk memperluas daftar algoritma yang digunakan untuk membentuk deskripsi fitur dan daftar metode klasifikasi yang digunakan. Bidang penelitian penting lainnya tampaknya mengurangi waktu pemrosesan.

Bibliografi:

  1. Jolliffe, I.T, Analisis Komponen Utama, Springer, 2002
  2. Hyvärinen dan Erkki Oja, Analisis Komponen Independen: Algoritma dan Aplikasi, Jaringan Saraf, 13, 2000
  3. Josiński, H. Ekstraksi Fitur dan klasifikasi berbasis HMM dari urutan video gaya berjalan untuk tujuan identifikasi manusia / Springer, 2013 - vol 481.