მონაცემების განზომილების შემცირების მეთოდების შეფასება პირის იდენტიფიცირებისას ვიდეო ნაკადის გარდაქმნისთვის. მონაცემთა განზომილების განზომილების შემცირების შემცირება

მონაცემთა შემცირება (მონაცემთა შემცირება)

ანალიტიკურ ტექნოლოგიებში მონაცემების განზომილებაში მცირდება, მათი ტრანსფორმაციის პროცესი ყველაზე მოსახერხებელია ანალიზისა და ინტერპრეტაციისთვის. ეს, როგორც წესი, მიღწეულია მათი მოცულობის შემცირებით, მათი ღირებულებების მრავალფეროვნების რაოდენობის შემცირებით.

ხშირად გაანალიზებულია მონაცემები არასრულია, როდესაც ისინი ცუდად ასახავს შესწავლილი ბიზნეს პროცესის დამოკიდებულებებსა და ნიმუშებს. ამის მიზეზები შეიძლება იყოს დაკვირვების არასაკმარისი რაოდენობა, ნიშნების ნაკლებობა, რომელიც ასახავს ობიექტების არსებითი თვისებების ასახავს. ამ შემთხვევაში, მონაცემების გამდიდრება გამოიყენება.

განზომილების შემცირება გამოიყენება საპირისპირო შემთხვევაში, როდესაც მონაცემები გადაჭარბებულია. Redundancy ხდება მაშინ, როდესაც ანალიზის ამოცანა შეიძლება მოგვარდეს იმავე დონეზე ეფექტურობისა და სიზუსტით, მაგრამ მცირე მონაცემების განზომილების გამოყენებით. ეს საშუალებას გაძლევთ შეამციროთ პრობლემის მოგვარების დრო და გამოთვლითი ხარჯები, მონაცემების გაკეთება და მათი ანალიზის შედეგები უფრო ინტერპრეტირებული და გასაგებია მომხმარებლისთვის.

მონაცემთა დაკვირვების რაოდენობის შემცირება გამოიყენება იმ შემთხვევაში, თუ შედარებითი ხარისხის გადაწყვეტა შეიძლება მიღებული მცირე ნიმუშზე, შემცირდეს, რითაც, ამით, გამოთვლითი და დროის ხარჯები. ეს განსაკუთრებით ეხება ალგორითმებს, რომლებიც არ არის მასშტაბური, როდესაც ჩანაწერების რაოდენობის უმნიშვნელო შემცირებაც კი იწვევს გამოთვლილ ხარჯებს.

მახასიათებლების რაოდენობის შემცირება აზრიანია, როდესაც პრობლემის ხარისხობრივი ხსნარისთვის აუცილებელი ინფორმაცია შეიცავს ნიშნების ზოგიერთ სუბსტრშს და არ არის აუცილებელი, გამოიყენოთ ისინი ყველა. ეს განსაკუთრებით შეესაბამება კორელაციულ ნიშნებს. მაგალითად, "ასაკი" და "სამუშაო გამოცდილება", ფაქტობრივად, იგივე ინფორმაცია, ასე რომ, ერთ-ერთი მათგანი გამორიცხულია.

თვისებების შემცირების ყველაზე ეფექტური საშუალება წარმოადგენს ძირითადი კომპონენტის ფაქტორების ანალიზს და მეთოდს.

ნიშნების ნიშნების მრავალფეროვნების შემცირება აზრი, მაგალითად, თუ მონაცემების წარდგენის სიზუსტე გადაჭარბებულია და რეალური ღირებულებების ნაცვლად შეიძლება გამოყენებულ იქნას მოდელის ხარისხის გაუარესება. მაგრამ ეს შეამცირებს მეხსიერების და კომპიუტერული ხარჯების რაოდენობას.

განზომილების შემცირების შედეგად მიღებული მონაცემების ქვესადგური აუცილებელია იმდენი ინფორმაციის ორიგინალური კომპლექტიდან, რადგან აუცილებელია პრობლემის მოგვარება მოცემულ სიზუსტით და მონაცემთა შემცირების მიზნით, არ უნდა შეამცირონ სარგებელი მიღებული მას.

ანალიტიკური მოდელი, რომელიც აშენდა მრავალჯერადი მონაცემების საფუძველზე, უნდა იყოს ადვილი დამუშავება, განხორციელება და გაგება, ვიდრე წყარო კომპლექტი აშენებული მოდელი.

განზომილების შემცირების მეთოდის არჩევის შესახებ გადაწყვეტილება ეფუძნება პრიორიტეტულ ცოდნას ამოცანებისა და მოსალოდნელი შედეგების შესახებ, ასევე შეზღუდული დროისა და კომპიუტერული რესურსების შესახებ.

საკვანძო სიტყვები

მათემატიკა / გამოყენებითი სტატისტიკა / მათემატიკის სტატისტიკა / ზრდის რაოდენობა / ძირითადი კომპონენტის მეთოდი / ფაქტორი ანალიზი / მრავალგანზომილებიანი მასშტაბი / მონაცემთა განზომილების შეფასება / მოდელის განზომილების შეფასება მეცნიერება / ბიოლოგიის / მათემატიკის / გამოყენებითი სტატისტიკა / მათემატიკური სტატისტიკა / ზრდის რაოდენობა / ძირითადი კომპონენტი ანალიზი / ფაქტორი ანალიზი / მრავალგანზომილებიანი სკალირების / მონაცემთა განზომილების შეფასების / შეფასების მოდელის განზომილების შეფასება

ანოტაცია სამეცნიერო სტატია მათემატიკაში, სამეცნიერო მუშაობის ავტორია - ორლოვ ალექსანდრე ივანოვიჩი, ლუცენკო ევგენი ვენიაინოვიჩი

ერთ-ერთი "ზრდის წერტილები" გამოყენებითი სტატისტიკა არის მეთოდები, რათა შეამციროს სტატისტიკური მონაცემების სივრცის განზომილება. ისინი სულ უფრო მეტად იყენებენ კონკრეტულ გამოყენებულ კვლევაში მონაცემების ანალიზს, მაგალითად, სოციოლოგიური. განვიხილოთ შემცირებული განზომილების ყველაზე პერსპექტიული მეთოდები. ძირითადი კომპონენტის მეთოდი ეს არის ერთ-ერთი ყველაზე ხშირად გამოყენებული განზომილების მეთოდები. მონაცემების ვიზუალური ანალიზისთვის, ხშირად გამოიყენება პირველი ორი ძირითადი კომპონენტის თვითმფრინავზე თავდაპირველი ვექტორების პროგნოზები. როგორც წესი, მონაცემთა სტრუქტურა აშკარად ჩანს, კომპაქტური ობიექტის მტევანი და ცალკე გათავისუფლებული ვექტორი გამოირჩევა. ძირითადი კომპონენტის მეთოდი არის ერთ-ერთი მეთოდი ფაქტორი ანალიზი. ახალი იდეა შედარებით ძირითადი კომპონენტების მეთოდი ეს არის ის, რომ ტვირთის საფუძველზე, ფაქტორები დაყოფილია ჯგუფებად. ერთ ჯგუფში, ფაქტორები კომბინირებულია, ახალი ბაზის ელემენტებზე მსგავსი ეფექტია. შემდეგ თითოეული ჯგუფისგან რეკომენდირებულია ერთი წარმომადგენლის დატოვება. ზოგჯერ, წარმომადგენლის არჩევის ნაცვლად, ახალი ფაქტორი ჩამოყალიბებულია, რაც ცენტრალურია ჯგუფისთვის გათვალისწინებით. განზომილების შემცირება ხდება იმ ფაქტორების სისტემაში, რომლებიც ჯგუფების წარმომადგენლები არიან. დარჩენილი ფაქტორები უგულებელყოფილია. დისტანციების გამოყენების შესახებ (სიახლოვე ღონისძიებები, განსხვავებები მაჩვენებლებს შორის ნიშნებსა და მეთოდების ფართო კლასს ეფუძნება მრავალმხრივი სკალირება. მეთოდის ამ მეთოდის ძირითადი იდეაა გეომეტრიული სივრცის თითოეული ობიექტის (როგორც წესი, განზომილება 1, 2 ან 3), რომელთა კოორდინატები ფარული (ლატენტური) ფაქტორების ღირებულებებად ემსახურება საკმაოდ ადეკვატურად აღწერს ობიექტს. მაგალითად, სტაბილური სტატისტიკური მოდელირებისა და არასახელმწიფო სტატისტიკური მოდელის გამოყენების მაგალითზე, ჩვენ გაასამართლებენ მონაცემთა სივრცის განზომილების გაზომვის თანმიმდევრულობას მრავალმხრივი სკალირებამანამდე შემოთავაზებული Colromal- ის მიერ heuristic მოსაზრებები. ითვლება მთელი რიგი სამუშაოები მოდელების ზომების შეფასება (რეგრესიული ანალიზით და კლასიფიკაციის თეორიაში). დანა ინფორმაცია ავტომატური სისტემის შემეცნებითი ანალიზით განზომილების ალგორითმების შემცირების შესახებ

მსგავსი თემები სამეცნიერო ნაშრომი მათემატიკაზე, სამეცნიერო მუშაობის ავტორია - ორლოვ ალექსანდრე ივანოვიჩი, ლუცენკო ევგენი ვენიაინოვიჩი

  • მათემატიკური მეთოდები სოციოლოგიაში ორმოცი ხუთ წელიწადში

  • არასამთავრობო ბუნების ობიექტების მრავალფეროვნება

  • პარამეტრების შეფასება: ერთი ნაბიჯი შეფასებები სასურველია მაქსიმალური სანდოობის შეფასებით

  • გამოყენებითი სტატისტიკა - სტატისტიკა და პერსპექტივები

    2016 / Orlov ალექსანდრე ივანოვიჩი
  • სახელმწიფო და პერსპექტივები გამოყენებითი და თეორიული სტატისტიკის განვითარებისათვის

    2016 / Orlov ალექსანდრე ივანოვიჩი
  • ლიმიტის თეორემებისა და მონტე კარლოს მეთოდის ურთიერთობა

    2015 / Orlov ალექსანდრე ივანოვიჩი
  • არასამთავრობო ბუნება ობიექტების სტატისტიკის განვითარების შესახებ

    2013 / Orlov ალექსანდრე ივანოვიჩი
  • სტატისტიკური მეთოდების ზრდის რაოდენობა

    2014 / Orlov ალექსანდრე ივანოვიჩი
  • კონტროლის შესახებ ახალი პერსპექტიული მათემატიკური ინსტრუმენტების შესახებ

    2015 / Orlov ალექსანდრე ივანოვიჩი
  • მანძილი სტატისტიკურ სივრცეებში

    2014 / Orlov ალექსანდრე ივანოვიჩი

გამოყენებითი სტატისტიკის ერთ-ერთი "ზრდის" ერთ-ერთი ნაწილი სტატისტიკური მონაცემების განზომილების შემცირების მეთოდებია. ისინი სულ უფრო მეტად იყენებენ კონკრეტულ კვლევაში მონაცემების ანალიზს, როგორიცაა სოციოლოგია. ჩვენ გამოვიკვლიეთ ყველაზე პერსპექტიული მეთოდები, რათა შეამცირონ განზომილება. ძირითადი კომპონენტები ერთ-ერთი ყველაზე ხშირად გამოყენებული მეთოდია განზომილების შესამცირებლად. მონაცემების ვიზუალური ანალიზისთვის ხშირად გამოიყენება ორი ორი ძირითადი კომპონენტის თვითმფრინავზე ორიგინალური ვექტორების პროგნოზები. მონაცემთა სტრუქტურა აშკარად ჩანს, ხაზს უსვამს ობიექტების კომპაქტურ კვარტლებს და ცალკეულ გამოყოფილი ვექტორებს. ძირითადი კომპონენტები ფაქტორების ანალიზის ერთი მეთოდია. ძირითადი კომპონენტების მეთოდის შედარებით ფაქტორების ანალიზის ახალი იდეა ის არის, რომ დატვირთვაზე დაყრდნობით, ფაქტორები ჯგუფებად არღვევს. ფაქტორების ერთ ჯგუფში, ახალი ფაქტორი კომბინირებულია ახალი ბაზის ელემენტებზე. თითოეული ჯგუფი რეკომენდირებულია ერთი წარმომადგენლის დატოვებაზე. ზოგჯერ, წარმომადგენლის არჩევანი გაანგარიშებით, ახალი ფაქტორი, რომელიც ცენტრალურია ჯგუფისთვის. შემცირებული განზომილება ხდება სისტემის ფაქტორების გადასვლისას, რომლებიც ჯგუფების წარმომადგენლები არიან. OTER ფაქტორები გაუქმებულია. მანძილის გამოყენების შესახებ (სიახლოვე ღონისძიებები, განსხვავებების მაჩვენებლები) შორის მახასიათებლები და ფართო კლასი დაფუძნებულია მრავალგანზომილებიანი სკალირების მეთოდებს. მეთოდების ძირითადი იდეა წარმოადგენს თითოეულ ობიექტს, როგორც გეომეტრიული სივრცის წერტილი (როგორც წესი, განზომილება 1, 2, ან 3), რომლის კოორდინატები არის დაფარული (ლატენტური) ფაქტორების ღირებულებები, რომლებიც ადეკვატურად აერთიანებს აღწერეთ ობიექტი. პრობაბრისტული და სტატისტიკური მოდელირების გამოყენების მაგალითზე, არამედ რიცხვითი მონაცემების სტატისტიკის გამოყენების მაგალითზე, ჩვენ გაასამართლებენ მულტივმოვანი სკალირების მონაცემების განზომილების შეფასების თანმიმდევრულობას, რომლებიც ადრე შესთავაზებენ კრუსკალს ჰუმისტული მოსაზრებებისგან. ჩვენ განვიხილეთ მოდელების განზომილების რიგი თანმიმდევრული შეფასება (რეგრესიული ანალიზისა და კლასიფიკაციის თეორიაში). ჩვენ ასევე მივცემთ SEMEFORMATION- ის შესახებ ალგორითმების შესახებ ავტომატური სისტემის შემეცნებითი ანალიზის განზომილების შემცირების მიზნით

სამეცნიერო მუშაობის ტექსტი თემაზე "სტატისტიკური მონაცემების სივრცის განზომილების შემცირების მეთოდები"

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 ფიზიკა და მათემატიკა

სტატისტიკური მონაცემების სივრცის განზომილების შემცირების მეთოდები

ორლოვი ალექსანდრე ივანოვიჩი

d.e.n., d.t.n., k.f.-m.n., პროფესორი

Rinz Brosh კოდი: 4342-4994

მოსკოვის სახელმწიფო ტექნიკური

უნივერსიტეტი. განცხადობა Bauman, რუსეთი, 105005,

მოსკოვი, მე -2 ბაუმანსკაიას ქ., 5, [Email protected]თ.

Lutsenko Evgeny Veniaminovich d.e.n., Ph.d., პროფესორი Rinz Brosh კოდი: 9523-7101 Kuban სახელმწიფო აგრარული უნივერსიტეტი, კრასნოდარი, რუსეთი [Email protected] Com.

განაცხადის სტატისტიკის ერთ-ერთი "ზრდის ქულა" არის სტატისტიკური მონაცემების სივრცის განზომილების შემცირების მეთოდები. ისინი სულ უფრო მეტად იყენებენ კონკრეტულ გამოყენებულ კვლევაში მონაცემების ანალიზს, მაგალითად, სოციოლოგიური. განვიხილოთ შემცირებული განზომილების ყველაზე პერსპექტიული მეთოდები. ძირითადი კომპონენტის მეთოდი ერთ-ერთი ყველაზე გავრცელებული განზომილების შემცირების მეთოდია. მონაცემების ვიზუალური ანალიზისთვის, ხშირად გამოიყენება პირველი ორი ძირითადი კომპონენტის თვითმფრინავზე თავდაპირველი ვექტორების პროგნოზები. როგორც წესი, მონაცემთა სტრუქტურა აშკარად ჩანს, კომპაქტური ობიექტის მტევანი და ცალკე გათავისუფლებული ვექტორი გამოირჩევა. ძირითადი კომპონენტის მეთოდი ფაქტორების ერთ-ერთი მეთოდია. ძირითადი კომპონენტის მეთოდთან შედარებით ახალი იდეა ის არის, რომ დატვირთვების საფუძველზე, ფაქტორები დაყოფილია ჯგუფებად. ერთ ჯგუფში, ფაქტორები კომბინირებულია, ახალი ბაზის ელემენტებზე მსგავსი ეფექტია. შემდეგ თითოეული ჯგუფისგან რეკომენდირებულია ერთი წარმომადგენლის დატოვება. ზოგჯერ, წარმომადგენლის არჩევის ნაცვლად, ახალი ფაქტორი ჩამოყალიბებულია, რაც ცენტრალურია ჯგუფისთვის გათვალისწინებით. განზომილების შემცირება ხდება იმ ფაქტორების სისტემაში, რომლებიც ჯგუფების წარმომადგენლები არიან. დარჩენილი ფაქტორები უგულებელყოფილია. დისტანციების გამოყენებისას (სიახლოვე ზომები, განსხვავებები, განსხვავებები) ნიშნებსა და მრავალგანზომილებიანი სკალირების მეთოდების ფართო კლასს შორის. ამ კლასების მეთოდების ძირითადი იდეა არის თითოეული ობიექტის წარმოდგენა გეომეტრიული სივრცის წერტილზე (როგორც წესი, განზომილება 1, 2 ან 3), რომელთა კოორდინატები არის დაფარული (ლატენტური) ფაქტორების ღირებულებები, საერთო ჯამში , საკმარისად ადეკვატურად აღწერს

UDC 519.2: 005.521: 633.1: 004.8

ფიზიკა და მათემატიკური მეცნიერებები

სტატისტიკური მონაცემების სივრცის განზომილების შემცირების მეთოდები

ორლოვი ალექსანდრე ივანოვიჩი

Dr.sci.chon., Dr.sci.tech, Cand.phys-math.sci.,

ბაუმანი მოსკოვის სახელმწიფო ტექნიკური უნივერსიტეტი, მოსკოვი, რუსეთი

Lutsenko Eugeny veniaminovich dr.sci.con., Cand.Tech.sci., პროფესორი RSCI Spin-Code: 9523-7101

კუბანის სახელმწიფო აგრარული უნივერსიტეტი, კრასნოდარი, რუსეთი

[Email protected] Com.

გამოყენებითი სტატისტიკის ერთ-ერთი "ზრდის" ერთ-ერთი ნაწილი სტატისტიკური მონაცემების განზომილების შემცირების მეთოდებია. ისინი სულ უფრო მეტად იყენებენ კონკრეტულ კვლევაში მონაცემების ანალიზს, როგორიცაა სოციოლოგია. ჩვენ გამოვიკვლიეთ ყველაზე პერსპექტიული მეთოდები, რათა შეამცირონ განზომილება. ძირითადი კომპონენტები ერთ-ერთი ყველაზე ხშირად გამოყენებული მეთოდია განზომილების შესამცირებლად. მონაცემების ვიზუალური ანალიზისთვის ხშირად გამოიყენება ორი ორი ძირითადი კომპონენტის თვითმფრინავზე ორიგინალური ვექტორების პროგნოზები. მონაცემთა სტრუქტურა აშკარად ჩანს, ხაზს უსვამს ობიექტების კომპაქტურ კვარტლებს და ცალკეულ გამოყოფილი ვექტორებს. ძირითადი კომპონენტები ფაქტორების ანალიზის ერთი მეთოდია. ძირითადი კომპონენტების მეთოდის შედარებით ფაქტორების ანალიზის ახალი იდეა ის არის, რომ დატვირთვაზე დაყრდნობით, ფაქტორები ჯგუფებად არღვევს. ფაქტორების ერთ ჯგუფში, ახალი ფაქტორი კომბინირებულია ახალი ბაზის ელემენტებზე. თითოეული ჯგუფი რეკომენდირებულია ერთი წარმომადგენლის დატოვებაზე. ზოგჯერ, წარმომადგენლის არჩევანი გაანგარიშებით, ახალი ფაქტორი, რომელიც ცენტრალურია ჯგუფისთვის. შემცირებული განზომილება ხდება სისტემის ფაქტორების გადასვლისას, რომლებიც ჯგუფების წარმომადგენლები არიან. OTER ფაქტორები გაუქმებულია. მანძილის გამოყენების შესახებ (სიახლოვე ღონისძიებები, განსხვავებების მაჩვენებლები) შორის მახასიათებლები და ფართო კლასი დაფუძნებულია მრავალგანზომილებიანი სკალირების მეთოდებს. მეთოდების ძირითადი იდეა წარმოადგენს თითოეულ ობიექტს, როგორც გეომეტრიული სივრცის წერტილი (როგორც წესი, განზომილება 1, 2, ან 3), რომლის კოორდინატები არის დაფარული (ლატენტური) ფაქტორების ღირებულებები, რომლებიც ადეკვატურად აერთიანებს აღწერეთ ობიექტი. როგორც მაგალითად, პრობაბრისტური და სტატისტიკური მოდელირების მაგალითი და არა რიცხვითი მონაცემების სტატისტიკის შედეგების მაგალითი, ჩვენ გაასამართლებენ შეფასების თანმიმდევრულობას

საგანი. მაგალითად, სტაბილური სტატისტიკური მოდელირების გამოყენების მაგალითზე, არამატერიალური სტატისტიკური სტატისტიკის სტატისტიკური მოდელისა და შედეგების მაგალითზე, ჩვენ დასაბუთებთ მონაცემთა სივრცის განზომილების განზომილების განზომილების განზომილებას, რომელიც ადრეა შემოთავაზებული ჰუმისტული მოსაზრებებისგან. ითვებულ იქნა მოდელების ზომების შეფასების შესახებ (რეგრესიული ანალიზისა და კლასიფიკაციის თეორიაში). დანა ინფორმაცია ავტომატური სისტემის შემეცნებითი ანალიზით განზომილების ალგორითმების შემცირების შესახებ

მათემატიკა, გამოყენებითი სტატისტიკა, მათემატიკური სტატისტიკა, ზრდის წერტილები, ძირითადი კომპონენტის მეთოდი, ფაქტორი ანალიზი, მრავალგანზომილებიანი სკალირების, მონაცემთა განზომილების შეფასება, მოდელის განზომილების შეფასება

მრავალმხრივი მასშტაბის მონაცემების განზომილება, რომლებიც ადრე შემოთავაზებულია კრუსკალიდან ჰუმისტული მოსაზრებებისგან. ჩვენ განვიხილეთ მოდელების განზომილების რიგი თანმიმდევრული შეფასება (რეგრესიული ანალიზისა და კლასიფიკაციის თეორიაში). ჩვენ ასევე მივცემთ SEMEFORMATION- ის შესახებ ალგორითმების შესახებ ავტომატური სისტემის შემეცნებითი ანალიზის განზომილების შემცირების მიზნით

მათემატიკა, გამოყენებითი სტატისტიკა, მათემატიკური სტატისტიკა, მათემატიკური სტატისტიკა, ზრდის წერტილები, ძირითადი კომპონენტის ანალიზი, ფაქტორი ანალიზი, მრავალგანზომილებიანი სკალირება, მონაცემთა განზომილების შეფასება, მოდელის განზომილების შეფასება

1. შესავალი

როგორც უკვე აღინიშნა განაცხადის სტატისტიკის ერთ-ერთი "ზრდის ქულა" სტატისტიკური მონაცემების სივრცის განზომილების შემცირების მეთოდები. ისინი სულ უფრო მეტად იყენებენ კონკრეტულ გამოყენებულ კვლევაში მონაცემების ანალიზს, მაგალითად, სოციოლოგიური. განვიხილოთ შემცირებული განზომილების ყველაზე პერსპექტიული მეთოდები. მაგალითად, სტაბილური სტატისტიკური მოდელირების გამოყენების მაგალითზე და არასახელმწიფო სტატისტიკის შედეგების მაგალითზე, ჩვენ გაასამართლებენ კოლრომიის მიერ შემოთავაზებული სივრცის ზომის ზომის თანმიმდევრულობა.

მრავალმხრივი სტატისტიკური ანალიზით, თითოეული ობიექტი აღწერილია ვექტორით, რომლის განზომილება არის თვითნებური (მაგრამ იგივე ყველა ობიექტისთვის). თუმცა, ადამიანს შეუძლია პირდაპირ აღიქვას მხოლოდ ციფრული მონაცემები ან თვითმფრინავზე. გაანალიზეთ სამგანზომილებიანი სივრცის ქულების დაგროვების ანალიზი უკვე ბევრად უფრო რთულია. მაღალი განზომილების მონაცემების პირდაპირი აღქმა შეუძლებელია. აქედან გამომდინარე, საკმაოდ ბუნებრივია, რომ მულტივმჯერებული ნიმუშის გადაადგილება მცირე ზომის განზომილების მონაცემებისგან, რათა "მათ შეეძლოთ

შეხედე ". მაგალითად, მარკერში ნათლად ჩანს, რამდენი სხვადასხვა სახის სამომხმარებლო ქცევაა (I.E., რამდენად მიზანშეწონილია ბაზრის სეგმენტების გამოყოფა) და რომელი თვისებებია (რა თვისებებით) მომხმარებელთა მომხმარებლები.

სიწმინდის სურვილით, სხვა მოტივებია განზომილების შემცირების მიზნით. ეს ფაქტორები, რომელთაგან გამომდინარე, მკვლელობაში დაინტერესებულია ცვლადი, არა მხოლოდ სტატისტიკურ ანალიზს ერევა. პირველი, ფინანსური, დროებითი, პერსონალის რესურსები იხარჯება მათ შესახებ ინფორმაციის შეგროვებაზე. მეორე, როგორ დავამტკიცოთ, რომ ანალიზში მათი ჩართვა გაუარესდება სტატისტიკური პროცედურების თვისებებზე (კერძოდ, გაზრდის დისტრიბუციის პარამეტრების და დისტრიბუციის მახასიათებლების შეფასებას). ამიტომ, სასურველია ასეთი ფაქტორების მოშორება.

მრავალგანზომილებიანი მონაცემების ანალიზისას, არა ერთი, არამედ ბევრი ამოცანა, კერძოდ, დამოუკიდებელი და დამოკიდებული ცვლადების შერჩევა სხვადასხვა გზით. აქედან გამომდინარე, მიგვაჩნია, რომ შემცირდა განზომილება შემდეგი ფორმულით. დონა მრავალგანზომილებიანი ნიმუში. საჭიროა გადაადგილება მასგან პატარა განზომილების ვექტორების მთლიანობაში, წყაროს მონაცემების სტრუქტურის გადარჩენისას, თუ შესაძლებელია მონაცემების დაკარგვის გარეშე. ამოცანა განისაზღვრება შემცირებული განზომილების თითოეული კონკრეტული მეთოდის მიხედვით.

2. ძირითადი კომპონენტის მეთოდი

ეს არის ერთ-ერთი ყველაზე ხშირად გამოყენებული განზომილების მეთოდები. მთავარი იდეა შეესაბამება იმ ტერიტორიების გამოვლენას, რომელშიც მონაცემები ყველაზე დიდია. მოდით ნიმუში შედგება ვექტორები თანაბრად გადანაწილებული ვექტორი x \u003d (x (1), x (2), ..., x (n)). განვიხილოთ ხაზოვანი კომბინაციები

7 (^ (1), X (2) ,., ლ (1) x (1) x (1) x (2) x (2) + ... + l (n) x (n) .

X2 (1) + x2 (2) + ... + x2 (n) \u003d 1. აქ, ვექტორული x \u003d (x (1), x (2), ..., x (n)) ერთეულში P- განზომილებიანი სივრცის სფეროში.

ძირითადი კომპონენტის მეთოდით, უპირველეს ყოვლისა მოვძებნოთ მაქსიმალური scatter, I.E. ასეთი x, რომლის დროსაც შემთხვევითი ცვლადის მაქსიმალური დისპერსია 7 (x) \u003d 7 (x (1), x (2), ..., X (N)). შემდეგ ვექტორი X ადგენს პირველ მთავარ კომპონენტს და 7 (x) ღირებულება არის პირველი ძირითადი კომპონენტის ღერძზე შემთხვევითი ვექტორების პროექცია.

შემდეგ, ხაზოვანი ალგებრის პირობების გამოხატვა, განვიხილოთ ჰიპერპლონი P- განზომილებიანი სივრცის, პერპენდიკულური პირველი ძირითადი კომპონენტისთვის, და ამ ჰიპერპლანის ნიმუშის ყველა ელემენტის შექმნა. ჰიპერპლენის განზომილება 1-ზე ნაკლებია, ვიდრე წყარო სივრცის განზომილება.

ჰიპერპლანეში გათვალისწინებით, პროცედურა განმეორდება. იგი აღმოაჩენს მიმართულებით ყველაზე დიდი scatter, I.E. მეორე მთავარი კომპონენტი. მაშინ პირველი ორი ძირითადი კომპონენტის ჰიპერპლენური პერპენდიკულარულია იზოლირებული. მისი განზომილება 2 ნაკლებია, ვიდრე წყარო სივრცის განზომილება. შემდეგი - შემდეგი iteration.

ხაზოვანი ალგებრის თვალსაზრისით ჩვენ ვსაუბრობთ ახალი ბაზის მშენებლობის შესახებ P- განზომილებიანი სივრცის მშენებლობაში, რომლის უმრავლესობაც მთავარ კომპონენტებს ემსახურება.

დისპერსია, რომელიც შეესაბამება თითოეულ ახალ ძირითად კომპონენტს, ვიდრე წინა. ჩვეულებრივ შეჩერდება, როდესაც ეს არის მითითებული ბარიერი. თუ იგი შეირჩევა ძირითად კომპონენტებზე, ეს იმას ნიშნავს, რომ P- განზომილებიანი სივრცისგან შესაძლებელი იყო K-DIMENSIAL, I.E. შემცირება განზომილება P-to K, პრაქტიკულად გარეშე დამახინჯება სტრუქტურა მონაცემთა მონაცემები.

მონაცემების ვიზუალური ანალიზისთვის, ხშირად გამოიყენება პირველი ორი ძირითადი კომპონენტის თვითმფრინავზე თავდაპირველი ვექტორების პროგნოზები. ჩვეულებრივ

მონაცემთა სტრუქტურა აშკარად ჩანს, კომპაქტური ობიექტი მტევანი და ცალკე გათავისუფლებული ვექტორი გამოირჩევა.

3. ფაქტორი ანალიზი

ძირითადი კომპონენტის მეთოდი ფაქტორების ერთ-ერთი მეთოდია. სხვადასხვა ალგორითმები ფაქტორების ანალიზისთვის კომბინირებულნი არიან ის ფაქტი, რომ ყველა მათგანს წარმოადგენს ახალ საფუძველზე თავდაპირველი N- განზომილებიანი სივრცის ახალ საფუძველზე. მნიშვნელოვანია "ფაქტორის დატვირთვის" კონცეფცია, რომელიც გამოიყენება ახალი ვექტორების ჩამოყალიბების წყაროს ფაქტორების (ცვლადი) როლის აღსაწერად.

ძირითადი კომპონენტის მეთოდთან შედარებით ახალი იდეა ის არის, რომ დატვირთვების საფუძველზე, ფაქტორები დაყოფილია ჯგუფებად. ერთ ჯგუფში, ფაქტორები კომბინირებულია, ახალი ბაზის ელემენტებზე მსგავსი ეფექტია. შემდეგ თითოეული ჯგუფისგან რეკომენდირებულია ერთი წარმომადგენლის დატოვება. ზოგჯერ, წარმომადგენლის არჩევის ნაცვლად, ახალი ფაქტორი ჩამოყალიბებულია, რაც ცენტრალურია ჯგუფისთვის გათვალისწინებით. განზომილების შემცირება ხდება იმ ფაქტორების სისტემაში, რომლებიც ჯგუფების წარმომადგენლები არიან. დარჩენილი ფაქტორები უგულებელყოფილია.

აღწერილი პროცედურა შეიძლება განხორციელდეს არა მხოლოდ ფაქტორების ანალიზის დახმარებით. ჩვენ ვსაუბრობთ კასეტური ანალიზის ნიშნები (ფაქტორები, ცვლადები). ჯგუფების გაყოფის ნიშნები, სხვადასხვა კასეტური ანალიზის ალგორითმები შეიძლება გამოყენებულ იქნას. საკმარისია დაშორების მანძილზე (სიახლოვის ზომა, სხვაობა ინდიკატორი) ნიშნებს შორის. X და Y ორი ნიშანია. მათ შორის განსხვავება D (X, Y) შეიძლება შეფასდეს შერჩევითი კორელაციის კოეფიციენტების გამოყენებით:

di (x, y) \u003d 1 - \\ rn (x, y) \\, d2 (x, y) \u003d 1 - \\ pn (x, y) \\, სადაც rn (x, y) არის შერჩევითი ხაზოვანი Pearson კორელაციის კოეფიციენტი , PN (X, Y) არის SPIRME- ის მდინარის კორელაციის შერჩევითი კოეფიციენტი.

4. მრავალმხრივი სკალირება.

დისტანციების გამოყენებისას (სიახლოვე ღონისძიებები, განსხვავებები მაჩვენებლები) D (X, Y) ნიშნებს შორის X და U, მრავალმხრივი სკალირების მეთოდების ფართო კლასი დაფუძნებულია. მეთოდის ამ მეთოდის ძირითადი იდეაა გეომეტრიული სივრცის თითოეული ობიექტის (როგორც წესი, განზომილება 1, 2 ან 3), რომელთა კოორდინატები ფარული (ლატენტური) ფაქტორების ღირებულებებად ემსახურება საკმაოდ ადეკვატურად აღწერს ობიექტს. ამავდროულად, ობიექტებს შორის ურთიერთობები შეიცვალა ქულების ურთიერთობებით - მათი წარმომადგენლები. ასე რომ, მონაცემების მსგავსება ობიექტების - მანძილი შორის რაოდენობა, მონაცემები უპირატესობის - ორმხრივი ადგილმდებარეობა რაოდენობა.

5. ფაქტორ სივრცის ნამდვილი განზომილების შეფასების პრობლემა

სოციოლოგიური მონაცემების ანალიზის პრაქტიკაში გამოიყენება მრავალგანზომილებიანი სკალირების სხვადასხვა მოდელები. ყველა მათგანი, ფაქტორების სივრცის ნამდვილი განზომილების შეფასების პრობლემა. განვიხილოთ ეს პრობლემა მეტრულ სკალირების გამოყენებით ობიექტების მსგავსების შესახებ მონაცემების დამუშავებისას.

ნება არსებობს n ობიექტების 0 (1), O (2), ..., O (N), თითოეული წყვილი ობიექტების 0 (/), O (J), მათი მსგავსება (IJ) . ჩვენ გვჯერა, რომ ყოველთვის S (I, J) \u003d S (J, I). რიცხვის (IJ) წარმოშობის მნიშვნელობა არ აქვს ალგორითმის მუშაობის აღსაწერად. ისინი შეიძლება მიღებულ იქნეს პირდაპირი გაზომვით, ან ექსპერტების გამოყენებით, ან აღწერითი მახასიათებლების კომბინაციით, ან სხვაგვარად.

Euclidean სივრცეში, N ობიექტების გათვალისწინებით უნდა იყოს წარმოდგენილი n ქულების კონფიგურაცია და Euclidean მანძილი D (I, J), როგორც ჩანს, ზომების სიახლოვე

შესაბამის წერტილებს შორის. ობიექტების კომპლექტებს შორის შესაბამისობის ხარისხი და მათი ქულების კომბინაცია განისაზღვრება მსგავსების მატრიცებთან შედარებით || I (,) || და დისტანციური SM-მეტრული ფუნქციონირების დისტანციებზე

i \u003d £ | * (/,]) - ე (/, მ

გეომეტრიული კონფიგურაცია უნდა შეირჩეს ისე, რომ ფუნქციონალური S მიაღწია თავის პატარა ღირებულებას.

კომენტარი. არაეთენეტური სკალირებისას, სიახლოვისა და დისტანციის სიახლოვის ნაცვლად, სიახლოვის ზომების კომპლექტებისა და შესაბამისი დისტანციების კომპლექტის სიახლოვეს. S ფუნქციონალური ნაცვლად, გამოიყენება სულისკვეთებისა და კენდალას კორელაციის რანგის კოეფიციენტების ანალოგები. სხვა სიტყვებით რომ ვთქვათ, არაკომერციული სკალირების ვარაუდი მოდის, რომ სიახლოვე ზომები იზომება ორდინალში.

მოდით Euclidean სივრცე იყოს განზომილება t. განვიხილოთ მინიმუმ შუა კვადრატული შეცდომა

სადაც მინიმალური ხდება ყველა შესაძლო კონფიგურაციაში T-Merne Euclidean სივრცეში. ეს შეიძლება იყოს ნაჩვენები, რომ მინიმალური კითხვა მიღწეულია გარკვეულ კონფიგურაციაზე. ნათელია, რომ ტ, მონოტონიკურად მცირდება (უფრო ზუსტად, ის არ იზრდება). ეს შეიძლება იყოს ნაჩვენები, რომ T\u003e P - 1 ტოლია 0 (თუ - მეტრული). მნიშვნელოვანი ინტერპრეტაციის შესაძლებლობების გაზრდა, სასურველია სივრცეში შესაძლო განზომილებაში. ამავდროულად, განზომილება უნდა შეირჩეს ისე, რომ წერტილები წარმოადგენენ ობიექტებს დიდი დამახინჯების გარეშე. კითხვა ჩნდება: როგორ რაციონალურად აირჩიოს განზომილება სივრცის, I.E. ბუნებრივი ნომერი t?

6. მონაცემთა სივრცის განზომილების შეფასების მოდელები და მეთოდები

ამ კითხვაზე გონივრული პასუხების დეტერმინალური ანალიზის ნაწილი, როგორც ჩანს, არა. აქედან გამომდინარე, აუცილებელია გარკვეული პრობიბილიტური მოდელების ქცევის შესწავლა. თუ S (IJ) არის შემთხვევითი ღირებულებები, რომლის განაწილება დამოკიდებულია "ჭეშმარიტი განზომილების" M0 (და შესაძლოა ნებისმიერი სხვა პარამეტრებისგან), შემდეგ კლასიკურ მათემატიკურ სტატისტიკურ სტილში, M0- ის შეფასების ამოცანის დასადგენად, შეხედეთ მდიდარ შეფასებებს და ა.შ.

დავიწყოთ პრობაბრისტური მოდელების მშენებლობა. ჩვენ ვივარაუდოთ, რომ ობიექტები მიუთითებს Euclidean სივრცეში განზომილებაში, სადაც დიდი საკმარისია. ის ფაქტი, რომ "ჭეშმარიტი განზომილება" მ 0-ის ტოლია, ნიშნავს იმას, რომ ყველა ეს ქულა განზომილების M0- ის ჰიპერპლენზეა. ჩვენ ვიღებთ დარწმუნებულს, რომ განხილვისას ქულების კომპლექტი არის წრიული ნორმალური განაწილების ნიმუში დისპერსის O (0). ეს იმას ნიშნავს, რომ ობიექტები 0 (1), 0 (2), ..., O (N) დამოუკიდებელია შემთხვევითი ვექტორების აგრეგატში, რომელთაგან თითოეული აშენდა

Z (1) e (1) + z (2) e (2) + ... + z (m0) e (m0), სადაც e (1), E (2), ..., E (M0) - ortonormal საფუძველზე განზომილების M0, რომელშიც განიხილება გათვალისწინებით გათვალისწინებით, და Z (1), Z (2), Z (2), Z (M0) დამოუკიდებელი საერთო სამგანზომილებიანი ნორმალური შემთხვევითი ცვლადები მათემატიკური მოლოდინი 0 და დისპერსია O (0).

განვიხილოთ ორი მოდელი სიახლოვე S (IJ). პირველ რიგში, S (IJ) განსხვავდება Euclidean მანძილი შორის შესაბამისი რაოდენობა იმის გამო, რომ რაოდენობა ცნობილია დამახინჯება. მოდით (1), ერთად (2), ..., C (N) - პუნქტები გათვალისწინებით. მაშინ

s (I, J) \u003d D (C (I) + E (I), C (J) + S (/)), IJ \u003d 1, 2, ..., N,

სად არის Euclidean მანძილი გაზომვის სივრცეში, ვექტორი E (1), E (2), ..., E (P) არის გაზომვის სივრცის წრიული ნორმალური დისტრიბუციის ნიმუში ნულოვანი მათემატიკური მოლოდინით და Covariance Matrix on (1) /, სადაც I-A -Edite Matrix. Სხვა სიტყვებით,

e (0 \u003d P (1) E (1) + P (2) E (2) + ... + C (k) in (K), სადაც E (1), E (2), ... E (ლ) - orthonormal საფუძველზე საზომი სივრცეში, და [C ^^), i \u003d 1, 2, ..., P,? \u003d 1, 2, ..., ლ) არის დამოუკიდებელი კომპლექტი ერთი განზომილებიანი შემთხვევითი ცვლადების საერთო რაოდენობით მათემატიკური მოლოდინით და O (1) დისპერსით.

მეორე მოდელის დამახინჯება პირდაპირ დისტანციებზეა დაწესებული:

Kch) \u003d th (f \\ s)) + £ (uh and \u003d 1, 2., n, i f j,

სად და, და პირველი ინტერვალით, ეს უფრო სწრაფად მცირდება, ვიდრე მეორეზე. აქედან გამომდინარეობს, რომ სტატისტიკა

m * \u003d arm minam + 1 - 2am + an-x)

ეს არის ნამდვილი განზომილების მდიდარი M0- ის მდიდარი შეფასება.

ასე რომ, პროტონული თეორია გულისხმობს რეკომენდაციას - როგორც Factorial Space- ის განზომილების შეფასებისას. გაითვალისწინეთ, რომ ასეთი რეკომენდაცია ჩამოყალიბდა, როგორც ჯ. კრასკალმა მრავალგანზომილებიანი სკალირების დამფუძნებელი ჰუმანური ერთ-ერთი დამფუძნებელი. მან გააგრძელა მრავალგანზომილებიანი სკალირების და გამოთვლითი ექსპერიმენტების პრაქტიკული გამოყენების გამოცდილება. Probabilistic თეორია გააკეთა, რათა გაამართლოს ამ heuristic რეკომენდაცია.

7. მოდელის განზომილების შეფასება

მაგალითად, გაფართოების ოჯახს, მაგალითად, პოლინომის ხარისხი შეაფასებს, ბუნებრივია, გააცნოს ტერმინი "მოდელის განზომილება" (ეს კონცეფცია დიდწილად მსგავსია მრავალგანზომილებიანი მასშტაბის მონაცემთა სივრცის განზომილებაში). ამ სტატიის ავტორს აქვს რიგი მუშაობა მოდელის განზომილების შეფასების შესახებ, რაც მიზანშეწონილია, რომ შევადაროთ მუშაობა მონაცემთა სივრცის განზომილების შეფასების შესახებ.

პირველი ასეთი ნამუშევარი 1976 წელს საფრანგეთში მოგზაურობისას ამ სტატიის ავტორის მიერ შესრულდა. მასში შესწავლილი მოდულის მოდელის განზომილების ერთი შეფასება, კერძოდ, პოლინომური ხარისხის შეფასებისას, რომ დამოკიდებულება აღწერილია პოლინომური. ეს შეფასება ლიტერატურაში ცნობილი იყო, მაგრამ მოგვიანებით შეცდომაში შეიყვანეს ამ სტატიის ავტორს, რომელიც მხოლოდ მისი თვისებების შესწავლას, კერძოდ, აღმოჩნდა, რომ ეს არ არის მდიდარი და მისი ლიმიტის გეომეტრიული განაწილება. სხვები, რომლებიც უკვე შემოთავაზებულ იქნა რეგრესიის მოდელის განზომილების მდიდარი შეფასებები სტატიაში შესწავლილი და შესწავლილი. ეს ციკლი დასრულდა სამუშაოების შემცველი სამუშაოების შემცველი.

ამ თემაზე ექსტრემალური გამოცემა მოიცავს მონტე კარლოს მიერ მიღებული ლიმიტის თეორემებში კონვერგენციის შესწავლის შედეგების განხილვას.

სტატიაში განიხილება მოდელის განზომილების შეფასების მეთოდოლოგიის მსგავსი მეთოდოლოგია (კლასიფიკაციის თეორიის ნაწილი).

შესწავლილია მრავალგანზომილებიანი სკალირების მოდელის განზომილების ზემოთ შეფასებები. იმავე სამუშაოებში ძირითადი კომპონენტების მეთოდის მახასიათებლების ლიმიტი (უკიდურესი სტატისტიკური პრობლემების გადაწყვეტილებების ქცევის ასიმპტოტური თეორიის გამოყენებით).

8. განზომილების შემცირების ალგორითმები ავტომატური სისტემის შემეცნებითი ანალიზით

EIDOS სისტემაში ავტომატური სისტემის შემეცნებითი ანალიზი (ASC- ანალიზი) შემოთავაზებულია, შემცირებული განზომილების კიდევ ერთი მეთოდი ხორციელდება. იგი აღწერილია სექციებში 4.2 "სისტემის ანალიზის ძირითადი შემეცნებითი ოპერაციების ალგორითმების აღწერა (BKOS)" და 4.3 "დეტალური BKOS ალგორითმები (სთხოვეთ ანალიზი)". მოდით მოგვყოთ ორი ალგორითმის მოკლე აღწერა - BKOS-4.1 და BKOS-4.2.

BKOSA-4.1. "ფაქტორების აბსტრაქცია (ფაქტორების სემანტიკური სივრცის განზომილების შემცირება)"

ზედიზედ დაახლოების მეთოდის გამოყენებით (iterative ალგორითმი), მოცემულ საზღვრებში, ატრიბუტის სივრცის განზომილება მცირდება მისი მოცულობის მნიშვნელოვანი შემცირების გარეშე. Iterative პროცესის შეჩერების კრიტერიუმი არის ერთ-ერთი სასაზღვრო პირობების მისაღწევად.

BKOS-4.2. "კლასების აბსტრაქცია (კლასების სემანტიკური სივრცის განზომილების შემცირება)"

ზედიზედ დაახლოების მეთოდის გამოყენებით (iterative ალგორითმი), კონკრეტული სასაზღვრო პირობების მიხედვით, კლასების სივრცის ზომა მცირდება მისი მოცულობის მნიშვნელოვანი შემცირების გარეშე. Iterative პროცესის შეჩერების კრიტერიუმი არის ერთ-ერთი სასაზღვრო პირობების მისაღწევად.

აქ არის ყველა რეალური ალგორითმი, რომელიც განხორციელდა EIDOS სისტემაში, რომელიც განხორციელდა სამუშაოების მომზადების დროს (2002): http: //lc.kubagro .ru / aidos / aidos02 / 4.3 .htm

ალგორითმების არსი ასეთია.

1. ინფორმაციის ოდენობა გამოითვლება კლასების შესაბამისი ობიექტის გადასვლის ღირებულებებში.

2. ითვლის ობიექტების მიერ ობიექტის დიფერენცირების ფაქტორების ღირებულების ღირებულებას. ეს მნიშვნელობა მხოლოდ ფაქტორების ღირებულებების ინფორმირებულთა (ცვალებობის რაოდენობრივი ზომების რაოდენობრივი ზომები: საშუალო გადახრა საშუალოდ, საშუალო კვადრატული გადახრა და ა.შ.). სხვა სიტყვებით რომ ვთქვათ, თუ საშუალოდ ფაქტორების ღირებულებაში არსებობს პატარა ინფორმაცია კუთვნილების შესახებ და არ ეკუთვნის ობიექტს კლასში, მაშინ ეს მნიშვნელობა არ არის ძალიან ძვირფასი, და თუ ბევრად არის ღირებული.

3. ითვლის აღწერილობითი მასშტაბების ღირებულებას კლასების მიერ ობიექტების დიფერენცირებისათვის. E.V.- ის საქმეებში Lutsenko ახლა გაკეთდა, როგორც საშუალოდ ფასეულობების ფასეულობები ამ მასშტაბის.

4. შემდეგ ხორციელდება ფაქტორებისა და აღწერითი სასწორების ღირებულებების პასპორაცია:

ფაქტორების ღირებულებები (აღწერითი სკალირების ფასეულობები) ღირებულებაშია ღირებულების შემცირების მიზნით და ამოღებულია მოდელისგან ყველაზე ნაკლებად ღირებული, რომელიც 45 ° -ის პარატო-მრუზის უფლებას მიდის;

ფაქტორები (აღწერითი სასწორები) ადგილზეა ღირებულებით დაღმავალი ბრძანებით და ამოღებულია მინიმუმ ღირებული მოდელისგან, რომელიც 45 ° -ის უფლებას მიდის.

შედეგად, აღწერილ სასწორზე აშენებული სივრცის განზომილება მნიშვნელოვნად შემცირდა თავად შორის კორელაციის მოშორებით, I.E. არსებითად, ეს არის orthonormaling სივრცეში საინფორმაციო მეტრულ.

ეს პროცესი შეიძლება განმეორდეს, I.E. Iterative, ხოლო ახალი ვერსიის სისტემა "Eidos" iterations დაიწყება ხელით.

ანალოგიურად, კლასების საინფორმაციო სივრცე გამოტოვებულია.

მასშტაბი და გრადაცია შეიძლება იყოს რიცხვითი (შემდეგ ინტერვალის ღირებულებები დამუშავებულია) და შეიძლება იყოს ტექსტი (რიგითი ან თუნდაც ნომინალური).

ამდენად, BKOS ალგორითმების დახმარებით (სთხოვეთ ანალიზს), სივრცის განზომილება მაქსიმალურად შემცირდა ინფორმაციის მინიმალურ დაკარგვაზე.

სტატისტიკური მონაცემების ანალიზი, გამოყენებითი სტატისტიკის ანალიზი, შემუშავდა სხვა განზომილების შემცირება ალგორითმები. ამ მუხლის ამოცანები არ შეიცავს ასეთ ალგორითმების მთელი მრავალფეროვნების აღწერას.

ლიტერატურა

1. ორლოვ ა. სტატისტიკური მეთოდების ზრდის ქულები // პოლიგრაფის ქსელის ელექტრონული სამეცნიერო ჟურნალი ყუბანის სახელმწიფო აგრარული უნივერსიტეტის. 2014. № 103. პ. 136-162.

2. Paint J. ურთიერთობა მრავალმხრივი სკალირების და კასეტური ანალიზის // კლასიფიკაცია და კასეტური. M.: Mir, 1980. C.20-41.

4. ჰარმანი გ. თანამედროვე ფაქტორი ანალიზი. მ.: სტატისტიკა, 1972. 489 გვ.

5. ორლოვ ა. შენიშვნები კლასიფიკაციის თეორიზე. / სოციოლოგია: მეთოდოლოგია, მეთოდები, მათემატიკური მოდელები. 1991. №2 C.28-50.

6. ორლოვ ა. კლასიფიკაციის მათემატიკური თეორიის ძირითადი შედეგები // პოლიმური ქსელის ელექტრონული სამეცნიერო ჟურნალი ყუბანის სახელმწიფო აგრარული უნივერსიტეტის. 2015. № 110. პ. 219-239.

7. ორლოვ ა. კუბის სახელმწიფო აგრარული უნივერსიტეტის კლასიფიკაციის თეორიის მათემატიკური მეთოდები // პოლიმური ქსელის ელექტრონული სამეცნიერო ჟურნალი. 2014. No. 95. P. 23 - 45.

8. თერეხინა ა. მრავალგანზომილებიანი სკალირების ამ მეთოდების ანალიზი. -M.: მეცნიერება, 1986. 168 გვ.

9. Perekrest V. T. სოციალურ-ეკონომიკური ინფორმაციის არაწრფივი ტიპოლოგიური ანალიზი: მათემატიკური და კომპიუტერული მეთოდები. - მეცნიერება, 1983. 176 გვ.

10. Tyurin Yu.n., Litvak B.g., Orlov A.i., Satarov G.a., Smerling D.S. არასწორი ინფორმაციის ანალიზი. მ. სსრკ-ს მეცნიერებათა აკადემიის სამეცნიერო საბჭო კომპლექსური პრობლემის შესახებ "კიბერნეტიკა", 1981. - 80 გვ.

11. ორლოვ ა. არასაბანკო ობიექტების სტატისტიკის ზოგადი ხედვა // სოციოლოგიური კვლევების შესახებ არასამთავრობო საინფორმაციო ინფორმაციის ანალიზი. - მ.: მეცნიერება, 1985. S.58-92.

12. ორლოვ ა. რეგრესიის ძირითადი ფუნქციების ერთ-ერთი შეფასების ლიმიტი // გამოყენებული მრავალგანზომილებიანი სტატისტიკური ანალიზი. მეცნიერები სტატისტიკას, T.33. - მ. მეცნიერება, 1978. P.380-381.

13. ორლოვ ა. რეგრესიის მოდელის განზომილების შეფასება // ალგორითმული და პროგრამული უზრუნველყოფა გამოყენებითი სტატისტიკური ანალიზისათვის. მეცნიერები სტატისტიკის, T.36. - მ.: მეცნიერება, 1980. გვ .92-99.

14. ორლოვ ა. რეგრესიის მოდულის განზომილების ზოგიერთი შეფასების ასიმპტოტიკა // გამოყენებითი სტატისტიკა. მეცნიერები სტატისტიკის, T.35. - მ.: მეცნიერება, 1983. P.260-265.

15. ორლოვ ა. რეგრესიული პოლინომური // ქარხნის ლაბორატორიის შეფასების შესახებ. დიაგნოზი მასალები. 1994. T.60. № 5. P.43-47.

16. ორლოვ ა. ზოგიერთი Probabilistic კლასიფიკაციის თეორია კითხვები // / გამოყენებითი სტატისტიკა. მეცნიერები სტატისტიკის, T.35. - მ.: მეცნიერება, 1983. C.166-179.

17. ორლოვ ა. არანუმერული ობიექტების სტატისტიკის განვითარების შესახებ / ექსპერიმენტების და მონაცემთა ანალიზის დიზაინი: ახალი ტენდენციები და შედეგები. - მ.: Antal, 1993. R.52-90.

18. ორლოვი ა. განზომილების შემცირების მეთოდები // დანართი 1 წიგნში: Tolstova yu.n. მრავალგანზომილებიანი სკალირების საფუძვლები: უნივერსიტეტების გაკვეთილი. - მ.: გამომცემელი CDU, 2006. - 160 გვ.

19. ორლოვ ა. ექსტრემალური სტატისტიკური პრობლემების ასიმპტოტიკა სისტემურ კვლევებში არა რიცხვითი მონაცემების ანალიზი. ლაბორატორიების კოლექცია. ტომი. 10. - მ.: სისტემის კვლევის ყველა კავშირის კვლევითი ინსტიტუტი, 1982. პ. 412.

20. ორლოვ ა. ორგანიზაციული და ეკონომიკური მოდელირება: სამეურვეო: 3 საათში. ნაწილი 1: არა-წილი სტატისტიკა. - მ.: გამომცემლობა MSTU. განცხადობა ბაუმანი. - 2009 - 541 გვ.

21. Lutsenko E.V. ავტომატური სისტემის შემეცნებითი ანალიზი აქტიური ობიექტების მართვაში (ინფორმაციის სისტემის თეორია და მისი გამოყენება ეკონომიკური, სოციალურ-ფსიქოლოგიური, ტექნოლოგიური და ორგანიზაციული და ტექნიკური სისტემების შესწავლაში): მონოგრაფია (სამეცნიერო პუბლიკაცია). -Srasnodar: Kubgu. 2002. - 605 გვ. http://elibrary.ru/item.asp?id\u003d18632909

1. ორლოვ ა. Tochki Rosta Statisticheskih Metodov // PoliteMaticheskij setevoj jelektronnyj nauchnyj zhurnal kubanskogo gosudarstvennogo agraarnogo universita. 2014. № 103. ს. 136-162.

2. Kraskal DZH. VZaimosvjaz "Mezhdu Mnogomernym Shkalirovaniem i Klaster-Analizom // Klassifikacija i Klaster. M. Mir, 1980. S.20-41.

3. Kruskal J.B., მულტიდმიანნიზმენსობრივი სკალირების სურვილი // Sage University Paper Series: ხარისხობრივი პროგრამები სოციალურ მეცნიერებებში. 1978. №11.

4. Harman G. Sovremennyj Faktornyj ანალიზი. მ.: Statistika, 1972. 489 s.

5. ორლოვ ა. Zametki po teorii klassifikacii. მეცნიერება / ბიოლოგიის / Sociologija: Metodologija, Metody, Matematicheskie Modeli. 1991. №2.28-50.

6. ორლოვ ა. Bazovye Rezul "Taty Matematicheskoj Teorii Klassifikacii // PolitEmaticheskij setevoj jelektronnyj nauchnyj zhurnal kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. № 110. ს. 219-239.

7. ორლოვ ა. Matematicheskie Metody Teorii Klassifikacii // PoliteMaticheskij setevoj jelektronnyj Nauchnyj Zhurnal Kubanskogo Gosudarstvennogo Agrannogo Universita. 2014. № 95. ს. 23 - 45.

8. Terehina A.ju. ანალოგი დენიჰმა მეტოდამის Mnogomernogo Shkalirovanija. - მ.: Nauka, 1986. 168 S.

9. Perekrest V.t. Nelinejnyj tipologicheskij analiz სოციალური "no-jekonomicheskoj informacii: matematicheskie i vychislitel" Nye Metody. - 1983 წ. 176 წ.

10. Tjurin Ju.n., Litvak B.g., Orlov A.i., Satarov G.a., Shmerling D.S. Analiz nechislovoj informacii. მ.: Nauchnyj sovet sssr po kompleksnoj პრობლემა "Kibernetika", 1981. - 80 s.

11. ორლოვ ა. OBSHIJ VZGLJAD NA სტატისტიკას Nechislovoj Prirody // analiz nechislovoj informacii v Sociologicheskih Issledovanijah. - მ.: Nauka, 1985. S.58-92.

12. ორლოვ ა. Predel "noe raspredlenie odnoj ocenki chisla bazisnyh funkcij v regreessii // prikladnoj mnogomernyj analiz. Uchenye zapiski po statistike, t.33. - მ.: Nauka, 1978. S.380-381.

13. ორლოვ ა. Ocenka Razmernosti Modeli V Regressii // Algoritmicheskoe i Programmnoe obespechnie prikladnogo statisticheskogo analiza. Uchenye Zapiski Po Statistike, T.36. - მ.: Nauka, 1980. S.92-99.

14. ორლოვ ა. Asimptotika Nekotoryh Ocenok Razmernosti Modeli V Regressii // Prikladnaja Statistika. Uchenye zapiski po statistike, t.45. - ნაუკა, 1983. S.260-265.

15. ორლოვ ა. Ob ocenivanii regressionnogo polinoma // zavodskaja laboratorija. დიაგნოსტიკა. 1994. T.60. № 5. 43-47.

16. ორლოვ ა. Nekotorye verojatnostnye voprosy teorii klassifikacii // prikladnaja statistika. Uchenye zapiski po statistike, t.45. - მ.: Nauka, 1983. S.166-179.

17. ორლოვ ა. არანუმერული ობიექტების სტატისტიკის განვითარების შესახებ / ექსპერიმენტების და მონაცემთა ანალიზის დიზაინი: ახალი ტენდენციები და შედეგები. - მ.: Antal, 1993. R.52-90.

18. ორლოვი ა. Metody Snizhenija razmernosti // prilozhenie 1 k knige: tolstova ju.n. Osnovy mnogomernogo shkalirovanija: uchebnoe posobie dlja vuzov. - მ.: Izdatel "Stvo KDU, 2006. - 160 s.

19. ორლოვ ა. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // analiz nechislovyh dannyh v sistemnyh issledovanijah sbornik trudov vyp.10 -... მ.: Vsesojuznyj nauchno-issiedovatel" Skij Institut Sistemnyh Isslesledovanij, 1982. S. 4-12.

20. ორლოვ ა. ორგანიზატორნო- Jekonomicheskoe Modelirovanie: uchebnik: v 3 ch. Chast "1: Nechislovaja Statistika. - მ.: I: izd-vo mgtu im. N.je. baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj Analiz v upravlenii aktivnymi ob # ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, სოციალური "არ psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdanie) - Krasnodar :. KubGAU 2002 -. 605 s. Http://elibrary.ru/item.asp?id\u003d18632909

მე -5 თავების შესწავლის შედეგად სტუდენტმა უნდა:

იცით

  • ძირითადი ცნებები და დაბალი განზომილების ამოცანები:
  • ფუნქციის სივრცის ტრანსფორმაციის პრობლემის გადაჭრის მიდგომა;

შეძლებს

  • გამოიყენოთ ძირითადი კომპონენტის მეთოდი სტანდარტიზებული ორთოგონალური თვისებების გადასვლისთვის;
  • შეაფასოს მონაცემების ინფორმირება, როდესაც მხატვრული სივრცის განზომილების შემცირება;
  • ოპტიმალური მრავალგანზომილებიანი მასშტაბების მშენებლობის პრობლემის მოგვარება ობიექტების კვლევისთვის;

ფლობა

  • მეთოდები, რათა შეამცირონ განზომილება სტატისტიკური ანალიზის გამოყენების ამოცანების მოსაგვარებლად;
  • ცვლადების ინტერპრეტაციის უნარ-ჩვევები ტრანსფორმირებულ სიგნალზე.

ძირითადი ცნებები და ქვედა განზომილების ამოცანები

ერთი შეხედვით, კვლევის ობიექტების შესახებ უფრო მეტი ინფორმაცია მათი ნიშნების დამახასიათებელი სიმბოლოების სახით გამოყენებული იქნება მოდელის შესაქმნელად. თუმცა, ინფორმაციის გადაჭარბებულმა რაოდენობამ შეიძლება გამოიწვიოს მონაცემთა ანალიზის ეფექტურობის შემცირება. არსებობს ტერმინი "განზომილების წყევლა" განზომილების წყევლა), ახასიათებს უაღრესად პროდუქტის მონაცემების მუშაობის პრობლემებს. ერთი ფორმით ან სხვა განზომილების შემცირების აუცილებლობით, გამოსავალი დაკავშირებულია სხვადასხვა სტატისტიკურ პრობლემებთან.

არასამთავრობო ინფორმაციული თვისებები არის დამატებითი ხმაური წყარო და გავლენას ახდენს მოდელის პარამეტრების შეფასების სიზუსტეზე. გარდა ამისა, მონაცემების კომპლექტი დიდი რაოდენობით თვისებები შეიძლება შეიცავდეს ჯგუფებს კორელაციური ცვლადების. ნიშნების ასეთი ნიშნების არსებობა ნიშნავს იმ ინფორმაციის დუბლიკატულ ინფორმაციას, რომელიც შეიძლება დამახინჯდეს მოდელის სპეციფიკაციას და გავლენას ახდენს მისი პარამეტრების ხარისხზე. უფრო მაღალი განზომილება მონაცემთა, უმაღლესი მოცულობის გათვლები მათი ალგორითმული გადამუშავების.

ორი მიმართულებით შეიძლება გამოირჩეოდნენ ფუნქციის სივრცის განზომილების შემცირებისას ამ ტიპის ცვლადების პრინციპზე: არსებული წყაროდან და ახალი ფუნქციების ჩამოყალიბების შერჩევა თავდაპირველი მონაცემების ტრანსფორმაციის გზით. იდეალურ შემთხვევაში მონაცემების შემოკლებით წარმომადგენლობამ უნდა ჰქონდეს განზომილება, რომელიც შეესაბამება განზომილებას, იძულებით არსებულ მონაცემებს. შიდა განზომილება.

შესწავლილი ფენომენის დამახასიათებელი ყველაზე ინფორმირებული თვისებების ძიება არის აშკარა მიმართულებით პრობლემის განზომილების შემცირების მკაფიო მიმართულება, რომელიც არ საჭიროებს წყაროს ცვლადების ტრანსფორმაციას. ეს საშუალებას გაძლევთ გააკეთოთ მოდელი უფრო კომპაქტური და თავიდან იქნას აცილებული დაკარგვა დაბალი ინფორმაციული თვისებების ჩარევის ეფექტთან. ინფორმაციული მახასიათებლების შერჩევა არის მრავალი წყარო ცვლადების საუკეთესო ქვესადგურის მოძებნა. "საუკეთესო" კონცეფციის კრიტერიუმები შეიძლება იყოს ყველაზე მაღალი ხარისხის მოდელირება მხატვრული სივრცის მოცემული განზომილებისათვის ან მონაცემების ყველაზე პატარა განზომილებაზე, რომლის დროსაც შესაძლებელია განსაზღვრული ხარისხის მოდელი.

საუკეთესო გამოსავალი საუკეთესო მოდელის შექმნის ამოცანას უკავშირდება ნიშნების ყველა შესაძლო კომბინაციის ბიუსტს, რომელიც, როგორც წესი, ზედმეტად შრომატევადი. ამიტომ, როგორც წესი, ისინი მიმართავენ პირდაპირი ან შეცვლის ნიშნები. პირდაპირი შერჩევის პროცედურებში, ორიგინალური კომპლექტიდან ცვლადების რიგითი დამატებით ხდება მოდელის სასურველი ხარისხის მისაღწევად. ორიგინალური მხატვრული სივრცის (საპირისპირო შერჩევის) თანმიმდევრული შემცირების ალგორითმებში, არის შეფასებული ინფორმირებული ცვლადების მოცილება მოდელის საინფორმაციო შინაარსის დასაშვები შემცირების მიზნით.

უნდა აღინიშნოს, რომ ნიშნების ინფორმაციული ინფორმაცია ნათესავია. შერჩევა უნდა უზრუნველყოს ფუნქციების კომპლექტის მაღალი ინფორმირება და არა მისი ცვლადების კომპონენტების საერთო ინფორმაციული. ამრიგად, ნიშნებს შორის კორელაციის არსებობა ამცირებს მათ საერთო ინფორმაციულობას მათთვის ინფორმაციის დუბლირებასთან დაკავშირებით. აქედან გამომდინარე, ახალი ფუნქციის დამატება უკვე შერჩეულია ინფორმირებულობის ზრდაზე იმდენად, რამდენადაც იგი შეიცავს სასარგებლო ინფორმაციას, რომელიც ადრე არჩეული ცვლადების ნაკლებია. ყველაზე მარტივია ურთიერთგამომრიცხავი orthogonal ნიშნების შერჩევა, რომელშიც შერჩევის ალგორითმი ძალიან მარტივია: ცვლადები ცნობილია ინფორმატიკის შესახებ და ამ რანგის პირველი ნიშნების შემადგენლობა გამოიყენება, რომელიც უზრუნველყოფს ინფორმაციულ ინფორმაციას.

სივრცის განზომილების შესამცირებლად შერჩევის მეთოდების შეზღუდული მეთოდი დაკავშირებულია წყაროს მონაცემებით აუცილებელი ნიშნების დაუყოვნებლივ ყოფნის ვარაუდით, რომელიც, როგორც წესი, არასწორია. განზომილების შემცირების ალტერნატიული მიდგომა ითვალისწინებს ახალი ცვლადების შემცირებულ კომპლექსს. ორიგინალური ნიშნების შერჩევისგან განსხვავებით, ახალი ფუნქციის სივრცის ფორმირება მოიცავს ახალი ცვლადების შექმნას, რომლებიც, როგორც წესი, წყაროების წყაროები არიან. ეს ცვლადები პირდაპირ შეინიშნება ხშირად ფარული, ან ლატენტური. შექმნის პროცესში, ეს ცვლადები შეიძლება სხვადასხვა სასარგებლო თვისებებით, როგორიცაა orthogonality. პრაქტიკაში, თავდაპირველი ნიშნები, როგორც წესი, ურთიერთდაკავშირებულნი არიან, ამიტომ მათი სივრცის ტრანსფორმაცია ორთოგონალს ქმნის ახალ კოორდინატებს, რომელშიც არ არსებობს შესწავლილი ობიექტების შესახებ დუბლიკატების შესახებ.

ახალი ორთოგონალური ფუნქციის სივრცეში ობიექტების ჩვენება ქმნის ვიზუალურად წარმოაჩინოს თითოეული ნიშნის სარგებლობას ამ ობიექტებს შორის განსხვავებების თვალსაზრისით. იმ შემთხვევაში, თუ ახალი ბაზის კოორდინატები მოწყობილია დისკრიმინაციის ასახული ღირებულებების გათვალისწინებით მათზე დაკვირვებით, ეს აშკარა შეუძლებელია პრაქტიკული თვალსაზრისით მცირე ცვლადების მქონე თვისებების თვალსაზრისით, რადგან ამ თვისებების ობიექტები პრაქტიკულად განურჩეველი შედარებით მათი განსხვავებები უფრო ინფორმაციული ცვლადები. ასეთ სიტუაციაში, ჩვენ შეგვიძლია ვისაუბროთ თავდაპირველი მხატვრული სივრცის ე.წ. დეგენერაციის შესახებ კ. ცვლადები და ამ სივრცის რეალური განზომილება თ. შეიძლება იყოს ნაკლები წყარო (მ< კ.).

ფუნქციის სივრცის შემცირება თან ახლავს მონაცემთა ინფორმაციის გარკვეულ შემცირებას, მაგრამ წინასწარ განსაზღვრული დასაშვები შემცირების დონე შეიძლება წინასწარ განსაზღვროს. შერჩევა თვისებები პროექტს კომპლექტი წყარო ცვლადები შევიდა პატარა განზომილებაში სივრცეში. ორ-სამგანზომილებიანი ფუნქციის სივრცის შეკუმშვა შეიძლება სასარგებლო იყოს მონაცემთა ვიზუალიზაციისთვის. ამდენად, ახალი ფუნქციის სივრცის ჩამოყალიბების პროცესი, როგორც წესი, იწვევს რეალურად ინფორმაციული ცვლადების პატარა კომპლექტს. მათი ბაზაზე, უკეთესი მოდელი შეიძლება აშენდეს როგორც მცირე რაოდენობის ყველაზე ინფორმაციული თვისებების მიხედვით.

წყაროზე დაფუძნებული ახალი ცვლადების ფორმირება გამოიყენება ლატენტური სემანტიკური ანალიზისთვის, მონაცემთა შეკუმშვის, კლასიფიკაციისა და სურათების აღიარების, სწავლის პროცესების სიჩქარისა და ეფექტურობის გაზრდის მიზნით. შეკუმშული მონაცემები, როგორც წესი, მიმართავენ შემდგომ ანალიზს და მოდელირებას.

ფუნქციის სივრცის ტრანსფორმაციის ერთ-ერთი მნიშვნელოვანი განაცხადი და განზომილების შემცირებაა სინთეზური ლატენტური კატეგორიების აშენება ნიშნების გაზომვის ნიშნების საფუძველზე. ეს ლატენტური ნიშნები შეიძლება ახასიათებს ფენომენის ზოგად კონკრეტულ მახასიათებლებს, რომლებიც ინტეგრირებულ ობიექტებს კერძო თვისებების ინტეგრირებას შეუძლიათ, რომლებიც საშუალებას გვაძლევენ ინფორმაციის სხვადასხვა დონის ინტეგრირებული ინდიკატორების აშენება.

რეგრესიული მოდელების კოეფიციენტების შეფასების "შეშუპების" მეთოდების შემცირების მეთოდების როლი აუცილებელია რეგრესიული მოდელების კოეფიციენტების შეფასების "შეშუპება". ახალი, იდეალური შემთხვევაში, orthogonal და არსებითად ინტერპრეტირებული, ცვლადები არის წყაროების მრავალფეროვნების მრავალფეროვნების პირობებში მოდელირების ეფექტური საშუალება.

ორთოგონალში თავდაპირველი ფუნქციის სივრცის ტრანსფორმაცია მოსახერხებელია კლასიფიკაციის ამოცანების მოსაგვარებლად, რადგან რაც საშუალებას იძლევა გონივრულად გამოიყენოთ ობიექტების სიახლოვე ან განსხვავებები, როგორიცაა Euclidean მანძილი ან Euclidean მანძილის მოედანი. რეგრესიულ ანალიზში, ძირითადი კომპონენტების შესახებ რეგრესიული განტოლების მშენებლობა საშუალებას იძლევა მრავალმხრივი პრობლემის მოგვარება.

  • სტატისტიკაში, მანქანათმშენებლობისა და საინფორმაციო თეორიის მიხედვით, განზომილების შემცირებაა მონაცემების გადაკეტვა ძირითადი ცვლადების მიღებით ცვლადების რაოდენობის შემცირებით. კონვერტაციის შეიძლება დაიყოს შერჩევა თვისებები და შერჩევა თვისებები.

დაკავშირებული კონცეფციები

ლიტერატურაში აღინიშნა

- შეყვანის მონაცემების ჩატვირთვა და პრეპროგრამის მონაცემები - სტიმულის სახელმძღვანელო და ავტომატური განლაგება (ინტერესთა ზონების შერჩევა), - ალგორითმი მემკვიდრეობის წარმომადგენლობის Matrix- ის გაანგარიშების მიზნით - შემდგომი ანალიზისათვის საჭირო შეყვანის ცვლადების ღირებულებებით - მეთოდი შემცირებული განზომილება სივრცის ფართები (ძირითადი კომპონენტის მეთოდი), კომპონენტის იტვირთება ვიზუალიზაცია ინტერპრეტაციის კომპონენტის შესარჩევად - ალგორითმი გადაწყვეტილებების შესწავლისთვის, არის ალგორითმი ხეების პროგნოზირებადი უნარის შესაფასებლად, - ხსნის ხეების ვიზუალიზაცია.

დაკავშირებული კონცეფციები (გაგრძელება)

სპექტრალური კლასტერული ტექნიკა მონაცემების მსგავსება (eigenvalues) მონაცემთა მსგავსება Matrix- ის შემცირება მცირე ფართების კლასტერამდე. მსგავსება Matrix მიეწოდება როგორც შესვლისა და შედგება რაოდენობრივი შეფასებები თითოეული წყვილი ქულების შედარებით მსგავსება მონაცემებში.

სპექტრალური მეთოდები არის ტექნიკოსის კლასი, რომელიც გამოიყენება სხვადასხვა დიფერენციალური განტოლების რიცხობრივი გადაწყვეტისთვის, შესაძლებელია სწრაფი ფურიეს გარდაქმნას. იდეა შედგება დიფერენციალური განტოლებების გადაჭრისას, როგორც ზოგიერთი "ძირითადი ფუნქციების" თანხა (მაგალითად, Fourier Series არის Sinusoid- ის თანხა), შემდეგ კი კოეფიციენტები შეარჩიეთ დიფერენციალური განტოლების დაკმაყოფილების მიზნით.

მათემატიკური ანალიზი (კლასიკური მათემატიკური ანალიზი) არის მათემატიკის კომპლექტი მათემატიკის კომპლექტი, რომელიც შეესაბამება ისტორიულ განყოფილებას სახელწოდებით "უსასრულოდ მცირე", რომელიც აერთიანებს დიფერენციალური და განუყოფელ კალკულს.

დიფერენციალური ევოლუცია (ENG განსხვავება ევოლუცია) - სტოქასტური ოპტიმიზაციის კლასსთან დაკავშირებული მრავალმხრივი მათემატიკური ოპტიმიზაციის მეთოდი (ანუ, მუშაობს შემთხვევითი რიცხვების გამოყენებით) და გენეტიკური ალგორითმების ზოგიერთი იდეის გამოყენებით, მაგრამ მათგან განსხვავებით, არ საჭიროებს მუშაობას ცვლადები ორობითი კოდით.

დისკრეტული ელემენტის (ENGLE- დან დისკრეტული ელემენტის მეთოდის) მეთოდი არის რიცხვითი მეთოდების ოჯახი, რომელიც განკუთვნილია დიდი რაოდენობით ნაწილაკების გადაადგილებისთვის, როგორიცაა მოლეკულები, ხრეში, ხრეველი, კენჭი და სხვა გრანულირებული მედია. მეთოდი თავდაპირველად იყო გამოყენებული Cundall 1971 წელს Rock მექანიკის პრობლემების მოგვარება.

კვლევის მიზანი:

მონაცემთა განზომილების შემცირების მეთოდოლოგიის ეფექტურობის შეფასება მათი განაცხადის ოპტიმიზაციის მიზნით (იდენტიფიკაცია).

კვლევის ამოცანები:

1. მონაცემების განზომილების შემცირების მიზნით არსებული მეთოდების მიმოხილვა.

2. კვლევის (ექსპერიმენტების) ჩატარება კლასიფიკაციის ამოცანებში გამოყენებული მონაცემების შემცირების ალგორითმების ეფექტურობის შესადარებლად

კვლევის მეთოდები (პროგრამული უზრუნველყოფა):

C + + პროგრამირების ენა, OpenCV ბიბლიოთეკა

პირისათვის მაღალი განზომილების მონაცემების აღქმა რთულია და ზოგჯერ შეუძლებელია. ამ თვალსაზრისით, საკმაოდ ბუნებრივი იყო მრავალმხრივი ნიმუშის გადაღების სურვილი მცირე ზომის მონაცემებით, რათა "მათ შეეძლოთ მათ," შეაფასონ და გამოიყენონ აღიარების ამოცანები. ხილვადობის გარდა, განზომილების შემცირება საშუალებას მოგცემთ მოშორებით ფაქტორების (ინფორმაცია), რომელიც ხელს უშლის სტატისტიკურ ანალიზს, ინფორმაციის შეგროვების დროს, გაზრდის პარამეტრების პარამეტრების და დისტრიბუციის მახასიათებლების შეფასების გაზრდას.

განზომილების შემცირება არის წყაროს მონაცემების ტრანსფორმაცია დიდი განზომილებით ახალი განზომილების ახალ განზომილებაში, რომელიც ძირითად ინფორმაციას ინარჩუნებს. სრულყოფილ შემთხვევაში, კონვერტირებული წარმომადგენლობის განზომილება შეესაბამება მონაცემების შიდა განზომილებას. შიდა მონაცემების განზომილება არის მინიმალური რაოდენობის ცვლადები, რომლებიც საჭიროა ყველა შესაძლო მონაცემების თვისებების გამოხატვისთვის. ანალიტიკური მოდელი, რომელიც აშენდა მრავალჯერადი მონაცემების საფუძველზე, უნდა იყოს ადვილი დამუშავება, განხორციელება და გაგება, ვიდრე წყარო კომპლექტი აშენებული მოდელი.

განზომილების შემცირების მეთოდის არჩევის შესახებ გადაწყვეტილება ეფუძნება ამოცანას და მოსალოდნელ შედეგებს, ასევე შეზღუდულ დროს და გამოთვლილ რესურსებს. ლიტერატურული მიმოხილვების თანახმად, ყველაზე ხშირად გამოყენებული განზომილების შემცირების მეთოდები მოიცავს ძირითად კომპონენტულ ანალიზს (PCA), დამოუკიდებელი კომპონენტის ანალიზს (ICA) და სინგულარული ღირებულების დეკომპოზიციის (SVD).

ძირითადი კომპონენტის ანალიზი (PCA) - მონაცემების განზომილების შემცირების უმარტივესი მეთოდი. იგი ფართოდ გამოიყენება კონვერტაციის ნიშნები, ხოლო მონაცემების განზომილების შემცირებისას კლასიფიკაციის ამოცანებში. მეთოდი ეფუძნება მონაცემების პროექციას მცირე განზომილების ახალი კოორდინაციის სისტემაში, რომელიც განისაზღვრება საკუთარი ვექტორების მიერ და მატრიქსის საკუთარი ნომრებით. მათემატიკის თვალსაზრისით, ძირითადი კომპონენტის მეთოდი არის ორთოგონალური ხაზოვანი ტრანსფორმაცია.

მეთოდის ძირითადი იდეა არის დისპერსიის მინიმუმამდე შესამცირებლად Covariance Matrix- ის Eigenvalues \u200b\u200bდა Eigenvectors. Covariance Matrix გამოიყენება, რათა დადგინდეს scatter შედარებით საშუალო შედარებით ერთმანეთთან. ორი შემთხვევითი ცვლადის Covariance (ზომები) - მათი ხაზოვანი დამოკიდებულების ღონისძიება:

სადაც - X- ის შემთხვევითი ღირებულების მათემატიკური მოლოდინი - შემთხვევითი ცვლადის მათემატიკური მოლოდინი. ჩვენ ასევე შეგვიძლია დავწეროთ ფორმულა (1) ფორმაში:

სად - ნიშნავს X, სადაც - საშუალო y, n არის მონაცემთა განზომილება.

საკუთარი ვექტორებისა და საკუთარი ნომრების გაანგარიშების შემდეგ, მათი ღირებულებები დალაგებულია კლებადობით. ამდენად, კომპონენტები მიიღება მნიშვნელობის შესამცირებლად. საკუთარი ვექტორი უმსხვილეს ბუნებრივი ნომრით და მონაცემთა კომპლექტის ძირითადი კომპონენტია. ძირითადი კომპონენტები მიიღება რიგების გამრავლებით საკუთარი ვექტორებისგან დახარისხებული eigenvalues- ზე. პატარა განზომილების ოპტიმალური სივრცის მოძიება, ფორმულა (3) გამოიყენება, რომელიც ითვლის მინიმალურ შეცდომას მონაცემთა წყაროს მონაცემებსა და შემდეგ კრიტერიუმს შორის:

სადაც P არის ახალი სივრცის განზომილება, N არის ორიგინალური ნიმუშის განზომილება, - eigenvalues, - ბარიერი. ალგორითმის მუშაობისას, ჩვენ მივიღებთ Matrix- ს დეპუტატის მონაცემებს, ხაზოვანი მოწოდებას MN- სგან, რის შემდეგაც PCA აღმოაჩენს ხაზოვანი რუკების M, მინიმუმამდე შეფასების ფუნქცია:

სადაც - Euclidean მანძილი შორის რაოდენობა და, - Euclidean მანძილი შორის რაოდენობა და ,, . მინიმალური ფუნქციის მინიმალური ფუნქცია შეიძლება გამოითვალოს გრემის მატრიცის სპექტრალური დეკომპოზიციის შესრულებით და ამ მატრიქსის საკუთარი ვექტორების გამრავლებას შესაბამისი ეიგენვალებისგან.

დამოუკიდებელი კომპონენტების ანალიზი ( ICA ) , განსხვავებით PCA, ახალი საკმარისი, მაგრამ სწრაფად იძენს პოპულარობის მეთოდი. იგი ეფუძნება წრფივი მონაცემთა ტრანსფორმაციის იდეას ახალ კომპონენტებში, რომლებიც ყველაზე სტატისტიკურად დამოუკიდებელი და სურვილისამებრ orthogonal ერთმანეთს. ამ სტატიაში კვლევისთვის შერჩეული იყო სტატიაში დეტალურად აღწერილი Fastica ალგორითმი. ამ მეთოდის ძირითადი ამოცანებია (მონაცემების საშუალო ცვლილება) და "გაუფერულება" (ვექტორული X- ის წრფივი კონვერტაცია ვექტორი არაკორექტულ კოორდინატებთან ერთად, რომელთა დისპანია ერთია ერთი).

Fastica- ში დამოუკიდებლობის კრიტერიუმი არის არასამთავრობო Geasura, რომელიც იზომება გამოყენებით ექსცესტრო კოეფიციენტი:

Gaussian შემთხვევითი ცვლადებისათვის, ეს მნიშვნელობა არის ნულოვანი, ასე რომ Fastica მაქსიმალურად გაზრდის თავის ღირებულებას. თუ - "გაუფერულება" მონაცემები, მაშინ "გაუფერულების" მონაცემების კოორდენის მატრიცა არის ერთი მატრიცა.

ასეთი ტრანსფორმაცია ყოველთვის შესაძლებელია. "გაუფერულება" პოპულარული მეთოდი იყენებს Covariance Matrix- ის სპექტრალური დეკორაციას , სადაც - საკუთარი ვექტორების ორთოგონალური მატრიცა, არის საკუთარი ნომრების დიაგონალური მატრიცა. აღმოჩნდება, რომ "გათეთრება" შეიძლება წარმოდგენილი იყოს:

სადაც მატრიცა გამოითვლება Pomoponent ოპერაციით:

ექსპერიმენტები

შემოთავაზებული მეთოდების ექსპერიმენტული შესწავლისთვის გამოყენებული იქნა კასია სიარული მონაცემთა ბაზის კოდის დაფუძნებული ვიდეო თანმიმდევრობა. ბაზა შეიცავს ორობითი სურათების თანმიმდევრობას, რომელიც შეესაბამება ვიდეოს თანმიმდევრობის ინდივიდუალურ ფარგლებს, რომელზეც უკვე გაკეთდა მოძრავი ობიექტების განაწილება.

ყველა მრავალი ვიდეო, 15 კლასები შემთხვევით იქნა მიღებული, რომელშიც სროლა კუთხე არის 90 გრადუსი, ხალხი გამოსახულია ჩვეულებრივი არასამთავრობო ზამთრის ტანსაცმელი და გარეშე ჩანთები. თითოეულ კლასში იყო 6 sequences. თითოეული თანმიმდევრობის სიგრძე მინიმუმ 60 ფარგლებში იყო. კლასები იყოფა სწავლისა და შესწავლის ნიმუშების 3 sequences თითოეული.

PCA და ICA მეთოდების შედეგად მიღებული ფუნქციები გამოყენებული იყო კლასიფიკატორის შესასწავლად, რომელიც წინამდებარე საქმეში იყო მხარდაჭერილი ვექტორები (მხარდაჭერა ვექტორი მანქანები, SVM).

მეთოდის მეთოდის ხარისხის განსაზღვრის მიზნით, კლასიფიკაციის სიზუსტე შეფასდა, როგორც სწორად საიდუმლო ობიექტების პროპორციულად. ექსპერიმენტის დროს დაფიქსირდა ტრენინგისა და ტესტირების რეჟიმში გატარებული დრო.

სურათი 1. ა) მეთოდი ძირითადი კომპონენტი (PCA) ბ) დამოუკიდებელი კომპონენტის მეთოდი (ICA)

ფიგურა 1 (A, B) წარმოგიდგენთ კლასიფიკაციის სიზუსტის ურთიერთობას კონვერტაციის შემდეგ მონაცემების გამომავალი განზომილების ღირებულებით. ეს შეიძლება ჩანს, რომ PCA- ში კლასიფიკაციის სიზუსტე კომპონენტების რაოდენობის გაზრდით ოდნავ განსხვავდება და ICA- ს, სიზუსტის გამოყენებისას გარკვეული მნიშვნელობის დაწყებისას, იწყება დაეცემა.

ფიგურა 2. კომპონენტების რაოდენობის კლასიფიკაციის დროის დამოკიდებულება მაგრამ) PCA ბ) ICA

ფიგურა 2 (A, B) წარმოგიდგენთ კლასიფიკაციის დროის დამოკიდებულებას PCA კომპონენტების და ICA- ს რაოდენობის მიხედვით. განზომილების ზრდა ორივე შემთხვევაში თან ახლდა დამუშავების დროში წრფივი ზრდა. გრაფიკები აჩვენებს, რომ SVM Classifier მუშაობდა სწრაფად შემცირების შემდეგ ძირითადი კომპონენტის მეთოდით (PCA).

ძირითადი კომპონენტი Analisys (PCA) მეთოდები, დამოუკიდებელი კომპონენტი analisys (ICA) მუშაობდა საკმაოდ სწრაფად და გარკვეული პარამეტრების მაღალი შედეგების მიღებულ იქნა კლასიფიკაციის ამოცანა. მაგრამ კომპლექსური სტრუქტურის მონაცემებით, ეს მეთოდები ყოველთვის არ მოგცემთ სასურველ შედეგს. აქედან გამომდინარე, ადგილობრივი არაწრფივი მეთოდები სულ უფრო მეტ ყურადღებას უთმობს გარკვეულ ჯიშზე მონაცემების პროექციას, რაც საშუალებას იძლევა, შეინარჩუნოს მონაცემთა სტრუქტურა.

მომავალში, დაგეგმილია, როგორც ალგორითმების სიის გაფართოება, რომელიც გამოიყენება ფუნქციის აღწერა და კლასიფიკაციის მეთოდების ჩამონათვალი. კვლევის კიდევ ერთი მნიშვნელოვანი სფერო, როგორც ჩანს, დამუშავების დროა.

ბიბლიოგრაფია:

  1. Jolliffe, I.t, ძირითადი კომპონენტის ანალიზი, Springer, 2002
  2. Hyvärinen და Erkki Oja, დამოუკიდებელი კომპონენტის ანალიზი: ალგორითმები და პროგრამები, ნერვული ქსელები, 13, 2000
  3. Josiński, H. მხატვრული მოპოვება და HMM- ზე დაფუძნებული კლასიფიკაციის კლასიფიკაცია ადამიანის იდენტიფიკაციის / SPRINGER, 2013 - Vol 481.