Statistikoje „anomalija” yra terminas, naudojamas aprašyti stebėjimus, kurie neatitinka kitų duomenų rinkinio stebėjimų. Kitais žodžiais tariant, tai yra vertės, kurios atrodo „neįprastos” palyginti su dauguma kitų duomenų rinkinio reikšmių. Anomalijos taip pat vadinamos išskirtimis, atskirais atvejais, neįprastais atvejais ar netikėtomis reikšmėmis.
Anomalijų tipai
Anomalijos statistikoje paprastai suskirstytos į tris pagrindines kategorijas:
- Globalios anomalijos. Tai yra duomenys, kurie išsiskiria nuo viso duomenų rinkinio. Pavyzdžiui, jei turime duomenų rinkinį, kuriame pateikiamas mokinio ūgis, globali anomalija gali būti mokinys, kurio ūgis yra 2 metrai, kai dauguma kitų mokinių yra apie 1,5 metrų.
- Lokalios anomalijos. Tai yra duomenys, kurie išsiskiria tik tam tikroje duomenų rinkinio dalyje. Lokalios anomalijos gali nepastebėti, jei analizuojate tik bendrą duomenų rinkinį.
- Taškinės, kontekstinės ir kolektyvinės anomalijos. Taškinės anomalijos yra atskiri duomenų taškai, kurie skiriasi nuo kitų. Kontekstinės anomalijos yra tokios, kurios priklauso nuo situacijos (pvz., temperatūra). Kolektyvinės anomalijos yra grupės duomenų taškų, kurie nesutampa su visais duomenimis, jei jie vertinami kartu.
Anomalijų aptikimas
Anomalijų aptikimas yra svarbus duomenų analizės procesas, nes jis gali atskleisti klaidas duomenyse, išskirti svarbius duomenų taškus arba rodyti potencialias problemas. Priklauso nuo specifinio taikymo srities, anomalijos gali būti traktuojamos kaip triukšmas (ir todėl ignoruojamos arba pašalinamos), kaip klaidos (kurios turi būti ištaisytos) arba kaip svarbūs signalai.
Anomalijų aptikimo metodai gali būti klasifikacijos, klasterizacijos, statistiniai, naudojantys mašininį mokymąsi arba naudojantys laiko eilučių analizę. Kai kuriuose metoduose, pavyzdžiui, statistiniuose, naudojama modeliavimo prielaida, kad duomenys seka tam tikrą pasiskirstymą, ir bet koks stebėjimas, kuris labai nukrypsta nuo šio pasiskirstymo, laikomas anomalija.
Anomalijų valdymas
Kaip elgtis su aptiktomis anomalijomis priklauso nuo jūsų analizės tikslo. Kartais anomalijos gali būti pašalintos iš duomenų rinkinio, kad nekreiptų dėmesio nuo kitų tendencijų. Kartais, ypač kai anomalijos yra klaidos, jos gali būti pakeistos arba „užpildytos” kitomis metodikomis. Bet kartais anomalijos gali rodyti svarbius duomenų aspektus, tokiu atveju jas reikia išsamiau išnagrinėti.
Atsiminkite, kad anomalijos yra neišvengiamos, bet jos nėra būtinai blogos. Svarbu yra mokėti jas tinkamai aptikti ir valdyti, kad jūsų duomenų analizė būtų kuo tiksliausia ir informatyviausia.