BazEkon - Yadda

1

Outlier Detection : Notions, Problems, and Methodological Proposals

100%

Owsiński J. W.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2006

|

13

|

nr 1126 Klasyfikacja i analiza danych - teoria i zastosowania

45-55

Wykrywanie obiektów (obserwacji) nietypowych stało się ostatnio niezwykle popularne. Wynika to z bardzo szybkiego rozwoju dziedzin, w których istnieją ogromne zbiory danych i w związku z tym pojawia się możliwość wykrywania zachowań nieprawidłowych i kryminalnych. Artykuł pokazuje kilka reprezentatywnych przykładów podejść do wykrywania obserwacji nietypowych. Proponuje także pewien sposób rozumienia pojęcia obserwacji nietypowej. Na tle tego rozumienia obserwacji nietypowej zarysowano dwie podstawowe sytuacje, a mianowicie wtedy gdy dysponujemy pewnym "modelem" procesu oraz gdy mamy do czynienia ze wstępna analizą danych, nie dysponujemy modelem i nasza wiedza jest bardzo ograniczona. Pokazano, że w sytuacji, gdy dysponujemy pewnym modelem, możliwe jest bliskie obiektywnemu wykrywanie obserwacji nietypowych. Dla przypadku ogólnego zaproponowano badanie odporności obserwacji klasyfikowanych jako pojedyncze skupienia. (abstrakt oryginalny)

2

Analiza składowych głównych dla danych czasowo-przestrzennych

100%

Krzyśko M., Wołyński W., Łukaszonek W., Ratajczak W.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2018

|

30

|

nr 507 Klasyfikacja i analiza danych - teoria i zastosowania

115-123

W pracach [Górecki i in. 2014; 2016] przedstawiono konstrukcję składowych głównych dla wielowymiarowych danych zmiennych w czasie (wielowymiarowych danych funkcjonalnych). W pracach [Harris i in. 2011] oraz [Lu i in. 2014] podano konstrukcję składowych głównych dla wielowymiarowych danych przestrzennych. Są to składowe główne lokalne, geograficznie ważone. W pracy tej przedstawiona jest konstrukcja składowych głównych dla wielowymiarowych danych czasowo-przestrzennych, łącząca wyniki przywołanych prac(abstrakt oryginalny)

3

Obserwacje nietypowe - przypadek wielowymiarowy

100%

Heilpern S.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu

|

2005

|

nr 1097 Statystyka ekonomiczna

68-87

Praca jest poświęcona badaniu nietypowych obserwacji wielowymiarowych. Jest to praca przeglądowa stanowiąca dalszy ciąg pracy dotyczącej danych jednowymiarowych. W pracy będziemy się zajmować wykrywaniem wielowymiarowych obserwacji nietypowych, dokładnie - obserwacji odstających, oraz opiszemy odporne metody estymacji charakterystyk wielowymiarowych rozkładów opisujących populację. Przypomnijmy, że w obserwacje nietypowe, różniące się od pozostałych, zostały podzielone na obserwacje, których wartości zostały błędnie podane, oraz na obserwacje odstające, poprawne, ale pochodzące z populacji innej niż zasadnicza część obserwacji, nazywana rdzeniem. W naszej pracy będziemy się zajmowali obserwacjami odstającymi. (fragment tekstu)

4

Niejednorodność obserwacji w modelach logitowych

80%

Kapłon R.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Ekonometria

|

2006

|

17

|

nr 1123 Zastosowania metod ilościowych

95-106

Właśnie taki cel, zorientowany na wskazanie podobieństw i różnic między metodami, przyświeca niniejszej pracy. W celu kompletności rozważań przedstawiono cały proces modelowania - od budowy modelu, poprzez estymację parametrów i weryfikację. Podstawą wyprowadzanych wniosków będą modele logitowe, które na gruncie badań marketingowych bardzo często wykorzystywane są do modelowania zachowań (decyzji wyboru) konsumentów. (fragment tekstu)

5

Grupy obserwacji nietypowych - test wielowymiarowy

80%

Czekała M.

Prace Naukowe / Akademia Ekonomiczna w Katowicach

|

2004

|

Postępy ekonometrii

15-21

Praca poświęcona jest analizie obserwacji nietypowych. W części drugiej podano propozycję definicji obserwacji nietypowych (…). W części trzeciej przedstawiono teoretyczne podstawy (wynikające z teorii statystyki ekstremalnych) wykrywania zbiorów obserwacji nietypowych oraz propozycję testu opartego na rozkładzie grupy statystyk ekstremalnych. W części czwartej zamieszczono przykład empiryczny ilustrujący proces wykrywania obserwacji nietypowych. (fragment tekstu)

6

Analiza danych czasowych z obserwacjami nietypowymi z wykorzystaniem metod geostatystyki

80%

Suchecka J., Kowalik J.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2005

|

12

|

nr 1076 Klasyfikacja i analiza danych - teoria i zastosowania

96-105

Zasadniczym celem niniejszego opracowania jest przedstawienie teoretycznych aspektów wykorzystania geostatystycznej techniki krigingu w iteracyjnej procedurze wykrywania obserwacji nietypowych w szeregach czasowych, opartej na teście współczynnika prawdopodobieństwa. Rozważania ograniczono do modelu ARIMA (p, d, q). (fragment tekstu)

7

Untypical Observations in Linear Regression

80%

Kobylińska M.

Olsztyn Economic Journal

|

2011

|

nr 6 (2)

239-249

W analizowanych zbiorze danych zjawisk i procesów społeczno-ekonomicznych mogą wystąpić wyniki odbiegające od pozostałych. Ujawnienie takich obserwacji nietypowych jest istotnym zagadnieniem badawczym, gdyż mogą one zniekształcać analizę statystyczną badanego zjawiska. W pracy omówiono rodzaje nietypowości obserwacji w próbie dwuwymiarowej. Zaproponowano metodę wykrywania obserwacji nietypowych w regresji liniowej opartą na miarach zanurzania obserwacji w próbie, którą zilustrowano przykładem liczbowym. (abstrakt oryginalny)

8

Eliminacja obserwacji nietypowych - rozkład maksimum

80%

Czekała M.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Ekonometria

|

2001

|

7

|

nr 895 Zastosowania metod ilościowych

73-81

W rozkładach jednomodalnych (szczególnie symetrycznych jednomodalnych) wartości oddalone od modalnych są zwykle mniej prawdopodobne (mają mniejszą wartość gęstości - jeśli pominąć przedziały stałości). Dlatego też w takim przypadku (który jest głównym przedmiotem zainteresowania w niniejszej pracy) właśnie wartości oddalone od wartości środkowych (wartości oczekiwanej, mediany lub dominanty) powinny być badane pod kątem ewentualnej "nietypowości". W celu eliminacji wartości nietypowych użyjemy rozkładów statystyk pozycyjnych. (fragment tekstu)

9

Identyfikacja obserwacji oddalonych z wykorzystaniem metody wektorów nośnych

80%

Trzęsiok M.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2007

|

14

|

nr 1169 Klasyfikacja i analiza danych - teoria i zastosowania

350-357

Dyskryminacyjna metoda wektorów nośnych należy do grupy metod odpornych, tzn. że występowanie obserwacji nietypowych lub błędnie sklasyfikowanych w zbiorze uczącym nie wpływa znacząco na jakość otrzymanego modelu. W artykule przedstawiono metodę SVM przeformułowaną tak, by identyfikowała obserwacje oddalone, oraz próbę empirycznego sprawdzenia, czy przeprowadzenie wstępnej identyfikacji i usunięcie obserwacji oddalonych poprawia jakość dyskryminacji na zbiorze testowym. (fragment tekstu)

10

Outlier Detection in the Analysis of Nested Gage R&R, Random Effect Model

80%

Abduljaleel M., Midi H., Karimi M.

Statistics in Transition

|

2019

|

20

|

nr 3

31-56

Measurement system analysis is a comprehensive valuation of a measurement process and characteristically includes a specially designed experiment that strives to isolate the components of variation in that measurement process. Gage repeatability and reproducibility is the adequate technique to evaluate variations within the measurement system. Repeatability refers to the measurement variation obtained when one person repeatedly measures the same item with the same Gage, while reproducibility refers to the variation due to different operators using the same Gage. The two factors factorial design, either crossed or nested factor, is usually used for a Gage R&R study. In this study, the focus is only on the nested factor, random effect model. Presently, the classical method (the method of analysing data without taking into consideration the existence of outliers) is used to analyse the nested Gage R&R data. However, this method is easily affected by outliers and, consequently, the measurement system's capability is also affected. Therefore, the aims of this study are to develop an identification method to detect outliers and to formulate a robust method of measurement analysis of nested Gage R&R, random effect model. The proposed methods of outlier detection are based on a robust mm location and scale estimators of the residuals. The results of the simulation study and real numerical example show that the proposed outlier identification method and the robust estimation method are the most successful methods for the detection of outliers. (original abstract)

11

Detection of Outliers in Univariate Circular Data by Means of the Outlier Local Factor (LOF)

80%

Abuzaid A. H.

Statistics in Transition

|

2020

|

21

|

nr 3

39-51

The problem of outlier detection in univariate circular data was the object of increased interest over the last decade. New numerical and graphical methods were developed for samples from different circular probability distributions. The main drawback of the existing methods is, however, that they are distribution-based and ignore the problem of multiple outliers. The local outlier factor (LOF) is a density-based method for detecting outliers in multivariate data and it depends on the local density of every k nearest neighbours. The aim of this paper is to extend the application of the LOF to the detection of possible outliers in circular samples, where the angles of circular data are represented in two Cartesian coordinates and treated as bivariate data. The performance of the LOF is compared against other existing numerical methods by means of a simulation based on the power of a test and the proportion of correct detection. The LOF performance is compatible with the best existing discordancy tests, while outperforming other tests. The level of the LOF performance is directly related to the contamination and concentration parameters, while having an inverse relationship with the sample size. In order to illustrate the process, the LOF and other existing discordancy tests are applied to detect possible outliers in two common real circular datasets. (original abstract)

12

Normowanie zmiennych opisujących obiekty nietypowe

80%

Nermend K.

Metody Ilościowe w Badaniach Ekonomicznych / Szkoła Główna Gospodarstwa Wiejskiego

|

2009

|

10(X)

|

nr 1

185-193

W wielu badaniach problem stanowią obiekty nietypowe, których cechy opisywane są bardzo dużymi wartościami. Mogą one wpływać w sposób znaczący na wyniki badań z powodu zmniejszania zakresu zmiennych dotyczących obiektów typowych podczas normowania. Niekorzystny wpływ wartości nietypowych można zminimalizować przez wykorzystanie pewnych metod normowania. W artykule zostały przedstawione dwie tego typu metody: standaryzacja z ważonym odchyleniem standardowym oraz unitaryzacja z wartościami progowymi.(abstrakt oryginalny)

13

Developing Calibration Estimators for Population Mean Using Robust Measures of Dispersion under Stratified Random Sampling

61%

Audu A., Singh R., Khare S.

Statistics in Transition

|

2021

|

22

|

nr 2

125-142

In this paper, two modified, design-based calibration ratio-type estimators are presented. The suggested estimators were developed under stratified random sampling using information on an auxiliary variable in the form of robust statistical measures, including Gini's mean difference, Downton's method and probability weighted moments. The properties (biases and MSEs) of the proposed estimators are studied up to the terms of first-order approximation by means of Taylor's Series approximation. The theoretical results were supported by a simulation study conducted on four bivariate populations and generated using normal, chi-square, exponential and gamma populations. The results of the study indicate that the proposed calibration scheme is more precise than any of the others considered in this paper.(original abstract)

14

Observation Depth Measure in a Sample in the Voivodeship Classification of the Property Market

61%

Kobylińska M.

Olsztyn Economic Journal

|

2013

|

nr 8 (4)

373-382

Problem klasyfikacji jest od dawna przedmiotem zainteresowań w wielu dziedzinach wiedzy. Pozwala ona na uzyskanie jednorodnych grup obiektów ze względu na dane kryterium. Wybór odpowiedniej miary odległości, która jest wykorzystywana w grupowaniu obiektów wielowymiarowych, ma istotny wpływ na uzyskane wyniki klasyfikacji. W pracy zastosowano miarę zanurzania obserwacji w próbie do klasyfikacji województw, ze względu na wybrane cechy dotyczące rynku nieruchomości w 2011 roku. Wyodrębniono województwa charakteryzujące się typowymi wartościami wszystkich analizowanych cech oraz te, które można uznać za odstające ze względu na osiąganie w nich wysokich lub niskich wartości badanych zmiennych. (abstrakt oryginalny)

15

Identyfikacja i znaczenie obserwacji nietypowych w modelach konwergencji dochodowej

61%

Batóg J.

Zeszyty Naukowe / Uniwersytet Ekonomiczny w Krakowie

|

2015

|

nr 5 (941)

5-15

Badanie zjawiska konwergencji dochodowej znajduje szerokie odzwierciedlenie w dotychczasowym dorobku nauki i praktyce gospodarczej. Otrzymywane rezultaty charakteryzują się jednak stosunkowo dużym zróżnicowaniem. Wielu autorów wskazuje na silne uzależnienie uzyskiwanych wyników od zakresu czasowego i przekrojowego prowadzonych analiz oraz stosowanych metod badawczych. Mało uwagi poświęca się jednak roli obserwacji nietypowych, które mogą być wynikiem błędnego pomiaru, wystąpienia zdarzenia losowego, niestandardowych warunków lub działań o charakterze celowym. Weryfikacji poddana została hipoteza o istotnym wpływie tych obserwacji na uzyskiwane wyniki procesu estymacji. Głównym celem pracy było ustalenie, czy występowanie obserwacji uznanych za nietypowe istotnie zmienia jakość modeli oraz szybkość procesu konwergencji dochodowej.(abstrakt oryginalny)

16

Identyfikacja obserwacji odstających w badaniach ankietowych z wykorzystaniem modeli regresji binarnych

61%

Zdobylak J.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu

|

2006

|

nr 1105 Zastosowanie statystyki w ekonomii

142-153

Celem artykułu jest przedstawienie zastosowania metod wykrywania obserwacji odstających do analizy danych pochodzących z badań ankietowych. Zostanie przeprowadzona analiza otrzymanych wyników i podane będą praktyczne wskazówki dla osób chcących stosować przedstawione metody.Dane odstające są zazwyczaj definiowane jako obserwacje niepochodzące z wcześniej założonego modelu albo jako wartości, które są znacznie oddalone od pozostałych obserwacji. Trudno jest jednak zdefiniować, czym są obserwacje odstające, ponieważ pojęcie obserwacji znacznie oddalonych od pozostałych jest względne. Autorka zatem nie poda uniwersalnej definicji, poda natomiast definicję, która będzie dostosowana do rozważanego problemu oraz przyjętego modelu. (fragment tekstu)

17

Nietypowe realizacje jednowymiarowych zmiennych losowych

61%

Heilpern S.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu

|

2005

|

nr 1097 Statystyka ekonomiczna

45-67

Praca ma charakter przeglądowy. Składa się z dwóch części i dodatku. W pierwszej przedstawimy wybrane metody wykrywania obserwacji odstających, a w drugiej opiszemy odporne metody wyznaczania estymatorów charakterystyk rozkładu populacji uwzględniających obserwacje odstające, jednak słabo na nie reagujących. Ponadto dodatek obejmuje 4 tablice, zawierające wartości testów statystycznych umożliwiających wykrywanie obserwacji odstających.Przykłady zamieszczone w pracy zawierają głównie dane fikcyjne, służące jedynie do ilustracji przedstawionych metod wykrywania obserwacji odstających. Podane są jednak też przykłady oparte na rzeczywistych danych, sygnalizujące możliwe, praktyczne zastosowania tych metod. (fragment tekstu)

18

Extreme Gradient Boosting Method in the Prediction of Company Bankruptcy

61%

Pawełek B.

Statistics in Transition

|

2019

|

20

|

nr 2

155-171

Machine learning methods are increasingly being used to predict company bankruptcy. Comparative studies carried out on selected methods to determine their suitability for predicting company bankruptcy have demonstrated high levels of prediction accuracy for the extreme gradient boosting method in this area. This method is resistant to outliers and relieves the researcher from the burden of having to provide missing data. The aim of this study is to assess how the elimination of outliers from data sets affects the accuracy of the extreme gradient boosting method in predicting company bankruptcy. The added value of this study is demonstrated by the application of the extreme gradient boosting method in bankruptcy prediction based on data free from the outliers reported for companies which continue to operate as a going concern. The research was conducted using 64 financial ratios for the companies operating in the industrial processing sector in Poland. The research results indicate that it is possible to increase the detection rate for bankrupt companies by eliminating the outliers reported for companies which continue to operate as a going concern from data sets. (original abstract)

19

Obserwacje nietypowe w analizie skupień - podejście modelowe

61%

Witek E.

Prace Naukowe / Akademia Ekonomiczna w Katowicach

|

2008

|

Zarządzanie, finanse, ekonomia : warsztaty doktoranckie '07

495-504

Podejście modelowe w taksonomii (model-based clustering) zakłada, że obserwacje pochodzą z pewnego skończonego zbioru prostych rozkładów prawdopodobieństwa o nieznanych parametrach. W praktyce najczęściej wykorzystywany jest rozkład normalny. W modelach mieszanek każda zmienna sztuczna, której prawdopodobieństwa nie znamy, przypisana jest odpowiedniej klasie. Problem wyboru najlepszej z metod klasyfikacji i optymalnej liczby klas sprowadza się do wyboru modelu statystycznego o najlepszej jakości dopasowania. Celem artykułu jest przedstawienie podejścia modelowego w analizie skupień jako metody odpornej na obserwacje nietypowe. Dokonano modyfikacji modelu mieszanek poprzez dodanie dodatkowej, sztucznej zmiennej (klasy) modelu dla obserwacji nietypowych, przyjmujących rozkład Poissona. (fragment tekstu)

20

Obserwacje nietypowe w modelowaniu neuronowym

61%

Lula P., Morajda J.

Zeszyty Naukowe / Akademia Ekonomiczna w Krakowie

|

2001

|

nr 569

39-54

Artykuł poświęcony jest problemom związanym z obserwacjami nietypowymi w modelowaniu neuronowym procesów ekonomicznych. Autorzy przedstawili klasyfikację obserwacji nietypowych i określili ich wpływ na proces konstrukcji modelu oraz jego późniejszego wykorzystania. W badaniach rozważano modele wykorzystujące jednokierunkowe sieci wielowarstwowe (sieci MLP, perceptrony wielowarstwowe) oraz sieci o radialnych funkcjach bazowych (sieci RBF). (abstrakt oryginalny)