BazEkon - Yadda

1

Bayesian Approach to Variable Selection in Linear Regression Model and Its Application

100%

Biskup D.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu

|

2007

|

nr 1162 Application of Mathematics and Statistics in Economics

11-18

W artykule ukazano bayesowskie podejście do problemu doboru zmiennych w modelu regresji liniowej. W tym podejściu dobór zbioru zmiennych dokonuje się przez poszukiwanie modelu o największym prawdopodobieństwie zaistnienia. Ponieważ analityczne obliczenie tego prawdopodobieństwa jest w większości przypadków niemożliwe, została wykorzystana metoda reversible jump. Metoda ta należy do klasy algorytmów typu MCMC (Markov Chain Monte Carlo) przystosowanych do przestrzeni o zmiennej liczbie wymiarów. W artykule przedstawiony jest przykład symulacyjny ze współliniowymi zmiennymi, a także przykład z rzeczywistymi danymi dotyczący predykcji PKB. (abstrakt oryginalny)

2

Analiza czynnikowa zmiennych porządkowych

100%

Sztemberg-Lewandowska M.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2007

|

14

|

nr 1169 Klasyfikacja i analiza danych - teoria i zastosowania

489-498

W literaturze spotyka się zastosowanie tradycyjnej analizy czynnikowej dla zmiennych porządkowych. Celem artykułu jest zbadanie, czy takie podejście jest poprawne, jeśli tak, to czy dla wszystkich zmiennych porządkowych. W artykule porównane zostaną wyniki analizy czynnikowej przeprowadzonej na podstawie korelacji liniowych Pearsona i korelacji polichorycznych dla zmiennych mierzonych na skali trzystopniowej i osobno dla zmiennych mierzonych na skali siedmiostopniowej. Na tej podstawie zbada się, czy podstawne jest zastosowanie korelacji liniowych Pearsona dla zmiennych porządkowych mierzonych na tych skalach. Przedstawiony w artykule przykład empiryczny dotyczący rynku kawy ma na celu przedstawienie podobieństw i różnic w wynikach analizy czynnikowej po zastosowaniu obu korelacji. (fragment tekstu)

3

Analysis of Novel Feature Selection Criterion based on Interactions of Higher Order in Case of Production Plant Data

100%

Pawluk M., Wierzba D.

Metody Ilościowe w Badaniach Ekonomicznych / Szkoła Główna Gospodarstwa Wiejskiego

|

2019

|

20(XX)

|

nr 3

209-216

Feature selection plays vital role in the processing pipeline of today's data science applications and is a crucial step of the overall modeling process. Due to multitude of possibilities for extracting large and highly structured data in various fields, this is a serious issue in the area of machine learning without any optimal solution proposed so far. In recent years, methods based on concepts derived from information theory attracted particular attention, introducing eventually general framework to follow. The criterion developed by author et al., namely IIFS (Interaction Information Feature Selection), extended state-of-the-art methods by adopting interactions of higher order, both 3-way and 4-way. In this article, careful selection of data from industrial site was made in order to benchmark such approach with others. Results clearly show that including side effects in IIFS can reorder output set of features significantly and improve overall estimate of error for the selected classifier. (original abstract)

4

Porównanie metod doboru zmiennych do zagregowanych modeli dyskryminacyjnych

100%

Dudek A., Kurzydłowski A.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2007

|

14

|

nr 1169 Klasyfikacja i analiza danych - teoria i zastosowania

202-209

W artykule przedstawione zostaną wyniki symulacji porównawczej metod doboru zmiennych do modeli składowych na podstawie repozytorium danych z Uniwersytetu Kalifornijskiego w Irvine, przy czym porównanie błędów klasyfikacji zostanie przeprowadzone dla różnych miar zależności zmiennych. W badaniu wykorzystano metody: correlation-based feature selection, correlation-based feature selection based on Hellwig heuristics oraz modyfikację metody CFSH wykorzystującą do optymalizacji algorytmy genetyczne. (fragment tekstu)

5

Efficient Family of Ratio-Type Estimators for Mean Estimation in Successive Sampling on Two Occasions Using Auxiliary Information

100%

Beevi N. T., Chandran C.

Statistics in Transition

|

2017

|

18

|

nr 2

227-245

In this paper, we proposed an efficient family of ratio-type estimators using one auxiliary variable for the estimation of the current population mean under successive sampling scheme. This family of estimators have been studied by Ray and Sahai (1980) under simple random sampling using one auxiliary variable for estimation of the population mean. Using these estimators in successive sampling, the expression for bias and mean squared error of the proposed estimators are obtained up to the first order of approximation. Usual ratio estimator is identified as a particular case of the suggested estimators. Optimum replacement strategy is also discussed. The proposed family of estimators at optimum condition is compared with the simple mean per unit estimator, Cochran (1977) estimator and existing other members of the family. Expressions of optimization are derived and results have been justified through numerical study interpretation. (original abstract)

6

Eliminacja zmiennych z wykorzystaniem marginesu

100%

Kubus M.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2018

|

30

|

nr 507 Klasyfikacja i analiza danych - teoria i zastosowania

124-132

Ważnym etapem budowy klasyfikatora jest dobór zmiennych. W metodzie k najbliższych sąsiadów, wrażliwej na zmienne nieistotne, etap ten jest niezbędny do uzyskania większej dokładności klasyfikacji. Metody doboru zmiennych, które także wykorzystują najbliższe sąsiedztwo, dokonują lokalnej oceny mocy dyskryminacyjnej zmiennych i zarazem reprezentują podejście wielowymiarowe. Część z nich wykorzystuje pojęcie marginesu (margin), definiując za jego pomocą funkcję celu i formułując zadanie ważenia zmiennych jako zadanie optymalizacji. W artykule porównano trzy algorytmy z tej grupy metod ze względu na zdolność identyfikacji zmiennych nieistotnych, dokładność klasyfikacji oraz czas pracy. Zweryfikowano też dwie własne propozycje modyfikacji. W badaniach wykorzystano zbiory danych rzeczywistych z dołączonymi zmiennymi nieistotnymi, które reprezentowały różne rozkłady, niezależne od klas(abstrakt oryginalny)

7

Selekcja zmiennych w analizie skupień marketingowych zbiorów danych binarnych

100%

Korzeniowski J.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2018

|

21

|

nr 508 Klasyfikacja i analiza danych - teoria i zastosowania

89-95

W roku 2001 Desai zaproponował ciekawą miarę podobieństwa dwóch różnych wartości/wariantów tej samej cechy. Miarę tę można w dość prosty sposób wykorzystać do wyznaczenia siły dyskryminacyjnej cechy binarnej lub nominalnej wielostanowej w problemie analizy skupień. Idea oparta jest na tym, że im mniejsze podobieństwo, na przykład 1 do 0 (jako wartości zmiennej binarnej), tym większa zdolność dyskryminacyjna cechy. Ten pomysł zastosowano do skonstruowania nowej metody selekcji zmiennych binarnych w zagadnieniu analizy skupień i w zastosowaniu do dość obszernej klasy zbiorów danych binarnych, jaką są dane marketingowe. Podstawową zaletą nowej metody jest jej niezależność od konieczności grupowania danych, co wiąże się zawsze z przyjęciem jakiejś konkretnej metody grupowania oraz konkretnej wartości liczby skupień. Eksperyment przeprowadzony na 162 zbiorach danych pokazuje wysoką efektywność metody.(abstrakt oryginalny)

8

Problemy selekcji i ważenia zmiennych w zagadnieniu klasyfikacji

100%

Walesiak M.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2005

|

12

|

nr 1076 Klasyfikacja i analiza danych - teoria i zastosowania

106-118

W artykule, głównie na przykładzie wygenerowanych danych w dwuwymiarowej przestrzeni zmiennych, wskazano ograniczenia, które należy wziąć pod uwagę przy selekcji zmiennych w zagadnieniu klasyfikacji. W niektórych sytuacjach jest możliwe uogólnienie na większą liczbę wymiarów. W przeprowadzonych eksperymentach wykorzystano procedurę NtRandLMultiNorm z programu NtRand 2.01, generującą liczby losowe odpowiednie do zadanych wektorów średnich i macierzy kowariancji. W artykule zakładać będziemy, że zmienne opisujące obiekty badania są mierzone na skali przedziałowej lub ilorazowej. (fragment tekstu)

9

Dobór zmiennych do zagregowanych modeli dyskryminacyjnych

100%

Gatnar E.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2005

|

12

|

nr 1076 Klasyfikacja i analiza danych - teoria i zastosowania

79-86

Rozważania nad losowym doborem zmiennych do modeli dyskryminacyjnych ukazują wpływ liczby tych zmiennych (wymiaru przestrzeni zmiennych) na dokładność klasyfikacji modelu zagregowanego. Wprowadzenie do modelu większej liczby zmiennych powoduje zwiększenie błędu klasyfikacji. Aby zmniejszyć tę liczbę, zastosowano korelacyjną metodę doboru zmiennych do modelu. Zaproponowana metoda CFSH generuje modele dyskryminacyjne dokładniejsze od tych, które uzyskał Hall. Ponieważ wykazał on, że metoda CFS jest najlepsza (w sensie minimalizacji błędu klasyfikacji) metodę CFSH porównano jedynie z metodą CFS. (fragment tekstu)

10

Algorytm doboru zmiennych objaśniających o niestabilnej sile zależności

100%

Szłapka M.

Studia Ekonomiczne / Akademia Ekonomiczna w Katowicach

|

2008

|

nr 50 Zastosowanie metod matematycznych w ekonomii i zarządzaniu

121-138

W niniejszym artykule przeprowadzono badanie zmian zależności zmiennych poprzez określenie, jak długo między wybranymi dwoma zmiennymi utrzymywała się ta sama siła zależności. W tym celu wykorzystano wzrokową ocenę charakteru zależności na podstawie diagramu korelacyjnego. Dla okresów podobnego kształtowania się zależności obliczono współczynniki korelacji. Następnie dla każdej z analizowanych jednostek czasu wyznaczono macierz współczynników zależności. Na podstawie tej macierzy wyodrębniono najlepszą kombinację zmiennych objaśniających (dla każdej jednostki czasowej, w której zależność miała zbliżony charakter założono tę samą wartość miernika siły zależności), przy użyciu metody Hellwiga. Analiza przeprowadzana w niniejszym artykule ma na celu zbadanie, jakie są możliwe zmiany zależności zmiennych w miarę upływu czasu oraz jak zmieniają się kombinacje zmiennych najistotniej kształtujących zmienną objaśnianą.(fragment tekstu)

11

Uwagi na temat doboru zmiennych do modelu prognostycznego

100%

Maksymiak E.

Zeszyty Naukowe / Akademia Ekonomiczna w Krakowie

|

1985

|

nr 206 Prace z zakresu prognozowania ekonometrycznego

151-173

W niniejszym artykule przedstawiono propozycje doboru zmiennych do modelu prognostycznego.

12

Pomiar efektów oddziaływania różnych czynników na zmienne społeczno-ekonomiczne

100%

Landmesser J.

Wiadomości Statystyczne

|

2015

|

nr 9

1-13

Celem artykułu jest przegląd metod statystycznych, stosowanych przy szacowaniu efektu oddziaływania czynników, wskazanie zalet i wad owych metod oraz zasygnalizowanie kierunków rozwoju w tym zakresie. Z danymi nieeksperymentalnymi wiąże się problem niewłaściwego doboru próby. Rozważona zostanie selekcja próby na podstawie czynników obserwowalnych oraz nieobserwowalnych. W pierwszym przypadku praktyczne znaczenie ma estymacja efektów oddziaływania czynników przez dopasowanie, w szczególności tzw. dobieranie na podstawie prawdopodobieństwa uczestnictwa (przedstawiony w opracowaniu przykład dotyczy właśnie tej metody). W drugim wskazano propozycje rozwiązań dla sytuacji, gdy ma miejsce selekcja na podstawie czynników nieobserwowalnych, jak estymator "różnic-w-różnicach", estymacja metodą zmiennych instrumentalnych czy parametr LATE. (fragment tekstu)

13

Wzmacnianie zdolności predykcyjnych modeli dyskryminacyjnych przez wyodrębnianie zmiennych objaśniających z sieci neuronowych

100%

Trzęsiok M.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2018

|

21

|

nr 508 Klasyfikacja i analiza danych - teoria i zastosowania

227-236

Wybór metody jest elementem decydującym o pomyślności procesu modelowania, choć jakość i dobór informacji wykorzystanych przy budowie modelu automatycznego uczenia się wydają się co najmniej tak samo ważne. Mimo zautomatyzowanego mechanizmu uczenia nie wystarczy do zbioru uczącego wrzucenie wszystkich danych, jakimi dysponujemy. Konieczne jest dostarczenie informacji istotnych. Jedną z możliwości jest dobór zmiennych do modelu. Inną jest ich przekształcanie. W artykule przedstawiono procedurę łączącą te dwa podejścia - wyodrębnianie zmiennych z wielowarstwowych sieci neuronowych jako metodę doboru zmiennych do modeli budowanych innymi metodami wielowymiarowej analizy statystycznej. Celem artykułu jest zbadanie, jak takie podejście wpływa na zdolności predykcyjne modeli. Pokazano, że technikę tę należy traktować jako jedną z metod wstępnego przetwarzania danych, którą warto wypróbować, bo może prowadzić do polepszenia zdolności predykcyjnych modelu końcowego, choć tego nie gwarantuje.(abstrakt oryginalny)

14

Modele ze zmiennymi ukrytymi w segmentacji rynku

100%

Bąk A.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2007

|

14

|

nr 1169 Klasyfikacja i analiza danych - teoria i zastosowania

411-419

Celami artykułu są prezentacja podstawowych cech modeli ze zmiennymi ukrytymi, pokazanie korzyści płynących z ich stosowania w segmentacji rynku na gruncie badań marketingowych oraz wskazanie problemów związanych z ich praktycznym wykorzystaniem. (fragment tekstu)

15

Wybór modelu oraz zmiennych do modelu w ujęciu Bayesowskim

100%

Biskup D.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu

|

2006

|

nr 1140 Praktyka statystyki

87-97

Wybór, a więc identyfikacja postaci analitycznej modelu regresji, jest jednym z istotniejszych problemów analizy danych eksperymentalnych. W ujęciu bayesowskim odbywa się on przy użyciu kryterium prawdopodobieństwa a posteriori prawdziwości modelu. Prawdziwość modelu rozumiana jest jako poprawność identyfikacji mechanizmu generującego dane będące przedmiotem analizy. Mimo że model, według którego generowane są dane, jest zdeterminowany (nie jest losowy), w ujęciu bayesowskim określa się rozkład prawdopodobieństwa na zbiorze rozpatrywanych modeli, wyrażając w ten sposób niepewność badacza względem postaci modelu. Takie podejście pozwala również na uwzględnienie w analizie subiektywnej wiedzy badacza poprzez określenie rozkładu a priori na przestrzeni modeli. Oznacza to, że w ujęciu bayesowskim jako zmienne losowe mogą być traktowane nie tylko parametry modelu regresji, ale również jego postać analityczna.Praktyczne obliczanie prawdopodobieństw modeli w ujęciu bayesowskim wymusza zwykle zastosowanie metod numerycznych - głównie algorytmów Monte Carlo (np. algorytm Gibbsa). (fragment tekstu)

16

Liniowy model prawdopodobieństwa z regularyzacją jako metoda doboru zmiennych

100%

Kubus M.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2013

|

21

|

nr 279 Klasyfikacja i analiza danych - teoria i zastosowania

201-208

W artykule zaproponowano zastosowanie liniowego modelu prawdopodobieństwa z regularyzacją jako narzędzia doboru zmiennych przed regresją logistyczną. W etapie selekcji zmiennych dodatkowo stosowano sprawdzanie krzyżowe. Takie podejście zapewnia skuteczniejszą eliminację zmiennych nieistotnych od powszechnie stosowanej regularyzowanej regresji logistycznej, a błędy klasyfikacji porównywanych metod nie różnią się w sposób statystycznie istotny. W badaniach empirycznych wykorzystano zbiory z repozytorium Uniwersytetu Kalifornijskiego, a sztucznie wprowadzane zmienne nieistotne generowano z rozkładów zero-jedynkowego lub normalnego.(abstrakt oryginalny)

17

Dobór zmiennych w modelach DEA do badań porównawczych produktywności na przykładzie krajowych spółek dystrybucji energii elektrycznej

75%

Witkowska J.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2006

|

13

|

nr 1126 Klasyfikacja i analiza danych - teoria i zastosowania

424-434

W artykule przedstawiono problematykę doboru zmiennych do badań porównawczych produktywności krajowych spółek dystrybucji energii elektrycznej. Spośród zmiennych opisujących działalność spółek związaną z przesyłem i dystrybucją dokonano wyboru takich zmiennych, które byłyby użyteczne w badaniach porównawczych produktywności regulowanych przedsiębiorstw, a jednocześnie spełniałyby wymagania wynikające z zastosowania do oceny produktywności metody DEA (data envelopment analysis - metoda obwiedni danych). Podjęty problem stanowi kontynuację prac badawczych zaprezentowanych w artykułach [Chrabołowska 2005; Chrabołowska, Nazarko, Rybaczuk 2004; Nazarko, Rybaczuk, Chrabołowska 2004; Pluta 1977]. (fragment tekstu)

18

Selection of Explanatory Variables for Linear Regression Models Estimated on Regional Panel Data

75%

Kowerski M.

Barometr Regionalny

|

2023

|

19

|

nr 1

95-105

Jednym z najważniejszych problemów podczas konstrukcji jednorównaniowego liniowego modelu regresji jest dobór zmiennych objaśniających. O ile wypracowano wiele metod doboru zmiennych do modeli szacowanych na podstawie szeregów czasowych lub danych przekrojowych, o tyle brakuje metod doboru zmiennych do modeli panelowych. Brak odpowiedniej metody doboru zmiennych do liniowych modeli panelowych może prowadzić do otrzymania błędnych wartości parametrów przy niektórych zmiennych, co utrudnia, a niekiedy wręcz uniemożliwia, prawidłową interpretację. Metody doboru zmiennych do modeli panelowych nie mogą się opierać na współczynniku korelacji liniowej Pearsona. Dlatego zaproponowano trzyetapową procedurę zmiennych do liniowych modeli panelowych zapewniającą właściwe znaki parametrów przy wszystkich wybranych zmiennych. Procedurę zilustrowano przykładem doboru zmiennych do panelowych modeli ze stałymi i losowymi efektami średniorocznej stopy bezrobocia według BAEL (w %) w polskich województwach w latach 2010-2021 (zbilansowany panel składający się ze 192 obserwacji). (abstrakt oryginalny)

19

Effective Transformation-Based Variable Selection Under Two-Fold Subarea Models in Small Area Estimation

75%

Cai S., Rao J. N. K., Dumitrescu L., Chatrchi G.

Statistics in Transition

|

2020

|

21

|

nr 4 Special Issue

68-83

We present a simple yet effective variable selection method for the two-fold nested subarea model, which generalizes the widely-used Fay-Herriot area model. The twofold subarea model consists of a sampling model and a linking model, which has a nested-error model structure but with unobserved responses. To select variables under the two-fold subarea model, we first transform the linking model into a model with the structure of a regular regression model and unobserved responses. We then estimate an information criterion based on the transformed linking model and use the estimated information criterion for variable selection. The proposed method is motivated by the variable selection method of Lahiri and Suntornchost (2015) for the Fay-Herriot model and the variable selection method of Li and Lahiri (2019) for the unit-level nested-error regression model. Simulation results show that the proposed variable selection method performs significantly better than some naive competitors, especially when the variance of the area-level random effect in the linking model is large. (original abstract)

20

Population Variance Estimation Using Factor Type Imputation Method

75%

Pandey R., Yadav K.

Statistics in Transition

|

2017

|

18

|

nr 3

375-392

We propose a variance estimator based on factor type imputation in the presence of non-response. Properties of the proposed classes of estimators are studied and their optimality conditions are derived. The proposed classes of factor type ratio estimators are shown to be more efficient than some of the existing estimators, namely, the usual unbiased estimator of variance, ratio-type, dual to ratio type and ratio cum dual to ratio estimators. Their performances are assessed on the basis of relative efficiencies. Findings are illustrated based on a simulated and real data set. (original abstract)