PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2016 | nr 4 (54) | 61--71
Tytuł artykułu

Methods for Imputation of Missing Values and Their Influence on the Results of Segmentation Research

Treść / Zawartość
Warianty tytułu
Metody uzupełniania braków danych i ich wpływ na wyniki badań segmentacyjnych
Języki publikacji
EN
Abstrakty
Braki odpowiedzi są częstym problemem we wszelkiego rodzaju badaniach, zwłaszcza z obszaru nauk społecznych. W konsekwencji opracowane zostało wiele sposobów rozwiązania tego problemu, uwzględniających między innymi analizę przypadków kompletnych czy imputacje - polegające na przypisaniu w miejsce braku wartości wyznaczonej przy wykorzystaniu różnych algorytmów. W niniejszym artykule dokonano oceny wpływu przyjętej metody zastępowania braków odpowiedzi na wyniki badań segmentacyjnych, prowadzonych przy wykorzystaniu analizy skupień. W tym celu wykorzystano zbiór danych z rzeczywistego badania konsumenckiego, w którym braki odpowiedzi zostały usunięte bądź zastąpione przy wykorzystaniu różnych, możliwych podejść. Na tak przygotowanych zestawach przypadków przeprowadzono analizy skupień, zarówno przy założeniu porządkowego, jak i przedziałowego poziomu pomiaru, następnie zaś porównano jakość grupowania, wyrażoną wybranymi wskaźnikami. Tak przeprowadzone badanie wskazało na przewagę imputacji nad analizą przypadków kompletnych, dowiodło także zasadności stosowania podejść bardziej złożonych niż zastępowanie braków średnią lub medianą.(abstrakt oryginalny)
EN
The lack of answers is a common problem in all types of research, especially in the field of social sciences. Hence a number of solutions were developed, including the analysis of complete cases or imputations that supplement the missing value with a value calculated according to different algorithms. This paper evaluates the influence of the adopted method for the supplementation of missing answers regarding the result of segmentation conducted with the use of cluster analysis. In order to achieve this we used a set of data from an actual consumer research in which the cases with missing values were deleted or supplemented with the use of various methods. Cluster analyses were then performed on those sets of data, both with the assumption of ordinal and ratio level of measurement, and then the grouping quality, as expressed by different indicators, was evaluated. This research proved the advantage of imputation over the analysis of complete cases, it also proved the validity of using more complex approaches than the simple supplementation with an average or median value.(original abstract)
Rocznik
Numer
Strony
61--71
Opis fizyczny
Twórcy
  • Lublin University of Technology
  • Lublin University of Technology
Bibliografia
  • Caliński T., Harabasz J., 1974, A dendrite method for cluster analysis, Communications in Statistics, 3 (1), pp. 1-27.
  • Charrad M., Ghazzali N., Boiteau V., Niknafs A., Charrad M.M., 2014, Package 'NbClust', Journal of Statistical Software 61, pp. 1-36.
  • Cole J.C., 2008, How to deal with missing data, Best Practices in Quantitative Methods, pp. 214-238.
  • Hubert L.J., Levin J.R., 1976, A general statistical framework for assessing categorical clustering in free recall, Psychological Bulletin, 83(6), pp. 1072-1080.
  • Jajuga K., Walesiak M., Bak A., 2003, On the General Distance Measure, [in:] Exploratory Data Analysis in Empirical Research, Springer Berlin Heidelberg, pp. 104-109.
  • King G., James H., Anne J., Kenneth S., 2001, Analyzing incomplete political science data: an alternative algorithm for multiple imputation, American Political Science Review 95 (1, March), pp. 49-69.
  • Labovitz S., 1967, Some observations on measurement and statistics, Social Forces, 46(2), pp. 151-160.
  • Little R.J.A., 1988, Missing data adjustments in large surveys, Journal of Business Economics and Statistics, 6, pp. 287-301.
  • Marcus-Roberts H.M., Roberts F.S., 1987, Meaningless statistics, Journal of Educational Statistics, 12, pp. 383-394.
  • Migdał-Najman K., 2011, Ocena jakości wyników grupowania-przegląd bibliografii, Przegląd Statystyczny, 58(3-4), pp. 281-299.
  • Rousseeuw P., 1987, Silhouettes: a graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics, 20, pp. 53-65.
  • Rubin D.B., 1976, Inference and missing data, Biometrika, 63, pp. 581-592.
  • Sambandam R., 2003, Cluster analysis gets complicated, Marketing Research, vol. 15, no. 1.
  • Stevens S., 1946, On the theory of scales of measurement, Science, 103(2684), pp. 677-680.
  • Schafer, J.L., 1997, Analysis of Incomplete Multivariate Data, Chapman & Hall, New York.
  • Schafer J.L., Graham J.W., 2002, Missing data: our view of the state of the art, Psychological Methods, 7(2).
  • Walesiak M., 2006, Uogólniona miara odległości w statystycznej analizie wielowymiarowej, Wydawnictwo Akademii Ekonomicznej im. Oskara Langego, Wrocław.
  • Walesiak M., Dudek A., 2006, Symulacyjna optymalizacja wyboru procedury klasyfikacyjnej dla danego typu danych - oprogramowanie komputerowe i wyniki badań, Taksonomia 13, Prace Naukowe Akademii Ekonomicznej we Wrocławiu 1126, pp. 120-129.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171458789

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.