PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2020 | nr 9 | 7--27
Tytuł artykułu

Strata informacji wskutek przeprowadzenia kontroli ujawniania danych wynikowych

Autorzy
Warianty tytułu
Information Loss Resulting from Statistical Disclosure Control of Output Data
Języki publikacji
PL
Abstrakty
W pracy omówiono najważniejsze metody, za pomocą których można ocenić stratę informacji spowodowaną przeprowadzaniem kontroli ujawniania danych (ang. statistical disclosure control, SDC). Kontrola ta ma na celu ochronę przed identyfikacją jednostki i dotarciem do dotyczących jej wrażliwych informacji przez osoby nieupoważnione. Zastosowanie metod zarówno opartych na ukrywaniu określonych danych, jak i prowadzących do ich zniekształcania powoduje stratę informacji, która ma wpływ na jakość danych wynikowych, w tym rozkładów zmiennych, kształt ich związków oraz estymacji. Celem artykułu jest krytyczna analiza mocnych i słabych stron metod oceny straty informacji na skutek zastosowania SDC. Przedstawiono również nowatorskie propozycje prowadzące do uzyskania efektywnych i dobrze interpretowalnych mierników, m.in. nową możliwość wykorzystania funkcji cyklometrycznej (arcus tangens) do wyznaczenia odchylenia wartości od tych oryginalnych po przeprowadzeniu SDC. Ponadto zastosowano odwróconą macierz korelacji do oceny wpływu SDC na siłę związków między zmiennymi. Pierwsza z przedstawionych metod umożliwia uzyskanie efektywnych i dobrze interpretowalnych mierników, druga - maksymalne wykorzystanie wzajemnych powiązań między zmiennymi (także tych trudno uchwytnych za pomocą klasycznych metod statystycznych) w celu lepszej analizy skutków kontroli w tym zakresie. Empiryczna weryfikacja użyteczności sugerowanych metod potwierdziła m.in. przewagę funkcji cyklometrycznej w pomiarze odległości w zakresie uwypuklania odchyleń od danych oryginalnych, a także potrzebę umiejętnej korekcji jej spłaszczenia przy dużej wartości argumentów. (abstrakt oryginalny)
EN
The most important methods of assessing information loss caused by statistical disclosure control (SDC) are presented in the paper. The aim of SDC is to protect an individual against identification or obtaining any sensitive information relating to them by anyone unauthorised. The application of methods based either on the concealment of specific data or on their perturbation results in information loss, which affects the quality of output data, including the distributions of variables, the forms of relationships between them, or any estimations. The aim of this paper is to perform a critical analysis of the strengths and weaknesses of the particular types of methods of assessing information loss resulting from SDC. Moreover, some novel ideas on how to obtain effective and well-interpretable measures are proposed, including an innovative way of using a cyclometric function (arcus tangent) to determine the deviation of values from the original ones, as a result of SDC. Additionally, the inverse correlation matrix was applied in order to assess the influence of SDC on the strength of relationships between variables. The first presented method allows obtaining effective and well- -interpretable measures, while the other makes it possible to fully use the potential of the mutual relationships between variables (including the ones difficult to detect by means of classical statistical methods) for a better analysis of the consequences of SDC. Among other findings, the empirical verification of the utility of the suggested methods confirmed the superiority of the cyclometric function in measuring the distance between the curved deviations and the original data, and also heighlighted the need for a skilful correction of its flattening when large value arguments occur. (original abstract)
Rocznik
Numer
Strony
7--27
Opis fizyczny
Twórcy
  • Akademia Kaliska im. Prezydenta Stanisława Wojciechowskiego; Urząd Statystyczny w Poznaniu
Bibliografia
  • Antal, L. (2016). Statistical Disclosure Control for Frequency Tables [Rozprawa doktorska, University of Manchester]. Pobrane z: https://www.research.manchester.ac.uk/portal/files/54587025/FULL_TEXT.PDF .
  • Biemer, P. P., de Leeuw, E., Eckman, S., Edwards, B., Kreuter, F., Lyberg, L. E., Tucker, N. C., West, B. T. (2017). Total Survey Error in Practice. Hoboken: John Wiley & Sons.
  • Box, G. E., Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical Society. Series B (Methodological), (26), 211-252.
  • Domingo-Ferrer, J., Mateo-Sanz, J. M., Torra, V. (2001). Comparing SDC methods for microdata on the basis of information loss and disclosure risk. Pre-proceedings of ETK-NTTS (Exchange of Technology and Know-how - New Techniques and Technologies for Statistics), (2), 807- 826. Pobrane z: http://neon.vb.cbs.nl/casc/NTTSJosep.pdf
  • Hundepool, A., Domingo-Ferrer, J., Franconi, L., Giessing, S., Nordholt, E. S., Spicer, K., de Wolf, P.-P. (2012). Statistical Disclosure Control. Chichester: John Wiley & Sons.
  • Mateo-Sanz, J. M., Domingo-Ferrer, J. (1998). A Comparative Study of Microaggregation Methods. Qüestiió, 22(3), 511-526. Pobrane z: https://upcommons.upc.edu/bitstream/handle/2099/4090/article.pdf
  • Młodak, A. (2019). Wykorzystanie miernika kompleksowego w ocenie straty informacji na skutek kontroli ujawniania mikrodanych. Przegląd Statystyczny, 66(1), 7-26.
  • Shlomo, N., Young, C. (2006). Information loss measures for frequency tables. Monographs of official statistics, Work session on statistical data confidentiality, Geneva, 9-11 November 2005 (s. 277-289). Luxembourg: Office for Official Publications of the European Communities.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171604717

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.