2016 | 19 | nr 5 | 5--24
A Statistical Toolbox For Mining and Modeling Spatial Data

Narzędzie statystyczne do analizy eksploracyjnej oraz modelowania danych przestrzennych
Większość analiz eksploracyjnych danych przestrzennych rozpoczyna się od oceny próby jednostek przestrzennych, pod względem występowania oraz siły autokorelacji przestrzennej dla zbioru zmiennych, stanowiących atrybuty jednostek przestrzennych. Trafność aplikacji najbardziej cenionych narzędzi weryfikacji autokorelacji przestrzennej - współczynników Morana oraz Geary'ego jest rzadko kwestionowana, pomimo faktu, że w przypadku opisywania ich własności wielu użytkowników zdaje się popełniać błędy oraz wprowadzać nieład. Artykuł rozpoczyna się od krytycznej oceny klasycznej definicji indeksów. Założono, że pomimo intuicyjnej konstrukcji, koncepcja indeksów boryka się z brakiem spójności w przypadku wielu ich składowych. Następnie zaproponowano korektę współczynników autokorelacji przestrzennej, która upraszcza ich relacje, i otwiera drogę do włączenia statystyk do zestawu narzędzi statystycznych, modelowania oraz wizualizacji. W drugiej części zaprezentowano teoretyczne przesłanki konstruowania wielowymiarowych narzędzi statystycznych, uwzględniających skorygowane definicje współczynników autokorelacji przestrzennej, zaczerpnięte z ostatnich prac w dziedzinie statystyki. Przedstawione metody eksploracyjnej wielowymiarowej analizy danych charakteryzują się łatwością zastosowania oraz oprogramowania z wykorzystaniem dostępnych, darmowych pakietów. (abstrakt oryginalny)
Most data mining projects in spatial economics start with an evaluation of a set of attribute variables on a sample of spatial entities, looking for the existence and strength of spatial autocorrelation, based on the Moran's and the Geary's coefficients, the adequacy of which is rarely challenged, despite the fact that when reporting on their properties, many users seem likely to make mistakes and to foster confusion. My paper begins by a critical appraisal of the classical definition and rational of these indices. I argue that while intuitively founded, they are plagued by an inconsistency in their conception. Then, I propose a principled small change leading to corrected spatial autocorrelation coefficients, which strongly simplifies their relationship, and opens the way to an augmented toolbox of statistical methods of dimension reduction and data visualization, also useful for modeling purposes. A second section presents a formal framework, adapted from recent work in statistical learning, which gives theoretical support to our definition of corrected spatial autocorrelation coefficients. More specifically, the multivariate data mining methods presented here, are easily implementable on the existing (free) software, yield methods useful to exploit the proposed corrections in spatial data analysis practice, and, from a mathematical point of view, whose asymptotic behavior, already studied in a series of papers by Belkin & Niyogi, suggests that they own qualities of robustness and a limited sensitivity to the Modifiable Areal Unit Problem (MAUP), valuable in exploratory spatial data analysis. (original abstract)
  • University of Grenoble Alpes, France
