Ograniczanie wyników
Czasopisma help
Autorzy help
Lata help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 51

Liczba wyników na stronie
first rewind previous Strona / 3 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  Data classifications
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 3 next fast forward last
Ocena jakości podziału jest jednym z czterech zasadniczych etapów analizy skupień, istotnie wpływającym na interpretację uzyskanych wyników. W literaturze przedmiotu istnieje duża liczba wskaźników wspomagających proces wyboru podziału optymalnego, jednak spora ich część przejawia pewne własności, które w dużej mierze mogą ograniczać obszary ich zastosowań. Głównym celem referatu jest zaproponowanie nowego wskaźnika oceny jakości grupowania - wskaźnika CNI oraz porównanie jego użyteczności z siedmioma najbardziej znanymi w literaturze wskaźnikami. Obiekty poddane analizie opisane zostały przy użyciu zmiennych dwuwymiarowych, natomiast kolejne podziały uzyskano w wyniku zaimplementowania metody k-średnich. Wszystkie obliczenia wykonano w programie R.(abstrakt oryginalny)
Gwałtowny rozwój nauk informatycznych w ostatnich latach XX w., a w szczególności powstawanie coraz większych baz danych, spowodował, że badacze dysponują coraz większą liczbą danych wejściowych dla procedur taksonomicznych. Jednak nie zawsze informacje zawarte w dużych bazach danych mają postać umożliwiającą zastosowanie klasycznych metod klasyfikacji i analizy danych. Rzadko zwłaszcza zdarza się, aby dane przybierały postać tabeli liczb, częściej występują jako dane jakościowe: tekstowe czy w postaci listy wartości. Jedną z dziedzin taksonomii wychodzącą naprzeciw tym wyzwaniom jest symboliczna analiza danych (SDA). W artykule omówione są: pojęcie obiektu symbolicznego, kluczowe dla symbolicznej analizy danych, sposoby reprezentowania danych liczbowych w postaci pojedynczych wartości, przedziałów lub zbiorów wartości oraz reprezentowania danych nienumerycznych, sposoby tworzenia obiektów symbolicznych z istniejących baz danych, podstawowe miary stosowane dla obiektów symbolicznych oraz wskazane podstawowe zastosowania obiektów symbolicznych i symbolicznej analizy danych. (fragment tekstu)
W referacie przedstawiono metodę wektorów nośnych. Dynamiczny rozwój jej zastosowań jest związany z jej własnościami. Po pierwsze, metoda ta umożliwia nieliniową klasyfikację przy zachowaniu dużego uogólnienia otrzymywanego modelu. Nieliniowość klasyfikacji realizuje się przez wybór nieliniowej funkcji jądrowej. Różnorodność możliwości wyboru rodzaju funkcji jądrowej oraz jej parametrów sprawia, że metoda wektorów nośnych pozwala przeszukiwać duży zbiór funkcji dyskryminujących. Po drugie, metoda ta należy do grupy metod odpornych, tzn. dopuszcza, aby w zbiorze uczącym znajdowały się obserwacje błędnie sklasyfikowane, np. w wyniku działania czynników losowych. (fragment tekstu)
Scharakteryzowano współczynnik zależności Z oraz omówiono jego właściwości. Przedstawiono także zastosowanie metody wyznaczania współczynnika Z w Zakładzie Bioinformatyki i Telemedycyny CM UJ w Krakowie.
Zagadnienie doboru odpowiedniej miary odległości stanowi, obok problematyki doboru liczby klas, jeden z kluczowych kroków w klasyfikacji spektralnej. Celem artykułu jest przetestowanie przydatności siedmiu różnych miar odległości dla danych symbolicznych w przypadku zastosowania klasyfikacji spektralnej dla danych tego typu. W badaniach symulacyjnych wykorzystano dane symboliczne interwałowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem funkcji cluster.Gen pakietu clusterSim oraz zbiory danych o nietypowych strukturach klas wygenerowane z zastosowaniem funkcji pakietu mlbench. Dla każdego modelu wygenerowano 40 zbiorów danych, przeprowadzono klasyfikację spektralną z zastosowaniem danej miary odległości. Otrzymane rezultaty porównano ze znaną strukturą klas z wykorzystaniem skorygowanego indeksu Randa.(fragment tekstu)
W praktycznych zastosowaniach metod statystycznych często pojawia się problem występowania w zbiorach danych brakujących wartości. W takiej sytuacji wymienić można trzy sposoby postępowania: (1) odrzucenie obiektów z wartościami brakującymi, (2) wykorzystanie algorytmu uczącego do rozwiązania problemu brakujących wartości w fazie uczenia, (3) imputację brakujących wartości przed zastosowaniem algorytmu uczącego. Celem głównym pracy jest ocena wpływu wymienionych metod na wyniki klasyfikacji obiektów za pomocą drzew klasyfikacyjnych w sytuacji występowania braków danych.(abstrakt oryginalny)
Problem klasyfikacji jest od dawna przedmiotem zainteresowań w wielu dziedzinach wiedzy. Pozwala ona na uzyskanie jednorodnych grup obiektów ze względu na dane kryterium. Wybór odpowiedniej miary odległości, która jest wykorzystywana w grupowaniu obiektów wielowymiarowych, ma istotny wpływ na uzyskane wyniki klasyfikacji. W pracy zastosowano miarę zanurzania obserwacji w próbie do klasyfikacji województw, ze względu na wybrane cechy dotyczące rynku nieruchomości w 2011 roku. Wyodrębniono województwa charakteryzujące się typowymi wartościami wszystkich analizowanych cech oraz te, które można uznać za odstające ze względu na osiąganie w nich wysokich lub niskich wartości badanych zmiennych. (abstrakt oryginalny)
Zaproponowano dwie metody łączenia. Pierwsza to metoda selekcji klasyfikatorów bazowych w zależności od kontekstów, w jakich występuje klasyfikowany przypadek. Druga, bardzo obiecująca dla trudnych przypadków klasyfikacyjnych, to metoda kontekstowego wspomagania. Mimo że badania i weryfikację drugiej metody przeprowadzono tylko na podstawie rzeczywistych danych firmy telekomunikacji przewodowej, zasadne wydaje się przekonanie, że można ją uogólnić i zastosować do innych problemów decyzyjnych. Przedstawione badania są wstępne i dalsze prace są kontynuowane.(fragment tekstu)
W badaniach społecznych często korzystamy z danych jakościowych. Dane takie poddaje się klasyfikacji przeprowadzanej przez zespół sędziów kompetentnych, których zgodność (powtarzalność ocen) interpretuje się w kategoriach wiarygodności danych i obiektywności analiz. W pracy zaproponowano autorską metodę wykorzystującą klasyfikacje bazujące na koncepcjach zbiorów rozmytych i przybliżonych. Metodę tę rozwinięto o ideę wyrazistości danych, której wprowadzenie umożliwia oddzielną statystyczną ocenę: jakości pracy koderów, trafności doboru pojęć i jakości materiału badawczego.
Artykuł jest poświęcony podejściom stosowanym przy klasyfikacji danych opisujących działalność oraz dokonania i sytuację finansową jednostek gospodarczych. Artykuł ukazuje problem klasyfikacji danych finansowych z punktu widzenia dwóch subdyscyplin ekonomii: rachunkowości i taksonomii. Zaprezentowano w nim, w jaki sposób rachunkowość pełni bardzo ważną funkcję klasyfikacyjną, polegającą na grupowaniu danych. Na tym tle przedstawiono istotę klasyfikacji taksonomicznej, opartą na danych pochodzących z rachunkowości. Wykazano, jakie podobieństwa i różnice występują między klasyfikacją danych finansowych prezentowanych w rachunkowości a klasyfikacją przy zastosowaniu metod taksonomicznych(abstrakt oryginalny)
The paper deals with odometers (i.e. adding machines) of general type. We give a characterization of self-conjugacies of odometers which enables us to present an elementary proof of a classification of odometers given by Buescu and Stewart in [2]. The paper might also serve as a very quick introduction to odometers.(original abstract)
Increasing number of repositories of online documents resulted in growing demand for automatic categorization algorithms. However, in many cases the texts should be assigned to more than one class. In the paper, new multi-label classification algorithm for short documents is considered. The presented problem transformation Labels Chain (LC) algorithm is based on relationship between labels, and consecutively uses result labels as new attributes in the following classification process. The method is validated by experiments conducted on several real text datasets of restaurant reviews, with different number of instances, taking into account such classifiers as kNN, Naive Bayes, SVM and C4.5. The obtained results showed the good performance of the LC method, comparing to the problem transformation methods like Binary Relevance and Label Powerset. (original abstract)
W artykule przedstawiono zasadę działania, algorytm uczenia i możliwości zastosowań probabilistycznych sieci neuronowych (PNN - Probabilistic Neural Network). Sieci tego typu stanowią dogodne narzędzie klasyfikacji danych. Do podstawowych ich zalet należy zaliczyć krótki czas uczenia, brak problemów związanych z określeniem struktury i doborem wartości wag oraz możliwość szacowania prawdopodobieństw przynależności obiektu do różnych klas. W celu przeprowadzenia oceny przynależności sieci PNN wykonano eksperymenty obliczeniowe, polegające na próbie klasyfikacji klasycznych zbiorów testowych (problem dwóch spiral i problem klasyfikacji irysów). W pracy znalazło się również porównanie probabilistycznych sieci neuronowych z jednokierunkowymi sieciami wielowarstwowymi. (abstrakt oryginalny)
W artykule rozważany jest problem estymacji wartości przeciętnej w populacji skończonej i ustalonej. Zakłada się, że w wylosowanej bezzwrotnie próbie prostej występuje zbiór elementów populacji, na których nie można było przeprowadzić obserwacji wartości badanej zmiennej. Dopiero za drugim razem była możliwa obserwacja brakujących danych w próbie prostej wylosowanej bezzwrotnie spośród elementów tego zbioru. Do estymacji wartości średniej w populacji jest użyta kombinacja liniowa dwóch średnich. Pierwsza z nich to średnia z podzbioru próby wyjściowej, w którym dokonano obserwacji zmiennej za pierwszym razem. Druga to średnia z próby losowanej za drugim razem, w której zakładamy, że już są obserwowane wszystkie wartości cechy badanej. Wyprowadzono obciążenie i wariancję estymatora oraz estymatory tych parametrów. Porównano dokładność proponowanego estymatora z jego szczególnym przypadkiem powszechnie znanym w metodzie reprezentacyjnej. Przy założeniu, że znane są obserwacje zmiennej badanej w całej populacji, przedstawione są metody ustalania współczynnika kombinacji liniowej. Do tego celu proponuje się wykorzystać trzy metody klasyfikacji danych. (abstrakt oryginalny)
15
Content available remote The Comparison of Fuzzy Clustering Methods for Symbolic Interval-Valued Data
75%
Dane symboliczne interwałowe mogą znaleźć zastosowanie w wielu sytuacjach - np. w przypadku notowań giełdowych, zmianach kursów walut, itp. Celem artykułu jest porównanie trzech metod klasyfikacji rozmytej dla danych symbolicznych interwałowych - tj. rozmytej klasyfikacji c-średnich, adaptacyjnej rozmytej klasyfikacji c-średnich oraz rozmytej klasyfikacji k-średnich z rozmytą klasyfikacją spektralną. Rozmyta klasyfikacja spektralna stanowi połączenie podejścia spektralnego oraz klasyfikacji rozmytej c-średnich, dzięki czemu możliwe jest otrzymanie lepszych rezultatów (w sensie indeksu Randa dla klasyfikacji rozmytych). Przeprowadzone badania symulacyjne wskazują, że rozmyta klasyfikacja spektralna dla danych symbolicznych pozwala na uzyskanie lepszych wyników niż inne rozmyte metody klasyfikacji dla tego typu danych jeżeli weźmiemy pod uwagę zbiory danych o różnej strukturze klas, która dodatkowo jest zniekształcana przez obserwacje odstające lub zmienne zakłócające. (abstrakt oryginalny)
The paper develops the concept of harnessing data classification methods to recognize patterns in stock prices. The author defines a formation as a pattern vector describing the financial instrument. Elements of such a vector can be related to the stock price as well as sales volume and other characteristics of the financial instrument. The study uses data concerning selected companies listed on the stock exchange in New York. It takes into account a number of variables that describe the behavior of prices and volume, both in the short and long term. Partitioning around medoids method has been used for data classification (for pattern recognition). An evaluation of the possibility of using certain formations for practical purposes has also been presented.(original abstract)
In this paper, we describe our solution in a competition that required performing data mining to identify key risk factors for the State Fire Service of Poland. The goal was to create an ensemble of Naive Bayes classifiers that could predict incidents involving firefighters, rescuers, children, or civilians. To this end, we first created a single Naive Bayes classifier and then partitioned the set of attributes used in that classifier. The attribute subsets were used to create new Naive Bayes classifiers that would form an ensemble, which generally performs better than both the single classifier and ensemble obtained by searching over all attributes considered when creating the single classifier. The application of our approach yielded a solution that ranked third in the competition.(original abstract)
Artykuł przedstawia tzw. referat milenijny zaprezentowany w trakcie konferencji IFCS-2000 w Namur. Jest on podzielony na trzy części. W pierwszej przedstawiono największe osiągnięcia polskich uczonych stanowiące wkład do dziedziny klasyfikacji i analizy danych. Druga część zawiera prostą analizę statystyczną zagadnień rozważanych w pracach opublikowanych przez polskich badaczy w zakresie klasyfikacji i analizy danych w ostatnich czterdziestu latach. W ostatniej części przekazano uwagi dotyczące niektórych problemów i obszarów przyszłych badań. (abstrakt oryginalny)
Zagadnienia rozpoznawania i klasyfikacji obiektów są jednymi z najważniejszych spośród wielu problemów, którymi zajmuje się współczesna nauka. Klasyfikacja jest jednym z najczęściej rozwiązywanych zadań, zarówno w technice, jak i w ekonomii. (...) Celem niniejszego opracowania jest zbadanie możliwości zastosowań sztucznych sieci neuronowych do klasyfikacji obiektów oraz dokonanie oceny i analizy porównawczej otrzymanych wyników. W wyniku analizy dokonuje się wyboru sieci dającej najlepsze wyniki klasyfikacji przy rozwiązywaniu przykładowego zadania marketingowej analizy rynku. (fragment tekstu)
W dniach 16-18 września 2009 roku w hotelu Wolin w Międzyzdrojach odbyła się XVIII Konferencja Naukowa Sekcji Klasyfikacji i Analizy Danych - Teoria i Zastosowania (XXIII Konferencja Taksonomiczna) "Klasyfikacja i analiza danych - teoria i zastosowania". Organizatorami konferencji byli Sekcja Klasyfikacji i Analizy Danych (SKAD) Polskiego Towarzystwa Statystycznego oraz Katedra Ubezpieczeń i Rynków Kapitałowych WNEiZ Uniwersytetu Szczecińskiego. Konferencja zgromadziła ponad 80 osób, wśród których byli naukowcy z wielu polskich uczelni oraz instytutów badawczych. Konferencja SKAD stanowi coroczne forum, służące podsumowaniu obecnego stanu wiedzy z zakresu klasyfikacji i analizy danych, przedstawieniu i promocji dokonań nowatorskich oraz wskazaniu kierunków dalszych prac i badań. Należy podkreślić, że Sekcja Klasyfikacji i Analizy Danych powstała w 1989 roku i jest jedną z najbardziej aktywnych sekcji Polskiego Towarzystwa Statystycznego. Ponadto SKAD jest członkiem Międzynarodowej Federacji Towarzystw klasyfikacyjnych (International Federation of Classification Societies - IFCS). Obecnie należy do niej ponad 170 osób z polskich uczelni oraz instytutów badawczych. Sekcja ta organizuje każdego roku konferencje naukowe, służące wymianie wyników badań. Corocznie jest też wydawana książka z najlepszymi artykułami z konferencji pt. "Taksonomia. Klasyfikacja i analiza danych - teoria i zastosowania". Celem konferencji SKAD jest prezentacja osiągnięć i wymiana doświadczeń z zakresu teoretycznych (taksonomia, metody porządkowania liniowego, metody statystycznej analizy wielowymiarowej, analiza dyskryminacyjna, metody analizy zmiennych ciągłych, metody analizy zmiennych dyskretnych, metody analizy danych symbolicznych, metody graficzne) i aplikacyjnych (analiza danych przestrzennych, analiza danych finansowych, analiza danych marketingowych i inne zastosowania analizy danych - w tym aplikacje komputerowe metod statystycznych) zagadnień klasyfikacji i analizy danych. (fragment tekstu)
first rewind previous Strona / 3 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.