Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Studia i Prace WNEIZ US nr 47/3 2017 PROBLEMY TEORETYCZNE I METODYCZNE DOI: 10.18276/SIP.2017.47/3-03 Bogusław Kaczmarczyk* Łukasz Popławski* Uniwersytet Ekonomiczny w Krakowie, Wydział Finansów TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI KOSTEK DANYCH – OBJĘTOŚĆ INFORMACYJNA NA WYBRANYM PRZYKŁADZIE EKOROZWOJU STRESZCZENIE Termin objętość informacyjna zawarty w tytule stanowi hasło wywoławcze dla dość obszernej nowej problematyki związanej z taksonomią i klasyfikacją obiektów bądź kostek danych w ujęciu regionalnym. W analizach danych koncentracja badawcza skupiona jest głównie na zmiennych, a rozwój metod, technik i narzędzi analizy danych w tym względzie jest ogromny. Celem artykułu jest prezentacja podstaw dla grupowania obiektów pod względem analizy poziomej kostki danych z wykorzystaniem pojęcia objętości informacyjnej w związku z ilościowym zagadnieniem bliskości zarówno obiektów w kostce, jak i możliwości analiz metrycznych kostek względem siebie. W pracy jako studium przypadku grupowania obiektów wykorzystano dane dla wybranych gmin obszaru województwa świętokrzyskiego w związku z ich ekorozwojem. Słowa kluczowe: objętość informacji, kostka danych, ekorozwój * Adres e-mail: b.kaczmarczyk@pro.onet.pl. ** Adres e-mail: rmpoplaw@gmail.com. 36 PROBLEMY TEORETYCZNE I METODYCZNE Wprowadzenie Objętość informacyjna dotyczy każdorazowo zbiorów mierzalnych w przestrzeni (nk) + 1 wymiarowej dla szeregu obiektów Oi opisanych zmiennymi xi. Wyjściowy zbiór danych stanowi macierz Xi jako kostka danych: X i  {Oi  {x1, x2 ,..., xn }}  X i (1) O1  x1,1 x1, 2 x1,3 ... x1,k    O2  x2,1 x2, 2 x2,3 ... x2,k  x3,3 ... x3,k  (1.1) X i  X n ,k  O3 x3,1 1, x23,..., ,2   ... ... ... ...  ...  ... On  xn ,1 xn , 2 xn ,3 ... xn ,k  1, 2 1, 3 1,k  1  1,1   ,1 2, 2 2 , 3 postać i 2zarazem ,k  2 na2geometryczną W tym miejscu warto wskazać własność wza    jemnie jednoznacznego przyporządkowania obiektom 3,1 3, 2 różnym 3, 3 3, k Oi różnych odległo,k 3   ści dO1 i wzajemnie odwrotnie przyporządkowanie różnym różnych odległościom 1  1, 3  1  1,1  1, 2 obiektów w mierzalnych kostkach mogących    przyjmować je  danych X, 2n,k, kostkach ,3 2,3  2  2 ,1  2,,12 ,k  2  den z trzech wymiarów: Odpowiada    kostki  3  prostokątnej – układ 3,1 3, 2 3i, 3pionowej 5, 3 dotyczy 3 a) jeżeli n > k Vinf.   nadokreślony   Xn > k, np. X5,3: 4, 2 4,3  4  4 ,1  4     5, 2 5, 3  5  5,1  5 O1  x1,1 x1, 2 x1,3   d O1  d    O2  x2,1 x2, 2 x2,3   O2  Odpowiada X 5,3  O3  x3,1 x3, 2 x3,3    d O3      O4  x4,1 x4, 2 x4,3  d O4  d O  O5  x5,1  x5, 2 x5,3   1 5  1,1 1, 2 1 Odpowiada            2, 2 2, 2  2  2,1  2 b) jeżeli n = k Vinf . obejmuje kwadratową kostkę danych – układ tożsamy Xn = k, np. X2,2 2, 2    2  3  1 3, 5 1,1  1,1  2  2,1 1, 2 2,1 2, 2 3,1 3, 2  1  Odpowiada  1     2, 2   2  1, 3 1, 4 1, 5   Odpowiada  2,3 2, 4 2 , 5      3, 3 3, 4 3, 5   1, 2   2   3  1   5  5 5,1 5, 2 5, 3 5,1 5, 2 5, 3         5  5 Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI... 2, 2 X 2, 2  1,1  O1  x 1,1  12  2,1 O2  x2,1  1, 2  Odpowiada   d 1  x1, 2   O1 Odpowiada 2, 2   2     d x2, 2  O  2 c) jeżeli n < k Vinf. związana jest z prostokątną i poziomą kostką danych – układ niedookreślony1 Xn < k, np. X3,5 X 3,5 3, 5 O1  x1,1   O12  x12,,11   O2  x2,1 3  3,1  3  3,1 x1, 2 x12,,22 x23,,22 x1,3 x12,,33 x23,,33 x1, 4 x12,,44 x23,,44 3, 2 3, 3 3, 4  d O1  x1,5    Odpowiada   x12,,55 d O12   Odpowiada x23,,55  d O23     3, 5   3 1. Krótki opis teoretyczny objętości informacyjnej w kostkach danych Objętość informacji Vinf. wyznacza V się za pomocą2 przyjętej odległości w przestrzeni wielowymiarowej. Według [Coombsa, Tversky’ego – (1977, s. 97)], [Jajugi 1 V Dawesa, 2 (1993, s. 56)] i wielu innych szczególną klasę odległości stanowi przypadek metry1 ki Minkowskiego dla r = 2, czyli odległości Euklidesa ozn. w tekście jako2 ||Oi||2. W większości kostek danych Xi. dla każdego z obiektów Oi (wektorów informacji) odległość Euklidesa jest przypisana w sposób prawie na pewno wzajemnie jednoznaczny (izomorfizm), bądź co najmniej jednoznaczny (zależność homomorficzna).  Zatem formalnie dla opisu objętości informacyjnej na kostce Xi. wskazano dwie 2 V inf.  3 2 z pięciu definicji opisowych związanych z Vinf. Xi. : – definicja pierwsza: „w rozpiętym na obiektach On wielowymiarowym układzie współrzędnych WUW dla mierzalnej, kompletnej i wielowymiarowej   W dziedzinie nauk ekonomicznych, w dyscyplinie finanse w skali mikro danych, przypadek prostokątny i poziomy w Xin,k występuje bardzo często w praktyce. Na gruncie problematyki regresyjnej jako problem Gaussa-Markowa, mierzalny układ prostokątny i poziomy, dla którego liczba wierszy (obiektów) jest mniejsza od liczby kolumn (zmiennych), posiada w klasie rozwiązań liniowych z wykorzystaniem macierzy MP-odwrotnych jednoznaczne rozwiązanie. Szerzej zob. [Kaczmarczyk, 2015, s. 115–162, mat. niepublikowany]. 1 Odległość Euklidesa jako pierwiastek drugiego stopnia z sumy różnic kwadratów dla poszczególnych współrzędnych kostki danych, synonim norma Euklidesa ozn. ||Oi||2. 2 Definicje autora (B. Kaczmarczyk). Pozostałe własności objętości informacji, również definicje trzecia, czwarta i piąta, zostaną zaprezentowane w części drugiej artykułu. 3 37 3, 5    3  2 2,1 2, 2 2,3 2, 4 3,1 3, 2 3, 3 3, 4 1  1,1 1, 2 1, 3 2,1 2, 2 2,3 3,1 3, 2 3, 3 PROBLEMY TEORETYCZNE  I METODYCZNE 38 3, 5    3  2   2     3, 5   3   1, 4 1, 5  Odpowiada  2, 4 2 , 5      3, 4 3, 5   2,5   2   3  1 kostki danych Xi objętością informacyjną Vinf. Xi jest wielokrotny (n-krotny) V  2 iloczyn długości ||O n || 2 wszystkich1 jej obiektów On”. Zapis formalny dla definicji pierwszej Vinf. Xi  n Vinf . X i   On 1 d Oi  O i 2 2 (2) (2.1) gdzie d O i = ||O n || 2 oznacza przypisaną dla wszystkich obiektów O n długość Eu 2 klidesa liczoną od początku zapiętego wielowymiarowego układu współrzędnych4 w ramach R (nk)+1. Wskazana w definicji pierwszej i formule (2) objętość informacja Vinf. Xi w ujęciu izomorficznym ma swoją interpretację geometryczną5 dla wzajemnie jednoznacznego przyporządkowania w przestrzeni R (nk)+1 wymiarowej6 jako „miotełka obiektów” iloczynu długości w maksymalnym wymiarze kostki danych Xi. – rysunek 1. – definicja druga (prawie na pewno izomorfizm): „przydział obiektom O i metryk, tj. długości d o i w ramach Vinf. w Xi. jest na ogół izomorficzny ze względu na stosunek długości odcinków. Relacja R odwzorowuje zatem izomorficznie (wzajemnie jednoznacznie) stosunek długości między obiektami w ramach kostki danych na stosunku większości pomiędzy liczbami jako długościami tych obiektów”. Dla definicji drugiej zasada odwrotna (tj. zasada homomorfizmu) może być spełniona, bowiem jest możliwe dla Vinf. przyporządkowanie jednoznaczne w ramach tej samej kostki danych jednej długości kilku różnym obiektom w Xi.. W analizach wielowymiarowych przyjęcie początku wielowymiarowego układu współrzędnych dla wszystkich n obiektów opisanych liczbą k zmiennych zwiększa wymiar analizy o jeden. 4 5 6 Interpretacja w sensie geometrii obliczeniowej. Wymiar R (nk)+1 uwzględnia zapięcie wielowymiarowego układu współrzędnych w ramach „WAP”. Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI... Izomorfizm O1   do1 39 Izomorfizm O2   do2 Izomorfizm O3   do3 n Vinf . X i   On 1 2 WUW  0 0 ... 0 Izomorfizm On   don Rysunek 1. Objętość informacja Vinf. X i jako izomorficzna „miotełka obiektów” w przestrzeni R (nk)+1 wymiarowej z wykorzystaniem odległości Euklidesa przypisanej wzajemnie jednoznacznie obiektom O i  1  1 2   Źródło: opracowanie własne.  2  2 2   3 2  V  definicja pierwsza i formuła (2) 3 2   1   2. Taksonomiczna analiza informacyjności kostek danych – objętość   2  informacyjna w ujęciu niemnogościowym W przypadku objętości informacji na kostce danych Vinf. Xi kryterium podziału odnosi się początkowo do długości d O i = ||O n || 2 danego obiektu jako wektora infor2 2  1 ; zapiętego  ,  układu ,..., ; współrzędnych,  ,   a 2końcowo  ,  1 do części wspólnej macji od, początku 2 2 1 2 tych długości, tj. do iloczynu (analiza pozioma, tzw. analiza obiektowa kostki danych) dla czynności porządkowania obiektów opisanych zmiennymi. Przykładowy algorytm wyznaczania objętości informacyjnej Vinf. jako liniowej miary podobień j Xi w funkcji jej objętości, z wykorzystaniem wzajemnych stwa dla kostki danych  ,  odległości Euklidesa  7 j w sensie izomorficznym pomiędzy obiektami, przedstawia 2 2 poniższa tabela 1, wraz z kierunkami dalszych badań – tabela 2. 1 1 1 2 1 1 j Odległość Euklidesa, oznaczona jako d O i ||O i || 2 poza odległościami: Czebyszewa, Minkowskiego, 1 1 EKRW    i inne, Odpowiada stanowi  jedną, z,wielu )  możliwych  1  odległości 1 miejską, Mahalanobis, Czekanowskiego ogólnie stosowanych w ramach WAP. 7 40 PROBLEMY TEORETYCZNE I METODYCZNE Tabela 1. Metodyka taksonomicznego wyznaczania objętości informacyjnej V inf. jako funkcji porządkującej liniowo badane obiekty w ramach kostki danych X i – ujęcie izomorficzne Lp. Czynność Etap 1.1. Zebranie kompletnych mianowanych i mierzalnych danych i postawienie problemu klastrowania 1.2. Analiza jakościowa danych, analizy ilościowe, w tym obliczenie macierzy korelacji dla zmiennych i wnioskowanie w zakresie wyjściowego nieunormowanego zbioru zmiennych 1.3. Wyjściowa kostka danych X i 1.4. 2.1. Dokonanie transformacji cech zmiennych związanej z wyeliminowaniem jednostek i dominacji zmiennych poprzez zniesienie efektu skali. Proces ten dotyczy: normalizacji, standaryzacji, unitaryzacji, stosowania metod: rangowych, metod ilorazowych, metody T. Grabińskiego bądź zastosowanie innych metod transformacji kostki danych X i z uwzględnieniem natury Izomorfizm Izomorfizm 1  1 2  analizowanego zjawiska, własności i charakteru zmiennych 2 Izomorfizm Izomorfizm Izomorfizm 1  1 2  2 0]   Zapięcie wielowymiarowego układu współrzędnych WUW = [0 0 3… na 3 Izomorfizm     obiektach O i przetransformowanej kostki danych X3  3 i I Zebranie i przygotowanie danych do analizy wielu zmiennych 2.2. Obliczenie sumy kwadratów dla wektorów informacji w kostce danych 2.3. Obliczenie długości wektorów (obiektów) informacji w kostce danych d O i ||O i || 2 V  V  Obliczenie procentowego udziału informacji dla danego wektora w2 kostce 1 1 danych WUW  WUW 0 0  0 skumulowanego procentu informacji danego wektora w kostce Obliczenie 0 0 0 Izomorfizm danych   2.4. 2.5. Izomorfizm Obliczenie objętości informacyjnej analizowanej kostki danych Vinf. X na i  podstawie d O i w ujęciu izomorficznym 2.6. 2.7.  d O1  d O2 dO  3  d  On  O1  O2  O3  1... On     n   Vinf . X i   Oi 2   1 1 2   2 2 2  2 2 2 definicja pierwsza i formuła (2) definicja pierwsza i formuła (2)  2   3 2  V  definicja pierwsza i formuła (2) 2   3 Przyjęcie kryterium podziału 1 i sporządzenie diagramu nieuporządkowanego badanych obiektów w ramach kostki danych X i w ramach n!  objętościowo    1 ;   2 ,..., ; 2    2   1 , , , możliwych podzbiorów kostki danych 2  , 1 1 1 2 1 2 2 2 1 1 Orientacja cech dla zmiennych w kostce danych. Obliczenie kosinusów kierunkowych dla obiektów i zmiennych x i w wielowymiarowym układzie współrzędnych w ramach kostki danych X i  j 2.8.*  ,  x x cos  O1 , x1  2 1 ;j cos  O1 , x2  2 ,..., ; cos 2  O1 ,x1  ...  cos 2  On ,xn  1 2 O1 2 O2 2 j 2.9.* Sporządzenie diagramu uporządkowanego objętościowo, delimitacja kostki danych  , j  EKRW    j 2  Odpowiada  , , ) 1  1  1 1 j 2 Odpowiada 1 S1 1 2 II Analiza danych i procedura grupowania objętościowego kostki danych         1 2 3    2 2 3   Lp. 1, 1     V  definicja pierwsza i formuła (2) 2 2  1  Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...  2 1 2   ; 1 1 2 1, 2  ,..., ; 2 2 2 2     Czynność 1, 1 2 1 , Etap Uzupełnienie analizy w celu orientacji obiektowej poprzez wyznaczenie kątów pomiędzy obiektami O i i O j w ramach kostki danych X i 2.10.* cos Oi,O j  Oi O j Oi 2  Oj 2 symbol O oznacza mnożenie skalarne wektorów informacji Możliwe obliczenie i wyprowadzenie odległości kątowej pomiędzy obiektami 2.11.* dla przyjętego układu współrzędnych EKRW  analizy     , , )  charakterystyk   1 Ujęcie dynamiczne kostek i obliczenie w tym zakresie; *oznacza dodatkową możliwość, tj. ujęcie dynamiczne analizy danych w dwóch 2.12.* stanach badawczych jak dla metody różnicowej analizy danych. Analiza zbiorów o skończonej liczbie elementów, zbiorów o równej mocy Odpowiada 1 1 1 II Analiza danych i procedura grupowania objętościowego kostki danych Grupowanie objętościowe, profil obiektów z możliwą wizualizacją struktury 2.13. danych z wykorzystaniem metod i narzędzi geometrii obliczeniowej, analiza wyników 2.14. Ujęcie mnogościowe (teoria zbiorów) objętości informacji Vinf. 3.1. III Wnioskowanie Wnioski końcowe Źródło: opracowanie własne. Kierunki dalszych badań dla Vinf. – tabela 2. Tabela 2. Kierunki dalszych badań i prac nad V inf. w ramach kostki danych Xi Lp. Etap Kierunek dalszych badań nad Vinf. Nowe hipotezy badawcze, przykładowo: H 1: czy Vinf. może stanowić kategorie dla metod wzorcowych porządkowania liniowego? 1. H 2: czy istnieje oraz jaka jest odporność Vinf. w ramach WAP na przyjęte i stosowane w nauce skale pomiarowe? w tym hipoteza pomocnicza: Nowe hipotezy H 2.1: Jaki jest wpływ transformacji cech dla porządku klastrowania objętościowego kostek danych? H 3: czy dla Vinf. istnieje pomiar jakościowej kostki danych? Źródło: opracowanie własne. 41    2  2 2   3 2  V  definicja pierwsza i formuła (2) 2   3 1   TEORETYCZNE I METODYCZNE  42 PROBLEMY 2  3. Studium przypadku zastosowania objętości informacji Vinf. do klasyfikacji obiektów na podstawie danych dla wybranych gmin 2 obszaru świętokrzyskiego  1 , 1  1 ; województwa  1 , 2  2 ,...,  1, 1   2  ,  1 ; 2 2 1 2 Rozważmy jako studium przypadku8 przykład zaczerpnięty z pracy Popławskiego, (2009) w odniesieniu do zmiennych ekologicznych oznaczonych jako typ E w ramach pojęcia ekorozwój – rysunek 2. Rysunek –2 przedstawia ekorozwój w znaczeniu podwójnym: j  , j  – po pierwsze  j według Zaufala – (1983), Górki – (2007) jako wzrost gospodarczy 2 2 zgodny z wymogami ochrony środowiska życia człowieka, w tym zwłaszcza ochrony przyrody, – po drugie jako „EKRW” – jako płaszczyznę wspólną pojęć9: ekologia „E”, gospodarka „G” i społeczeństwo „S” z uwzględnieniem warunku (3): – E S G EKRW  E  S  G Odpowiada  F ( E, S , G)  1  1  1  1 (3) E S G E E1 0 G S1 G1 S Rysunek 2. Ekorozwój w znaczeniu łącznym Źródło: opracowanie własne. W przykładzie celem analizy jest dokonanie przestrzennego grupowania wybranych gmin województwa świętokrzyskiego, wchodzących w skład Nadnidziańskiego 8 Wykorzystano dane zawarte w pracy Popławskiego (2009, s. 205 i nast.). 9 Parametry E1, S1, G1 oznaczają konkretne dane ekorozwoju. Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI... 43 Parku Krajobrazowego, za pomocą Vinf.. Uwzględniając punkty 1.1. do 1.3. powyższej tabeli 1, po analizie10 ilościowo-jakościowej otrzymano dane zestawione11 w tabeli 3. Tabela 3. Dane do analizy grupowania Nazwa gminy Opis zmiennych typu E Imielno Kije Michałów Nowy Korczyn Opatowiec Wiślica Złota X27 X28 X44 X57 Udział Udział gruntów obszarów Udział Długość Wskaźnik ornych prawnie lesistości sieci kanalilokalizacji w gospodarchronionych w zacyjnej przestrzenstwach indyw popowierzchni w km na nej widualnych wierzchni ogólnej 1 km2 (w %) ogólnej 0,5116 0,1060 0,1675 0,0000 72,9609 0,9509 0,1784 0,2130 0,0030 61,1231 1,0076 0,1984 0,2133 0,0000 80,3717 0,9685 0,0702 0,2487 0,9597 0,9752 0,9100 0,1250 0,0324 0,1243 Suma Mediana Wartość średnia Odchylenie standardowe Zmienność cechy x Min 6,2835 0,9597 0,90 0,8347 0,1243 0,12 0,2056 0,0145 0,3180 0,0000 0,2833 0,3902 Parametry opisowe 1,6493 0,4077 0,2133 0 0,24 0,06 0,17 0,06 19% 0,5116 x Max 1,0076 R = x Max – - x Min Środek ciężkości zbioru wielocechowego X69 0,0000 Ludność Obszar według gminy stanu na 2 (w km ) 2006r. Dochód ogółem na osobę (w tys. zł) Dane geograficzno-demograficzne Dane GUS na podstawie sprawozdań branżowych samorządów typu Rb-27S 100,6 99,26 112,21 4 626 4 692 4 839 1,9564 3,9842 1,9512 65,8673 117,3 6 381 2,5261 76,3250 64,7167 72,8060 68,41 100,6 81,7 3 599 5 690 4 877 1,6090 2,8707 2,4822 494,1708 72,806 70,60 680,08 100,60 97,15 34 704 4 839 4 957,71 17,3798 2,4822 2,48 6,90 16,96 876,48 0,79 0,05 0,15 48% 22% 251% 10% 17% 18% 32% 0,0324 0,1675 0 61,1231 68,41 3 599 1,609 0,1984 0,3180 0,3902 80,3717 117,3 6 381 3,9842 0,4960 0,1660 0,1505 0,3902 19,2486 48,89 2782 2,3753 0,90 0,12 0,24 0,06 70,60 97,15 4 957,71 2,48 Źródło danych: Popławski (2009, s. 337–341). 10 Analiza korelacyjna i analiza merytoryczna ze względu znaczenie zmiennych w ekorozwoju gmin. 11 Wynik analizy jakościowej i analizy korelacji dla pełnej macierzy danych Xin,k . PROBLEMY TEORETYCZNE I METODYCZNE 44 W ekonometrii w ramach WAP obliczenia i wnioskowanie bez transformacji cech na ogół tracą wartość poznawczą12 analizowanego zagadnienia. Dlatego w taksonomii, w zależności od typu i własności skali pomiaru (Stevens, 1946, s. 677–680; Ackoff, 1969), s. 243–244, tablica 6.3 i 6.4 klasyfikacja skal pomiaru: nominalna, porządkowa, interwałowa, ilorazowa) dla zmiennych opisanych cechami, istnieje wiele sposobów transformacji, wśród których można wskazać: normowanie, standaryzowanie, unitaryzację, unitaryzację zerowaną i przekształcenia ilorazowe. Zatem przygotowując dane do dalszych obliczeń, w celu eliminacji efektu skali, wyeliminowania różnych jednostek oraz doprowadzania danych do porównywalności, dokonano zgodnie z pkt 1.4. tabeli 1 transformacji cech jednolicie dla wszystkich zmiennych w ramach X̅ według formuły (4):  xi , j  X zi , j          S(X j ) (4) ; S ( X j )  0 gdzie: Zi,j – zmienna standaryzowana, Xi,j – zmienna nieunormowana, 1 2  1  X̅  – wartość średnia zmiennej nieunormowanej, 2 2 2 S(Xj ) – odchylenie standardowe zmiennych nieunormowanych.  3 2  V = 825,6  3 2  1  standaryzacji cech w ramach X dla formuły (4) zestawiono w tabeli 4. Wyniki in,k   2 Kolejnym krokiem było zapięcie wielowymiarowego układu współrzędnych WUW = [0 0 … 0] dla unormowanych danych na kostce X i n,k oraz realizacja punktów 2.1. do 2.6. tabeli 1. Wyniki obliczeń zestawiono w tabeli 5. 12         1 2 3       2  V 2    2 1 2 2 3  1 2 Przykładowo z powodu efektu rzędu wielkości cech dla zmiennych wyrażonych w różnych jed- nostkach pomiaru w ramach Xin,k . Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI... 45 Tabela 4. Dane unormowane Wyszczególnienie Imielno Kije Michałów Nowy Korczyn Opatowiec Wiślica Złota Suma Wartość średnia Odch. stand. Środek ciężkości zbioru wielocechowego X27 X28 X44 X57 X69 Obszar gminy (w km 2) –2,2351 –0,2289 –1,3290 –0,3976 0,3428 0,2032 0,3084 1,0263 –0,4412 –0,3771 –1,3732 0,1242 0,6364 1,3729 –0,4346 –0,3976 1,4171 0,8877 0,4105 –0,8510 0,2542 –0,3976 –0,6855 1,1879 0,3593 0,0993 –0,5849 –0,2987 0,8305 –1,6949 0,4488 –1,5059 1,6062 –0,3976 –0,8522 0,2032 0,0716 0,0873 0,9294 2,2663 0,3204 –0,9112 0 0 1 Dochód Ludność ogółem według wykonany na stanu na osobę 2006 r. (w tys. zł) –0,3785 –0,6676 –0,3032 1,9042 –0,1354 –0,6743 1,6239 0,0549 –1,5502 –1,1083 0,8355 0,4920 –0,0921 –0,0008 0 Źródło: opracowanie własne. Tabela 5. Objętość informacyjna kostki danych Vinf. Xi Nazwa gminy Imielno Kije Michałów Nowy Korczyn Opatowiec Wiślica Złota Suma Sumy Długości kwadratów wektorów dla wektorów informacji informacji w kostce w kostce danych danych 7,7201 7,1044 5,9063 2,78 2,67 2,43 Procent informacji danego wektora w kostce danych Xi Procent informacji skumulowany danego wektora w kostce danych Zapięcie WUW = [0 15,2 14,6 13,3 0 … 0] 15,2 29,7 43,0 5,6362 2,37 13,0 56,0 7,7641 6,9148 6,9541 48,0 2,79 2,63 2,64 18,30 15,2 14,4 14,4 100 71,2 85,6 100 Objętość informacyjna kostki danych Vinf. Xi ,j z ,j   d O1  d O2 dO  3  d  On  O1  O2  O3 ...  On    n   Vinf . X i   Oi 2  1   2   j ) ; j ) 2 2 2 = 825,6 = 825,6 Źródło: opracowanie własne.         1 2 3         V 2    2 1 2 2 2 3  1 PROBLEMY TEORETYCZNE I METODYCZNE 46 Tabela 6. Tabela nieuporządkowana kostki danych dla istniejącej Vinf. Xi Cosinusy Cosinusy Nieuporządkowanie Cosinusy kierunkowe Cosinusy Cosinusy Cosinusy kierunkowe objętościowe kostki kierunkowe dla zmiennej kierunkowe kierunkowe kierunkowe dla zmiennej danych, objętości Lp. dla zmiennej dochód ogółem dla X44 dla X57 dla X69 obszar cząstkowe kostki ludność wykonany na gminy danych osobę –0,4783 –0,1431 0,1234 0,0731 –0,1362 –0,2403 125,3 1 –0,1655 –0,1415 –0,5152 0,0466 –0,1137 0,7144 120,2 2 –0,1788 –0,1636 0,5831 0,3653 –0,0557 –0,2775 109,6 3 Nazwa gminy Cosinusy kierunkowe dla X27 Cosinusy kierunkowe dla X28 Imielno Kije Michałów –0,8044 0,1157 0,2619 –0,0824 0,3850 0,5649 Nowy Korczyn 0,1729 –0,3585 0,1071 –0,1675 –0,2887 0,5003 0,6840 0,0231 107,1 4 Opatowiec 0,1290 0,0356 –0,2099 –0,1072 0,2981 –0,6083 –0,5563 –0,3978 125,7 5 Wiślica 0,1707 –0,5727 0,6108 –0,1512 –0,3241 0,0773 0,3177 0,1871 118,6 6 Złota 0,0271 0,0331 0,3524 0,8594 Suma 0,1215 –0,3456 –0,0349 –0,0003 119,0 825,6 7 Źródło: opracowanie własne. Przy kontynuacji obliczeń z tabeli 1 kolejny etap stanowi zestawienie odpowiednio nieuporządkowanej i uporządkowanej tabeli danych względem Vinf. Xi. Wyniki zaprezentowano w tabeli 6, a delimitację kostki danych w tabeli 7. Tabela 7. Tabela delimitacji kostki danych dla istniejącej Vinf. X i Uporządkowanie objętościowe kostki danych. Objętości cząstkowe kostki danych. Profil obiektów względem zastosowanych zmiennych 107,1 109,6 118,6 119,0 120,2 125,3 125,7 825,6 Lp. sortowana Nazwa gminy, obiekt wielowymiarowej kostki danych Zapięcie WUW = [0 0 … 0] 4 Nowy Korczyn 3 Michałów 6 Wiślica 7 Złota 2 Kije 1 Imielno 5 Opatowiec Suma Procent objętości informacji danego wektora w kostce danych Xi Procent objętości informacji skumulowany danego wektora w kostce danych 13,0 13,3 14,4 14,4 14,6 15,2 15,2 100 13,0 26,3 40,6 55,0 69,6 84,8 100 Źródło: opracowanie własne z wykorzystaniem funkcji Excela: formatowanie warunkowe. Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI... Podsumowanie         1 2 3     Za pomocą trzyetapowego algorytmu związanego z realizacją klastrowania obiektów izomorficznych, w ramach kostki danych na podstawie objętości informacyjnej Vinf. Xi, uzyskano dla wyjściowych danych wyodrębnienie podzbiorów, tzw. taksonów, którym wzajemnie jednoznacznie odpowiadają zarówno odległości, jak i objętości cząstkowe o najmniejszym zróżnicowaniu w ramach łącznej objętości informacji rozważanej kostki.  W ramach gmin wchodzących w skład Nadnidziańskiego Parku Krajobrazowego  ,j oraz przyjętego kryterium podziału objętości informacyjnej z , j  opartego ;  na pojęciu j)  0 j ) uzyskano rozbicie analizowanej kostki Vinf. jako kategorii porządkowania liniowego danych Xi na trzy podzbiory: pierwszy {4,3} = {Nowy Korczyn, Michałów}, drugi {6, 7, 2} = {Wiślica, Złota, Kije}, trzeci {1,5} = {Imielno, Opatowiec}. Kierunkiem dalszych badań, poza formalną stroną zagadnienia Vinf. Xi – tabela 2, w ramach pojęcia ekorozwój, jest kwantyfikacja oparta dla Vinf. Xi na dwóch pozo1 2  stałych  składowych ekorozwoju, tj. społeczeństwie i gospodarce, łącznie w triadzie 2pojęć 2  stanowiących o istocie ekorozwoju – rysunek 2. Niewątpliwą zaletą przedsta  Valgorytmu = 825,6  jest jasny i prosty sposób klastrowania na podstawie Vinf. Xi oraz 3wionego 2 2  1 prezentacja objętości informacji jako metryki w przestrzeni mierzalnej nie tylko  w formie metodycznej – tabela 1, ale również w ujęciu geometrycznym, izomorficz 2 nym (wzajemnie jednoznacznym) jako „miotełka obiektów” z zapiętym układem współrzędnych w przestrzeni R (nk)+1 – rysunek 1, odległość metryzuje objętość informacji. W zaprezentowanym zagadnieniu dla odległości Euklidesa przedstawione powyżej rozważania można uogólnić na zagadnienia dalsze jako:   d O1  d O2 dO  3  d  On  O1  O2  O3 ...  On   2 n   Vinf . X i   Oi 2  1   2 2 2 47 48 PROBLEMY TEORETYCZNE I METODYCZNE Przeprowadzone badania stanowią inspirację dla rozwoju analiz danych, które mogą pogłębić wnioskowanie, zwłaszcza w ujęciu porównawczym rozpatrywanych zagadnień, stanowiąc uzupełnienie analityki dla wielu problemów na gruncie taksonomii z elementami geometrii obliczeniowej. Literatura Ackoff, R.L. (1969). Decyzje optymalne w badaniach stosowanych. Warszawa: PWN. Coombs, C.H, Dawes, R.M., Tversky, A. (1977). Wprowadzenie do psychologii matematycznej. Warszawa: PWN. Górka, K. (2007). Wdrażanie koncepcji rozwoju zrównoważonego i trwałego. Ekonomia i Środowisko, 2/32. Jajuga, K. (1993). Statystyczna analiza wielowymiarowa. Warszawa: PWN. Kaczmarczyk, B. (2015). Wielowymiarowe ujęcie estymacji wartości rynkowej przedsiębiorstw na przykładzie branży energetycznej (rozprawa doktorska, materiał niepublikowany). Kraków: Uniwersytet Ekonomiczny. Popławski, Ł. (2009). Uwarunkowania ekorozwoju gmin wiejskich na obszarach chronionych województwa świętokrzyskiego. Warszawa: PWN. Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, CIII, Jun. 7, 2684. Zaufal, T. (1983). Perspektywy sozologii w ekorozwoju. Aura, 3. TAXONOMICAL ANALYSIS INFORMATION OF DATA CUBES – VOLUME OF INFORMATION ON THE CHOSEN EXAMPLE OF ECO DEVELOPMENT Abstract The term “volume of information”, which was mentioned in the title is a keyword for relatively broad and recent issue of taxonomy and clustering objects or data cubes in regional depiction. The main research in data analysis is focused on variables and development of countless methods, techniques and tools. The main goal of this article is to present the principles for objects clustering respecting an analysis of vertical data cube and usage of the term “volume of information” in connection with quantitative term of closeness on one side of the objects within the cube, on the other of the possibility of analysis of the metric data cubes in relation to each other. The Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI... object clustering case study for this thesis were used the data of chosen communities from Świętokrzyskie voivodship in connection with their eco development. Keywords: volume of information, data cube, eco development Translated by Bogusław Kaczmarczyk JEL codes: C02, C81,C82 Powered by TCPDF (www.tcpdf.org) 49