Studia i Prace WNEIZ US
nr 47/3 2017
PROBLEMY TEORETYCZNE I METODYCZNE
DOI: 10.18276/SIP.2017.47/3-03
Bogusław Kaczmarczyk*
Łukasz Popławski*
Uniwersytet Ekonomiczny w Krakowie, Wydział Finansów
TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI
KOSTEK DANYCH – OBJĘTOŚĆ INFORMACYJNA
NA WYBRANYM PRZYKŁADZIE EKOROZWOJU
STRESZCZENIE
Termin objętość informacyjna zawarty w tytule stanowi hasło wywoławcze dla dość obszernej nowej problematyki związanej z taksonomią i klasyfikacją obiektów bądź kostek
danych w ujęciu regionalnym. W analizach danych koncentracja badawcza skupiona jest
głównie na zmiennych, a rozwój metod, technik i narzędzi analizy danych w tym względzie jest ogromny. Celem artykułu jest prezentacja podstaw dla grupowania obiektów pod
względem analizy poziomej kostki danych z wykorzystaniem pojęcia objętości informacyjnej w związku z ilościowym zagadnieniem bliskości zarówno obiektów w kostce, jak
i możliwości analiz metrycznych kostek względem siebie. W pracy jako studium przypadku
grupowania obiektów wykorzystano dane dla wybranych gmin obszaru województwa świętokrzyskiego w związku z ich ekorozwojem.
Słowa kluczowe: objętość informacji, kostka danych, ekorozwój
* Adres e-mail: b.kaczmarczyk@pro.onet.pl.
** Adres e-mail: rmpoplaw@gmail.com.
36
PROBLEMY TEORETYCZNE I METODYCZNE
Wprowadzenie
Objętość informacyjna dotyczy każdorazowo zbiorów mierzalnych w przestrzeni
(nk) + 1 wymiarowej dla szeregu obiektów Oi opisanych zmiennymi xi. Wyjściowy
zbiór danych stanowi macierz Xi jako kostka danych:
X i {Oi {x1, x2 ,..., xn }} X i
(1)
O1 x1,1 x1, 2 x1,3 ... x1,k
O2 x2,1 x2, 2 x2,3 ... x2,k
x3,3 ... x3,k (1.1)
X i X n ,k O3 x3,1 1, x23,...,
,2
...
... ... ...
... ...
On xn ,1 xn , 2 xn ,3 ... xn ,k
1, 2
1, 3
1,k
1 1,1
,1
2, 2
2 , 3 postać i 2zarazem
,k
2 na2geometryczną
W tym miejscu warto wskazać
własność wza
jemnie jednoznacznego przyporządkowania
obiektom
3,1
3, 2 różnym
3, 3
3, k Oi różnych odległo,k
3
ści dO1 i wzajemnie odwrotnie
przyporządkowanie
różnym
różnych
odległościom
1
1, 3
1 1,1 1, 2
obiektów w mierzalnych kostkach
mogących
przyjmować je
danych X, 2n,k, kostkach
,3
2,3
2 2 ,1 2,,12
,k 2
den z trzech wymiarów:
Odpowiada
kostki
3 prostokątnej
– układ
3,1
3, 2
3i, 3pionowej
5, 3 dotyczy
3
a) jeżeli n > k Vinf.
nadokreślony
Xn > k, np. X5,3:
4, 2
4,3
4 4 ,1
4
5, 2
5, 3
5 5,1
5
O1 x1,1 x1, 2 x1,3
d O1
d
O2 x2,1 x2, 2 x2,3
O2
Odpowiada
X 5,3 O3 x3,1 x3, 2 x3,3
d O3
O4 x4,1 x4, 2 x4,3
d O4
d O
O5 x5,1 x5, 2 x5,3
1 5
1,1
1, 2
1
Odpowiada
2, 2
2, 2
2 2,1
2
b) jeżeli n = k Vinf . obejmuje kwadratową kostkę danych – układ tożsamy Xn = k,
np. X2,2
2, 2
2
3
1
3, 5
1,1
1,1
2 2,1
1, 2
2,1
2, 2
3,1
3, 2
1
Odpowiada 1
2, 2
2
1, 3
1, 4
1, 5
Odpowiada
2,3
2, 4
2 , 5
3, 3
3, 4
3, 5
1, 2
2
3
1
5
5
5,1
5, 2
5, 3
5,1
5, 2
5, 3
5
5
Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...
2, 2
X 2, 2
1,1
O1 x
1,1
12 2,1
O2 x2,1
1, 2
Odpowiada
d 1
x1, 2
O1
Odpowiada
2, 2
2
d
x2, 2
O
2
c) jeżeli n < k Vinf. związana jest z prostokątną i poziomą kostką danych – układ
niedookreślony1 Xn < k, np. X3,5
X 3,5
3, 5
O1 x1,1
O12 x12,,11
O2 x2,1
3 3,1
3 3,1
x1, 2
x12,,22
x23,,22
x1,3
x12,,33
x23,,33
x1, 4
x12,,44
x23,,44
3, 2
3, 3
3, 4
d O1
x1,5
Odpowiada
x12,,55 d O12
Odpowiada
x23,,55 d O23
3, 5
3
1. Krótki opis teoretyczny objętości informacyjnej w kostkach danych
Objętość informacji Vinf. wyznacza
V się za pomocą2 przyjętej odległości w przestrzeni
wielowymiarowej. Według [Coombsa,
Tversky’ego – (1977, s. 97)], [Jajugi
1
V
Dawesa,
2
(1993, s. 56)] i wielu innych szczególną klasę
odległości stanowi przypadek metry1
ki Minkowskiego dla r = 2, czyli odległości Euklidesa ozn. w tekście jako2 ||Oi||2.
W większości kostek danych Xi. dla każdego z obiektów Oi (wektorów informacji)
odległość Euklidesa jest przypisana w sposób prawie na pewno wzajemnie jednoznaczny (izomorfizm), bądź co najmniej jednoznaczny (zależność homomorficzna).
Zatem formalnie dla opisu objętości informacyjnej
na kostce Xi. wskazano dwie
2 V
inf.
3
2
z pięciu definicji opisowych związanych z Vinf. Xi. :
– definicja pierwsza: „w rozpiętym na obiektach On wielowymiarowym układzie współrzędnych WUW dla mierzalnej, kompletnej i wielowymiarowej
W dziedzinie nauk ekonomicznych, w dyscyplinie finanse w skali mikro danych, przypadek prostokątny i poziomy w Xin,k występuje bardzo często w praktyce. Na gruncie problematyki regresyjnej
jako problem Gaussa-Markowa, mierzalny układ prostokątny i poziomy, dla którego liczba wierszy
(obiektów) jest mniejsza od liczby kolumn (zmiennych), posiada w klasie rozwiązań liniowych z wykorzystaniem macierzy MP-odwrotnych jednoznaczne rozwiązanie. Szerzej zob. [Kaczmarczyk,
2015, s. 115–162, mat. niepublikowany].
1
Odległość Euklidesa jako pierwiastek drugiego stopnia z sumy różnic kwadratów dla poszczególnych współrzędnych kostki danych, synonim norma Euklidesa ozn. ||Oi||2.
2
Definicje autora (B. Kaczmarczyk). Pozostałe własności objętości informacji, również definicje
trzecia, czwarta i piąta, zostaną zaprezentowane w części drugiej artykułu.
3
37
3, 5
3
2
2,1
2, 2
2,3
2, 4
3,1
3, 2
3, 3
3, 4
1
1,1
1, 2
1, 3
2,1
2, 2
2,3
3,1
3, 2
3, 3
PROBLEMY TEORETYCZNE
I METODYCZNE
38
3, 5
3
2
2
3, 5
3
1, 4
1, 5
Odpowiada
2, 4
2 , 5
3, 4
3, 5
2,5
2
3
1
kostki danych Xi objętością informacyjną Vinf. Xi jest wielokrotny (n-krotny)
V
2
iloczyn długości ||O n || 2 wszystkich1 jej obiektów
On”. Zapis formalny dla definicji pierwszej Vinf. Xi
n
Vinf . X i On
1
d Oi O i
2
2
(2)
(2.1)
gdzie d O i = ||O n || 2 oznacza przypisaną dla wszystkich obiektów O n długość Eu
2
klidesa liczoną od początku zapiętego wielowymiarowego
układu współrzędnych4
w ramach R (nk)+1. Wskazana w definicji pierwszej i formule (2) objętość informacja
Vinf. Xi w ujęciu izomorficznym ma swoją interpretację geometryczną5 dla wzajemnie jednoznacznego przyporządkowania w przestrzeni R (nk)+1 wymiarowej6 jako
„miotełka obiektów” iloczynu długości w maksymalnym wymiarze kostki danych
Xi. – rysunek 1.
– definicja druga (prawie na pewno izomorfizm): „przydział obiektom O i metryk, tj. długości d o i w ramach Vinf. w Xi. jest na ogół izomorficzny ze względu
na stosunek długości odcinków. Relacja R odwzorowuje zatem izomorficznie
(wzajemnie jednoznacznie) stosunek długości między obiektami w ramach
kostki danych na stosunku większości pomiędzy liczbami jako długościami
tych obiektów”. Dla definicji drugiej zasada odwrotna (tj. zasada homomorfizmu) może być spełniona, bowiem jest możliwe dla Vinf. przyporządkowanie jednoznaczne w ramach tej samej kostki danych jednej długości
kilku różnym obiektom w Xi..
W analizach wielowymiarowych przyjęcie początku wielowymiarowego układu współrzędnych
dla wszystkich n obiektów opisanych liczbą k zmiennych zwiększa wymiar analizy o jeden.
4
5
6
Interpretacja w sensie geometrii obliczeniowej.
Wymiar R (nk)+1 uwzględnia zapięcie wielowymiarowego układu współrzędnych w ramach „WAP”.
Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...
Izomorfizm
O1
do1
39
Izomorfizm
O2
do2
Izomorfizm
O3
do3
n
Vinf . X i On
1
2
WUW
0 0 ... 0
Izomorfizm
On
don
Rysunek 1. Objętość informacja Vinf. X i jako izomorficzna „miotełka obiektów”
w przestrzeni R (nk)+1 wymiarowej z wykorzystaniem odległości Euklidesa przypisanej
wzajemnie jednoznacznie obiektom O i
1 1 2
Źródło: opracowanie własne.
2 2 2
3 2 V
definicja pierwsza i formuła (2)
3
2
1
2. Taksonomiczna
analiza informacyjności kostek danych – objętość
2
informacyjna w ujęciu niemnogościowym
W przypadku objętości informacji na kostce danych Vinf. Xi kryterium podziału odnosi się początkowo do długości d O i = ||O n || 2 danego obiektu jako wektora infor2
2
1 ; zapiętego
, układu
,..., ; współrzędnych,
, a 2końcowo
, 1 do części wspólnej
macji od, początku
2 2
1 2
tych długości, tj. do iloczynu (analiza pozioma, tzw. analiza obiektowa kostki danych) dla czynności porządkowania obiektów opisanych zmiennymi. Przykładowy
algorytm wyznaczania objętości informacyjnej Vinf. jako liniowej miary podobień j Xi w funkcji jej objętości, z wykorzystaniem wzajemnych
stwa dla kostki danych
,
odległości Euklidesa
7 j w sensie izomorficznym pomiędzy obiektami, przedstawia
2
2
poniższa tabela 1, wraz z kierunkami dalszych badań – tabela 2.
1
1
1
2
1
1
j
Odległość Euklidesa, oznaczona jako d O i ||O i || 2 poza odległościami: Czebyszewa, Minkowskiego,
1
1
EKRW
i inne,
Odpowiada
stanowi
jedną, z,wielu
) możliwych
1 odległości
1
miejską, Mahalanobis,
Czekanowskiego
ogólnie
stosowanych w ramach WAP.
7
40
PROBLEMY TEORETYCZNE I METODYCZNE
Tabela 1. Metodyka taksonomicznego wyznaczania objętości informacyjnej V inf.
jako funkcji porządkującej liniowo badane obiekty w ramach kostki danych X i
– ujęcie izomorficzne
Lp.
Czynność
Etap
1.1.
Zebranie kompletnych mianowanych i mierzalnych danych i postawienie
problemu klastrowania
1.2.
Analiza jakościowa danych, analizy ilościowe, w tym obliczenie macierzy
korelacji dla zmiennych i wnioskowanie w zakresie wyjściowego
nieunormowanego zbioru zmiennych
1.3.
Wyjściowa kostka danych X i
1.4.
2.1.
Dokonanie transformacji cech zmiennych związanej z wyeliminowaniem
jednostek i dominacji zmiennych poprzez zniesienie efektu skali.
Proces ten dotyczy: normalizacji, standaryzacji, unitaryzacji, stosowania metod:
rangowych, metod ilorazowych, metody T. Grabińskiego bądź zastosowanie
innych metod
transformacji kostki danych X i z uwzględnieniem
natury
Izomorfizm
Izomorfizm
1
1
2
analizowanego
zjawiska,
własności i charakteru
zmiennych 2
Izomorfizm
Izomorfizm
Izomorfizm
1
1
2
2
0]
Zapięcie
wielowymiarowego
układu
współrzędnych
WUW = [0 0 3…
na 3
Izomorfizm
obiektach O i przetransformowanej kostki danych X3
3
i
I
Zebranie
i przygotowanie
danych do
analizy wielu
zmiennych
2.2.
Obliczenie sumy kwadratów dla wektorów informacji w kostce danych
2.3.
Obliczenie długości wektorów (obiektów) informacji w kostce danych d O i ||O i || 2
V
V
Obliczenie procentowego udziału informacji dla danego
wektora
w2 kostce
1
1
danych
WUW
WUW
0 0 0 skumulowanego procentu informacji danego wektora w kostce
Obliczenie
0 0
0
Izomorfizm
danych
2.4.
2.5.
Izomorfizm
Obliczenie objętości informacyjnej analizowanej kostki danych Vinf.
X
na
i
podstawie d O i w ujęciu izomorficznym
2.6.
2.7.
d O1
d O2
dO
3
d
On
O1
O2
O3
1...
On
n
Vinf . X i Oi
2
1
1 2
2 2 2
2
2
2
definicja pierwsza i formuła (2)
definicja pierwsza i formuła (2)
2
3 2 V
definicja pierwsza i formuła (2)
2
3
Przyjęcie
kryterium
podziału
1 i sporządzenie diagramu nieuporządkowanego
badanych obiektów w ramach kostki danych X i w ramach n!
objętościowo
1 ; 2 ,..., ; 2 2 1
,
,
,
możliwych
podzbiorów
kostki danych
2
,
1
1
1 2
1
2
2 2
1
1
Orientacja cech dla zmiennych w kostce danych. Obliczenie kosinusów
kierunkowych dla obiektów i zmiennych x i w wielowymiarowym układzie
współrzędnych w ramach kostki danych X i
j
2.8.*
,
x
x
cos O1 , x1 2 1 ;j cos
O1 , x2 2 ,..., ; cos 2 O1 ,x1 ... cos 2 On ,xn 1
2
O1 2
O2 2
j
2.9.*
Sporządzenie diagramu uporządkowanego objętościowo, delimitacja kostki
danych
,
j
EKRW
j
2
Odpowiada
, , )
1
1
1
1
j 2
Odpowiada
1
S1
1
2
II
Analiza
danych
i procedura
grupowania
objętościowego
kostki danych
1
2
3
2 2
3
Lp.
1, 1
V
definicja pierwsza i formuła (2)
2
2
1
Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...
2
1 2
;
1
1 2
1, 2
,..., ;
2
2 2
2
Czynność
1, 1
2
1
,
Etap
Uzupełnienie analizy w celu orientacji obiektowej poprzez wyznaczenie kątów
pomiędzy obiektami O i i O j w ramach kostki danych X i
2.10.*
cos Oi,O j
Oi O j
Oi
2
Oj
2
symbol O oznacza mnożenie skalarne wektorów informacji
Możliwe obliczenie i wyprowadzenie odległości kątowej pomiędzy obiektami
2.11.*
dla przyjętego układu współrzędnych
EKRW analizy
, , ) charakterystyk
1
Ujęcie dynamiczne
kostek
i obliczenie
w tym zakresie;
*oznacza dodatkową możliwość, tj. ujęcie dynamiczne analizy danych w dwóch
2.12.*
stanach badawczych jak dla metody różnicowej analizy danych.
Analiza zbiorów o skończonej liczbie elementów, zbiorów o równej mocy
Odpowiada
1
1
1
II
Analiza
danych
i procedura
grupowania
objętościowego
kostki danych
Grupowanie objętościowe, profil obiektów z możliwą wizualizacją struktury
2.13. danych z wykorzystaniem metod i narzędzi geometrii obliczeniowej,
analiza wyników
2.14. Ujęcie mnogościowe (teoria zbiorów) objętości informacji Vinf.
3.1.
III
Wnioskowanie
Wnioski końcowe
Źródło: opracowanie własne.
Kierunki dalszych badań dla Vinf. – tabela 2.
Tabela 2. Kierunki dalszych badań i prac nad V inf. w ramach kostki danych Xi
Lp.
Etap
Kierunek dalszych badań nad Vinf.
Nowe hipotezy badawcze, przykładowo:
H 1: czy Vinf. może stanowić kategorie dla metod wzorcowych porządkowania
liniowego?
1.
H 2: czy istnieje oraz jaka jest odporność Vinf. w ramach WAP na przyjęte i stosowane
w nauce skale pomiarowe? w tym hipoteza pomocnicza:
Nowe
hipotezy
H 2.1: Jaki jest wpływ transformacji cech dla porządku klastrowania objętościowego
kostek danych?
H 3: czy dla Vinf. istnieje pomiar jakościowej kostki danych?
Źródło: opracowanie własne.
41
2 2 2
3 2 V
definicja pierwsza i formuła (2)
2
3
1
TEORETYCZNE I METODYCZNE
42 PROBLEMY
2
3. Studium przypadku zastosowania objętości informacji Vinf.
do klasyfikacji obiektów na podstawie danych dla wybranych gmin
2
obszaru
świętokrzyskiego
1 , 1 1 ; województwa
1 , 2 2 ,...,
1, 1 2 , 1
;
2 2
1 2
Rozważmy jako studium przypadku8 przykład zaczerpnięty z pracy Popławskiego,
(2009) w odniesieniu do zmiennych ekologicznych oznaczonych jako typ E w ramach pojęcia ekorozwój – rysunek 2.
Rysunek –2 przedstawia
ekorozwój w znaczeniu podwójnym:
j
, j
– po pierwsze
j według Zaufala – (1983), Górki – (2007) jako wzrost gospodarczy
2
2
zgodny z wymogami ochrony środowiska życia człowieka, w tym zwłaszcza
ochrony przyrody,
– po drugie jako „EKRW” – jako płaszczyznę wspólną pojęć9: ekologia „E”,
gospodarka „G” i społeczeństwo „S” z uwzględnieniem warunku (3):
–
E S G
EKRW E S G Odpowiada
F ( E, S , G) 1 1 1 1
(3)
E S G
E
E1
0
G
S1
G1
S
Rysunek 2. Ekorozwój w znaczeniu łącznym
Źródło: opracowanie własne.
W przykładzie celem analizy jest dokonanie przestrzennego grupowania wybranych gmin województwa świętokrzyskiego, wchodzących w skład Nadnidziańskiego
8
Wykorzystano dane zawarte w pracy Popławskiego (2009, s. 205 i nast.).
9
Parametry E1, S1, G1 oznaczają konkretne dane ekorozwoju.
Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...
43
Parku Krajobrazowego, za pomocą Vinf.. Uwzględniając punkty 1.1. do 1.3. powyższej
tabeli 1, po analizie10 ilościowo-jakościowej otrzymano dane zestawione11 w tabeli 3.
Tabela 3. Dane do analizy grupowania
Nazwa
gminy
Opis
zmiennych
typu E
Imielno
Kije
Michałów
Nowy
Korczyn
Opatowiec
Wiślica
Złota
X27
X28
X44
X57
Udział
Udział
gruntów
obszarów
Udział
Długość
Wskaźnik
ornych
prawnie
lesistości
sieci kanalilokalizacji
w gospodarchronionych
w
zacyjnej
przestrzenstwach indyw popowierzchni
w km na
nej
widualnych
wierzchni
ogólnej
1 km2
(w %)
ogólnej
0,5116
0,1060
0,1675
0,0000
72,9609
0,9509
0,1784
0,2130
0,0030
61,1231
1,0076
0,1984
0,2133
0,0000
80,3717
0,9685
0,0702
0,2487
0,9597
0,9752
0,9100
0,1250
0,0324
0,1243
Suma
Mediana
Wartość średnia
Odchylenie
standardowe
Zmienność
cechy
x Min
6,2835
0,9597
0,90
0,8347
0,1243
0,12
0,2056
0,0145
0,3180
0,0000
0,2833
0,3902
Parametry opisowe
1,6493
0,4077
0,2133
0
0,24
0,06
0,17
0,06
19%
0,5116
x Max
1,0076
R = x Max –
- x Min
Środek ciężkości
zbioru
wielocechowego
X69
0,0000
Ludność
Obszar
według
gminy
stanu na
2
(w km )
2006r.
Dochód
ogółem na
osobę
(w tys. zł)
Dane
geograficzno-demograficzne
Dane GUS
na podstawie
sprawozdań
branżowych
samorządów
typu Rb-27S
100,6
99,26
112,21
4 626
4 692
4 839
1,9564
3,9842
1,9512
65,8673
117,3
6 381
2,5261
76,3250
64,7167
72,8060
68,41
100,6
81,7
3 599
5 690
4 877
1,6090
2,8707
2,4822
494,1708
72,806
70,60
680,08
100,60
97,15
34 704
4 839
4 957,71
17,3798
2,4822
2,48
6,90
16,96
876,48
0,79
0,05
0,15
48%
22%
251%
10%
17%
18%
32%
0,0324
0,1675
0
61,1231
68,41
3 599
1,609
0,1984
0,3180
0,3902
80,3717
117,3
6 381
3,9842
0,4960
0,1660
0,1505
0,3902
19,2486
48,89
2782
2,3753
0,90
0,12
0,24
0,06
70,60
97,15
4 957,71
2,48
Źródło danych: Popławski (2009, s. 337–341).
10
Analiza korelacyjna i analiza merytoryczna ze względu znaczenie zmiennych w ekorozwoju gmin.
11
Wynik analizy jakościowej i analizy korelacji dla pełnej macierzy danych Xin,k .
PROBLEMY TEORETYCZNE I METODYCZNE
44
W ekonometrii w ramach WAP obliczenia i wnioskowanie bez transformacji cech
na ogół tracą wartość poznawczą12 analizowanego zagadnienia. Dlatego w taksonomii, w zależności od typu i własności skali pomiaru (Stevens, 1946, s. 677–680;
Ackoff, 1969), s. 243–244, tablica 6.3 i 6.4 klasyfikacja skal pomiaru: nominalna,
porządkowa, interwałowa, ilorazowa) dla zmiennych opisanych cechami, istnieje
wiele sposobów transformacji, wśród których można wskazać: normowanie, standaryzowanie, unitaryzację, unitaryzację zerowaną i przekształcenia ilorazowe. Zatem
przygotowując dane do dalszych obliczeń, w celu eliminacji efektu skali, wyeliminowania różnych jednostek oraz doprowadzania danych do porównywalności,
dokonano zgodnie z pkt 1.4. tabeli 1 transformacji cech jednolicie dla wszystkich
zmiennych w ramach X̅ według formuły (4):
xi , j X
zi , j
S(X j )
(4)
; S ( X j ) 0
gdzie:
Zi,j – zmienna standaryzowana,
Xi,j – zmienna
nieunormowana,
1 2
1
X̅ – wartość
średnia zmiennej nieunormowanej,
2 2
2
S(Xj ) – odchylenie
standardowe zmiennych nieunormowanych.
3 2 V
= 825,6
3
2
1
standaryzacji cech w ramach X dla formuły (4) zestawiono w tabeli 4.
Wyniki
in,k
2
Kolejnym
krokiem było zapięcie wielowymiarowego układu współrzędnych
WUW = [0 0 … 0] dla unormowanych danych na kostce X i n,k oraz realizacja punktów
2.1. do 2.6. tabeli 1. Wyniki obliczeń zestawiono w tabeli 5.
12
1
2
3
2
V
2
2
1 2
2
3
1
2
Przykładowo z powodu efektu rzędu wielkości cech dla zmiennych wyrażonych w różnych jed-
nostkach pomiaru w ramach Xin,k .
Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...
45
Tabela 4. Dane unormowane
Wyszczególnienie
Imielno
Kije
Michałów
Nowy Korczyn
Opatowiec
Wiślica
Złota
Suma
Wartość średnia
Odch. stand.
Środek
ciężkości zbioru
wielocechowego
X27
X28
X44
X57
X69
Obszar
gminy
(w km 2)
–2,2351 –0,2289 –1,3290 –0,3976 0,3428 0,2032
0,3084 1,0263 –0,4412 –0,3771 –1,3732 0,1242
0,6364 1,3729 –0,4346 –0,3976 1,4171 0,8877
0,4105 –0,8510 0,2542 –0,3976 –0,6855 1,1879
0,3593 0,0993 –0,5849 –0,2987 0,8305 –1,6949
0,4488 –1,5059 1,6062 –0,3976 –0,8522 0,2032
0,0716 0,0873 0,9294 2,2663 0,3204 –0,9112
0
0
1
Dochód
Ludność
ogółem
według
wykonany na
stanu na
osobę
2006 r.
(w tys. zł)
–0,3785
–0,6676
–0,3032
1,9042
–0,1354
–0,6743
1,6239
0,0549
–1,5502
–1,1083
0,8355
0,4920
–0,0921
–0,0008
0
Źródło: opracowanie własne.
Tabela 5. Objętość informacyjna kostki danych Vinf. Xi
Nazwa
gminy
Imielno
Kije
Michałów
Nowy
Korczyn
Opatowiec
Wiślica
Złota
Suma
Sumy
Długości
kwadratów
wektorów
dla wektorów
informacji
informacji
w kostce
w kostce
danych
danych
7,7201
7,1044
5,9063
2,78
2,67
2,43
Procent
informacji
danego
wektora
w kostce
danych Xi
Procent
informacji
skumulowany
danego wektora
w kostce
danych
Zapięcie WUW = [0
15,2
14,6
13,3
0 … 0]
15,2
29,7
43,0
5,6362
2,37
13,0
56,0
7,7641
6,9148
6,9541
48,0
2,79
2,63
2,64
18,30
15,2
14,4
14,4
100
71,2
85,6
100
Objętość informacyjna
kostki danych Vinf. Xi
,j
z ,j
d O1
d O2
dO
3
d
On
O1
O2
O3
...
On
n
Vinf . X i Oi
2
1
2
j
)
;
j
)
2
2
2
= 825,6
= 825,6
Źródło: opracowanie własne.
1
2
3
V
2
2
1 2
2 2
3
1
PROBLEMY TEORETYCZNE I METODYCZNE
46
Tabela 6. Tabela nieuporządkowana kostki danych dla istniejącej Vinf. Xi
Cosinusy
Cosinusy
Nieuporządkowanie
Cosinusy
kierunkowe
Cosinusy
Cosinusy
Cosinusy kierunkowe
objętościowe kostki
kierunkowe dla zmiennej
kierunkowe kierunkowe kierunkowe dla zmiennej
danych, objętości Lp.
dla zmiennej dochód ogółem
dla X44
dla X57
dla X69
obszar
cząstkowe kostki
ludność
wykonany na
gminy
danych
osobę
–0,4783
–0,1431
0,1234
0,0731 –0,1362
–0,2403
125,3
1
–0,1655
–0,1415 –0,5152
0,0466
–0,1137
0,7144
120,2
2
–0,1788 –0,1636
0,5831
0,3653
–0,0557
–0,2775
109,6
3
Nazwa
gminy
Cosinusy
kierunkowe
dla X27
Cosinusy
kierunkowe
dla X28
Imielno
Kije
Michałów
–0,8044
0,1157
0,2619
–0,0824
0,3850
0,5649
Nowy
Korczyn
0,1729
–0,3585
0,1071
–0,1675
–0,2887
0,5003
0,6840
0,0231
107,1
4
Opatowiec
0,1290
0,0356
–0,2099
–0,1072
0,2981
–0,6083
–0,5563
–0,3978
125,7
5
Wiślica
0,1707
–0,5727
0,6108
–0,1512
–0,3241
0,0773
0,3177
0,1871
118,6
6
Złota
0,0271
0,0331
0,3524
0,8594
Suma
0,1215
–0,3456
–0,0349
–0,0003
119,0
825,6
7
Źródło: opracowanie własne.
Przy kontynuacji obliczeń z tabeli 1 kolejny etap stanowi zestawienie odpowiednio nieuporządkowanej i uporządkowanej tabeli danych względem Vinf. Xi. Wyniki
zaprezentowano w tabeli 6, a delimitację kostki danych w tabeli 7.
Tabela 7. Tabela delimitacji kostki danych dla istniejącej Vinf. X i
Uporządkowanie objętościowe
kostki danych. Objętości
cząstkowe kostki danych.
Profil obiektów względem
zastosowanych zmiennych
107,1
109,6
118,6
119,0
120,2
125,3
125,7
825,6
Lp.
sortowana
Nazwa gminy,
obiekt
wielowymiarowej
kostki danych
Zapięcie WUW = [0 0 … 0]
4
Nowy Korczyn
3
Michałów
6
Wiślica
7
Złota
2
Kije
1
Imielno
5
Opatowiec
Suma
Procent objętości informacji
danego wektora
w kostce
danych Xi
Procent objętości
informacji
skumulowany
danego wektora
w kostce danych
13,0
13,3
14,4
14,4
14,6
15,2
15,2
100
13,0
26,3
40,6
55,0
69,6
84,8
100
Źródło: opracowanie własne z wykorzystaniem funkcji Excela: formatowanie warunkowe.
Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...
Podsumowanie
1
2
3
Za pomocą trzyetapowego algorytmu związanego z realizacją klastrowania obiektów izomorficznych, w ramach kostki danych na podstawie objętości informacyjnej
Vinf. Xi, uzyskano dla wyjściowych danych wyodrębnienie podzbiorów, tzw. taksonów, którym wzajemnie jednoznacznie odpowiadają zarówno odległości, jak i objętości cząstkowe o najmniejszym zróżnicowaniu w ramach łącznej objętości informacji rozważanej kostki.
W ramach gmin wchodzących w skład Nadnidziańskiego
Parku Krajobrazowego
,j
oraz przyjętego kryterium podziału
objętości informacyjnej
z , j opartego
; na pojęciu
j) 0
j ) uzyskano rozbicie analizowanej kostki
Vinf. jako kategorii porządkowania liniowego
danych Xi na trzy podzbiory: pierwszy {4,3} = {Nowy Korczyn, Michałów}, drugi
{6, 7, 2} = {Wiślica, Złota, Kije}, trzeci {1,5} = {Imielno, Opatowiec}.
Kierunkiem dalszych badań, poza formalną stroną zagadnienia Vinf. Xi – tabela 2,
w ramach pojęcia ekorozwój, jest kwantyfikacja oparta dla Vinf. Xi na dwóch pozo1 2
stałych
składowych ekorozwoju, tj. społeczeństwie i gospodarce, łącznie w triadzie
2pojęć
2 stanowiących o istocie ekorozwoju – rysunek 2. Niewątpliwą zaletą przedsta Valgorytmu
= 825,6
jest jasny
i prosty sposób klastrowania na podstawie Vinf. Xi oraz
3wionego
2
2
1
prezentacja objętości informacji jako metryki w przestrzeni mierzalnej nie tylko
w formie
metodycznej – tabela 1, ale również w ujęciu geometrycznym, izomorficz
2
nym (wzajemnie jednoznacznym) jako „miotełka obiektów” z zapiętym układem
współrzędnych w przestrzeni R (nk)+1 – rysunek 1, odległość metryzuje objętość informacji.
W zaprezentowanym zagadnieniu dla odległości Euklidesa przedstawione powyżej rozważania można uogólnić na zagadnienia dalsze jako:
d O1
d O2
dO
3
d
On
O1
O2
O3
...
On
2
n
Vinf . X i Oi
2
1
2
2
2
47
48
PROBLEMY TEORETYCZNE I METODYCZNE
Przeprowadzone badania stanowią inspirację dla rozwoju analiz danych, które
mogą pogłębić wnioskowanie, zwłaszcza w ujęciu porównawczym rozpatrywanych
zagadnień, stanowiąc uzupełnienie analityki dla wielu problemów na gruncie taksonomii z elementami geometrii obliczeniowej.
Literatura
Ackoff, R.L. (1969). Decyzje optymalne w badaniach stosowanych. Warszawa: PWN.
Coombs, C.H, Dawes, R.M., Tversky, A. (1977). Wprowadzenie do psychologii matematycznej. Warszawa: PWN.
Górka, K. (2007). Wdrażanie koncepcji rozwoju zrównoważonego i trwałego. Ekonomia
i Środowisko, 2/32.
Jajuga, K. (1993). Statystyczna analiza wielowymiarowa. Warszawa: PWN.
Kaczmarczyk, B. (2015). Wielowymiarowe ujęcie estymacji wartości rynkowej przedsiębiorstw na przykładzie branży energetycznej (rozprawa doktorska, materiał niepublikowany). Kraków: Uniwersytet Ekonomiczny.
Popławski, Ł. (2009). Uwarunkowania ekorozwoju gmin wiejskich na obszarach chronionych województwa świętokrzyskiego. Warszawa: PWN.
Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science, CIII, Jun. 7, 2684.
Zaufal, T. (1983). Perspektywy sozologii w ekorozwoju. Aura, 3.
TAXONOMICAL ANALYSIS INFORMATION OF DATA CUBES – VOLUME
OF INFORMATION ON THE CHOSEN EXAMPLE OF ECO DEVELOPMENT
Abstract
The term “volume of information”, which was mentioned in the title is a keyword for relatively broad and recent issue of taxonomy and clustering objects or data cubes in regional
depiction. The main research in data analysis is focused on variables and development of
countless methods, techniques and tools.
The main goal of this article is to present the principles for objects clustering respecting an
analysis of vertical data cube and usage of the term “volume of information” in connection with quantitative term of closeness on one side of the objects within the cube, on the
other of the possibility of analysis of the metric data cubes in relation to each other. The
Kaczmarczyk, Popławski | TAKSONOMICZNA ANALIZA INFORMACYJNOŚCI...
object clustering case study for this thesis were used the data of chosen communities from
Świętokrzyskie voivodship in connection with their eco development.
Keywords: volume of information, data cube, eco development
Translated by Bogusław Kaczmarczyk
JEL codes: C02, C81,C82
Powered by TCPDF (www.tcpdf.org)
49