Publikovanie štatistických dát ako LinkedData

#1

Včera sa uskutočnilo zaujímavé stretnutie na Štatistickom úrade, kde sme odprezentovali používanie spôsobu publikovania štatistických údajov prostredníctvom LinkedData. Predbežne sme sa dohodli na neformálnej spolupráci, čiže fantastish. Ja som ešte na výške ako tretiak mal semestrálnu prácu OLAP (to vtedy ešte začínalo), a keď som teraz po rokoch študoval aktuálny štandard RDF Cube Vocabulary, musím povedať že som hltal túto ontológiu plnými dúškami :sunglasses:

Aký je dôvod, resp. prínos použitia prepojených dát v štatistike?

  1. Kedže prepojené dáta sú prepojené :), všetko so všetkým súvisí, tak tvorba dimenzií, meraní a podobne je absolútne fantastická záležitosť.

  2. Dopytovanie na dáta je možné tvoriť efektívne cez samotné RDF grafy, tj. zobrazím si nejakú zaujímanú entitu, napr. ministerstvo financií SR, a veľmi rýchlo transformujem tento graf na validný dopyt typu: vráť mi také organizácie, ktoré sídla na danej ulici, pričom organizácia má vlastnosti 1,2,3…N.

  3. Z pohľadu publikovania štatistických dát je svätým grálom to, že všetky údaje je možné brať ako jeden celok. Tj. publikované open linked data z rôznych registrov môžem krásne mashupovať so štatistickými dátami, ako napr. “Vrát mi zoznam ulíc, kde kriminalita < N a súčasne, úroveň hluku < M, a na tej ulici je Materská škola” - čo môže byť služba pre nejaký realitný portál, a podobne. Resp. analýzy pre transparentnosť a podobne.

OOK, teraz sa už ale vrátim najmä k bodu 3, tj. publikovanie štatistických údajov ako LinkedData.
Základom je tzv. Logický multidimenzionálny model

obrázok

V rámci EÚ je cez W3C odporučený štandard

RDF Data Cube Vocabulary
https://www.w3.org/TR/vocab-data-cube/

Metamodel

ktorý vyzerá na prvý pohľad komplikovane, no v skutočnosti je veľmi jednoduché. Kľúčovým pri definovaní štatistiky je definovanie qb:DataStructureDefinition (čo je dátová kocka), ktorá sa skladá s rôznych komponentov reprezentovaných dimenzie, tj. qb:DimensionProperty, resp. merania qb:MeasureProperty a atribútov, tj. qb:AttributeProperty.

Pre väčšiu názornosť, uvádzam príklady dvoch štatistík spojených z VÚC Voľbami.

Voľby do VÚC - okrsky
3★

4★ (dátové entity štatistiky nie je nutné registrovať do MetaIS, pretože to nie sú referečné dáta)
RDF/XML reprezentácia (prvého riadku orámovaného na zeleno) je nasledovná (zatiaľ zbalené XMLko)

kde môžete vidieť najskôr definíciu dimenzií (kraj, obec, volebný obvod a volebný okrsok) a samotné merania (počet voličov, počet zúčastnených voličov, a podobne), pričom nasleduje definícia samotnej dátovej štruktúry a jej previazanie na definované dátové vlastnosti.
Samotné merania (výsledky) sú reprezentované ako množina qb:Observation, ktoré tvoria dataset qb:Dataset. Nasledovný príklad znázorňuje (rozbaľuje) výsledky pre BSK, BA-Staré mesto, Obvod 1 a Okrsok 1

Voľby do VÚC - kandidáti
3★

4★ RDF/XML reprezentácia (prvého riadku orámovaného na zeleno) je nasledovná (zatiaľ zbalené XMLko)

pričom detail štatistických údajov je nasledovný

Prezentácia je tu:
obrázok

Uvedené štatistiky zaradíme aj do najbližšej verzie LOD Slovakia, čiže keď si budete napr. pozerať detail Starého Mesta, tak tam bude už vidno aj tieto súviace výsledky volieb.

1 Like