Centrálny model údajov verejnej správy (dátová interoperabilita)

liska · November 2, 2015, 9:51pm

Milí priatelia/kolegovia/členovia PS1/slovensko.digital.

sémantický web (web 3.0) je absolútne skvelá / nová generácia webu, resp. webových aplikácií, kde sa používajú grafové tripletové databázy, štandardizované ontológie na popis domén, umelá inteligencia vo forme odvodzovania, a mnoho ďalších iných super vecí. Sémantika sa obzvlášť hodí do verejnej správy (tak ako je tomu v západnom svete), pretože keď sú dáta anotované (popísané) sémantikou a súčasne sa používajú štandardizované URI tak rôzne rozrúsené dáta je možné efektívne spojiť (zlinkovať) pričom je možné ľahko a veľmi efektívne robiť tzv. sémantický mashup s dátami, čiže integráciu na absolútne inom levely.

Konečne po viacerých rokoch nášho Government Linked Data úsilia si dovoľujeme publikovať náš návrh smerovaný na PS1 v rámci Ministerstva Financií: Sémantické dátové štandardy pre ISVS SR na pripomienkovanie.

Metodika je dostupná na:
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=16416782

Referencie

Líška, M., Šurek, M.: Toward Government Linked Data: A Slovak Case . Semantics 2015. Wien, AT. Miroslav Liska (Marek Šurek): Toward Government Linked Data: A Slovak Case | PPT

Líška, M.: Na strastiplnej ceste k otvoreným päťhviezdičkovým údajom v Slovenskej republike. In Petr Šaloun and Dušan Chlapek Proceedings of the DATAKON 2014: pages 40-51. Jasná, SR. datakon.cz

Líška, M.: Päťhviezdičkové otvorené údaje Slovenskej republiky. Open Data Forum 2013. Bratislava, SR. http://www.metoo.sk/tbb?relacia=open-data (video, od času 135:34)

jsuchal · November 2, 2015, 10:34pm

Budu tie URL aj naozaj dostupne v tom tvare?

liska · November 2, 2015, 10:59pm

Ja pevne verím že áno , materiál ide do PS1 na pripomienkovanie. Všetko ale zatiaľ tomu nahráva že by sa to mohlo podariť. Podarilo sa nám to dostať do MetaIS, hoc len ako atribút jednotlivých entít (aj keď ešte chvíľu potrvá kým to tam bude vidno). MetaIS je síce grafová DB, škoda ale že je propietárna, mohla to byť nejaká natívna tripletová DB, ale to sme nevedeli ovplyvniť.

Tak či onak, po najbližšom stretnutí PS1 dám vedieť sem ako to dopadlo. Zatiaľ ale Iný návrh nie je, takže tieto URI+ontológie+metodika (mapovanie entít verejných údajov na sémantické entity) sú zatiaľ jediné. Tým ale nechcem povedať že je to zatiaľ všetko iba rýchlo-navrhnuté. Opak je pravdou, použili sme tak world know-how čo sme zvládli.

Čo sa týka samotného obsahu, budeme (ja+marek surek) veľmi vďační každej pripomienke, či chybe ktorá sa v materiály nájde.

gla · November 3, 2015, 8:28am

ja predpokladam, ze sa podari dostat z METAiS informacie z registra URI/URL na data.gov.sk ako dataset. Nasledne sa bude dat dereferencovat. neviem kedy sa to stihne, ale podstatne je v tomto kole, ze je jasne kto bude mat master data okolo URI a z mojho pohladu je METAiS to spravne miesto a je jasne kto bude tieto URI interpretovat do semantickeho webu a to by mal byt data.gov.sk.
Ak sa to podari budeme jedna z prvych krajin, ktora takto koncepcne pristupila k semantike a moze to vyrazne urychlit buduce integracie, vymenu dat a odpadne mnoho nejasnosti v interpretovani.
Dalsi velky prinos bude to, ze METAiS prinesie semanticke popisovanie aj systemov, registrov a datovych prvkov cim ziskame jednotne referencovatelne pomenovanie vela faktov. Pri dnesnom roztriesteni systemov to moze byt nieco, co vyrazne pomoze k prepojeniu nielen dat.

Lubor · November 5, 2015, 2:14am

Som rád že táto vec sa dostala do reálnych mantinelov. Teraz je ozaj vhodná chvíľa štandardizovať ref. id. Ak sa to dobre spraví, môže to byť široko uplatniteľné aj úplne mimo rámca OpenData - pre “skutočnú” G2G výmenu údajov, resp. data management verejnej správy.

Avšak treba to veľmi tesne priviazať k dnes už existujúcim konceptom - špecificky ku agendám/registrom a dátovým prvkom. Toto zatiaľ v dokumente mám pocit že je dosť neporiadne. Identifikátory totiž majú mapovať skutočnosť, a tá je z pohľadu ISVS reprezentovaná určitými objektami. Napr. pokiaľ dnes kategória osôb “prezident” nie je špecificky reprezentovaná v žiadnej agende, je vyslovené nevhodné vyrábať pre ňu ref.id. schému - a to preto, že jednak nemáme žiadne inštancie a dvak keď (snáď) raz vznikne potreba túto kategóriu podchytiť, realizácia sa bude riadiť potrebami “zvonka” a nie týmito štandardami. Čiže možno vznikne číselník “ústavné funkcie” a jeho položka “prezident” a vzťah medzi FO a ústavnou funkciou a nie špecifická trieda FO “prezident”. Ďalej časť identita URI treba aby bola vždy priamo dnes používaným “holým” identifikátorom objektu - takto sa bude dať strojovo prekladať dnešný id na ref.id.

Dokumentu stále chýba nastavenie procesov okolo ref.id. Zjednodušený príklad: keď si niekto vyrobí nový dátový prvok, musí rovno pre neho definovať ref.id. na úrovni skupiny aj inštancií a v jeho primárnom vyjadrení (XML) mať ref.id. zapísaný. Atď…

Plus používa pojmy, ktoré nikto okrem úzkej skupiny zasvätencov nepozná a nevie použiť - t.j. pre absolútnu väčšinu ľudí je nepochopiteľný, čiže ho budú ignorovať. Je vhodné rozdeliť to na dve časti - jedna teoretická, s detailným popisom filozofického pozadia, druhá praktická a veľmi stručná: definície konkrétnych URI schém už priradeným existujúcim objektom.

A keďže žiadne ref.id. sa v praxi ešte nepoužívajú, máme aj unikátnu príležitosť spraviť ich priamo ako lokátor (URL), ktoré snáď aj v budúcnosti budú funkčné.

msurek · November 5, 2015, 3:03pm

Myslim si ze si uplne nepochopil podstatu dokumentu a jeho zamer. On nehovori o procesoch, ale o URI, jednotlivych zakladnych datovych elementoch a poriadku aby sa URI jednoznacne tvorila s jasnymi mantinelmi. Tento dokument je nesmierne dolezity, pretoze ak by sa prijal a zacali sa URI vydavat podla neho, nebude jednoduche to uz zmenit ked sa to zacne v systemoch pouzivat tak aby nemuseli vznikat nejake integracne datasety medzi URI co by zabilo myslienku jednotneho identifikatora hned v pociatku. Preto nesmie obsahovat chyby a tp je aj dovod preco bol vypublikovany aj mimo PS1, kam vsetci aj problematiky znali nechodia.

Procesy sa momentalne obdobnym sposobom navrhuju na zaklade skusenosti s MetaIS, ale aj procesy museli vychadzat najprv z niecoho co doteraz neexistovalo. Podla mna sa casom dostane procesny dokument z MetaIS rovnako aj sem, aby bol vecne pripomienkovany. Kazdopadne ziadne nezmyselne kategorie by nemali vznikat nakolko jednou z hned prvych poziadaviek bolo, aby mal MetaIS spravcu(znalca domeny), ktory sa bude starat aby nevznikali nezmyselne datove prvky, ktore by len zahlcovali system a preto je sucastou systemu aj moznost odmietnut registraciu. Takze to ze si niekto poziada o registraciu neznamena ze je automaticky povolena. Urcite netvrdim ze procesy netreba mat podchytene, prave naopak. Su rovnako dolezite, toto je ale prva stavbna tehla z ktorej treba stavat.

Co sa tyka toho aby ref.id==URL, tak to moze vzniknut len na zaklade toho ze koncepcne budu dane URI riesene, aby sa vedelo nejako jasne pravidlami nastavit routovanie requestov. Preto si pls precitaj dokument a akukolvek nezrovnalost, ktoru sme neuvazovali a mohla by vzniknut reportuj nech to je naozaj spravne nastavene. Samotny navrh procesov by mal nasledovat v relativne kratkom case.

Lubor · November 10, 2015, 12:57pm

Pokúsim sa byť stručný.
Kľúčové je:

pre každú inštanciu dátového prvku mať ref.id.
vytvárať ref.id. pre konštrukty pre ktoré dnes neexistuje dátový prvok iba ak je to ozaj nevyhnutné (zakladá to budúce problémy)
vytvárať ref.id. tak, aby sa dalo automaticky (strojovo) konvertovať medzi ref.id. a dnes používaným identifikátorom v príslušnej doméne
pamätať pri návrhu, že ref.id. bude (snáď) používaný ako lokátor
najdôležitejšie sú procesy: kto, kedy a akú povinnosť má vytvárať, prijímať a používať ref.id.

Ref.id. sa už v praxi používajú: pre el. formuláre. V tomto návrhu sú iné. Ako toto idete riešiť? (Ozvite sa kto zažil lomkovo-bodkovú vojnu.)
Rovnako sú v štd. ISVS uvedené ref.id. pre základné číselníky. V tomto návrhu je to ináč? Prečo?
A ako @gla vždy pripomína, štandardy pre kultúrne objekty už obsahujú definície identifikátorov, ktoré sú aj používané. Ako ste to zahrnuli do svojho konceptu?

Ináč provokačná otázka: čo by sa stalo keby URI pre všetky objekty vyzerali takto: http://data.gov.sk/refid/f589a1e7-a27d-47ad-9f85-d69b86ac949d (časť identity je GUID, unikátny pre každý objekt samozrejme) Celá táto vážna hra s URI je v skutočnosti iba prenášanie sémantiky mimo modelu - a to je presne tá vec, ktorú majú LOD odstrániť! Z môjho pohľadu to zmysel má, viď. odrážky vyššie a to práve preto, že na dnes existujúcu sémantickú interoperabilitu treba nadviazať. Aké priority sledujete vy?

msurek · November 10, 2015, 2:14pm

Ahoj,

Suhlas.

Toto je diskutabilne, no nie z pohladu toho ze naozaj treba vytvarat iba zmysluplne identifikatory, ale napr. dnes mame aj ciselnik ryb na statistickom urade, ale taky ciselnik skol tam nie je, takze podla mna prave vela ciselnikov chyba a mnohe su uplne uletene od realnej potreby pouzivania.

Suhlasim, toto je zabezpecene vlastnostou historyNote.

Suhlasim. Vyriesene. Viac je v metodike MetaIS.

Suhlasim. Miro L. by ich mal zverejnint (ak dostal suhlas od Anextu).

K zvysku poviem iba tolko ze vsetky existujuce prvky neboli popisane z celkoveho pohladu ale vzdy sa pozeralo iba na konkretny usecase. Je to ale iba moj subjektivny pocit nakolko som na PS bol asi iba 2x v zivote. Urcite mas v tomto vacsie znalosti. Navrhovane riesenie vychadza z : W3C standardov, praxe pouzivanej v data.gov a data.gov.uk a nasim specifikam popripade vylepseniam na ktore sa v case prislo a mame ich moznost zapracovat a tak mat systematickejsie riesenie ako dane portaly. S Gabom L. sme v kontake a vsetky zmeny vie pripomienkovat.

Hlavne sa sledovali nasledovne veci :

Spravit poriadok v sucasnych ciselnikoch napriec rezortami (nie len ciselniky statistickeho uradu, ale aj ministerstva zdravotnictva a inych, ktore maju vlastne ciselniky) a najst jednotny sposob ako ich zjednotit a systematicky vyriesit ich spravu aj do buducnosti. Tj. v dokumente je aj sposob verzionovania ciselnikov, a akym sposobom sa maju tvorit, takze su v nom popisane aj postupy nie len ze aky string ma ist po akom stringu v URI. Nie su v nom popisane kompetencie vramci statu, ministerstiev a pod… ale toto je nieco mimo mna lebo nie som clenom ziadneho vladneho projektu ani sucastou ziadnej autority, ktora by nieco dokazala nieco take niekomu nakazat. Pokial viem, Miro poslal material do PS1, kde sa k nemu mozu clenovia vyjadrit.
Vychadzat v co najvacsej miere z medzinarodnych standardov a nie tych ktore si niekto svojvolne vymysli. Len toto zabezpeci ze vytvoreny system bude prepojitelny aj so systemami mimo SK a tak sa nevyhodia dalsie stovky milionov na dodatocne integracne projekty.
Jednoducho spracovatelna URI a aj metodika prace s data pre programatora a to :
a) Nemennymi datasetmi/distribuciami = nemoze sa stat ze niekto zmeni distribuciu! Vysledkom zmeny distribucie je vzdy nova distribucia resp. verzia datasetu a tym padom nove URI. Toto ma za nasledok ze je vzdy na 100% zarucene ze IS budu robit s identickymi datami. Dnes to zarucene nie je pretoze dataset je mozne menit a neexistuju ucele snapshoty podla datumov.
b) Jednoducha manipulacia s URI napr. versionInfo vlastnost je vlastnost, ktora ak je nalepena na dane URI tak je mozne ho z URI mozne odstranit od konca. Vysledok je napr. to ze vzdy chcem robit s najnovsou verziou distribucie tak zadavam URI/URL bez verzie. Toto by malo byt osetrene na strane sluzieb na identifikatormi.

Marek

liska · November 11, 2015, 8:22pm

Lubor,

ďakujem za pripomienky, aj keď vravíš že je to zlé
Ak sa nenahneváš, v tomto krátkom poste budem trochu kvákať ako vrana, no ďalšie už budú k veci.

Spomínaš si, keď sme prvý krát prezentovali sémantické štandardy na PS1 na začiatku roka 2013?
Hneď si bol proti. Dokonca vtedy si bol celkovo proti potrebe URI (Jednotnému referencovateľnému identifikátoru), vravel si že, sú iné problémy než riešiť linked data, je treba najskôr doriešiť XML štandardy. Mohol by som tu pokračovať …

Teraz, po dvoch rokoch, si opäť proti nám, hoc tento krát je URI ok, len my to robíme zle, nenadväzujeme na aktuálne štandardy. O com ideme pre dobro veci akiste hodne diskutovat.

Pritom: prečo si mi nikdy neposlal nejaké pripomienky k množstve verzií sémantických štandardov tak ako som ich priebežne posielal? a ozves sa mesiace po odoslani pripomienok do PS1, az ked som to zavesil sem na web. Teraz mi nejde o to, ze tvoje posledne posty nieco menia (nic). Namiesto toho teraz narychlo kompilujes zase nejaku negativnu haluz.

Mrzí ma, že som musel začať našu diskusiu takýmto príspevkom, no som optimista, a verim, ze vsetko nakoniec dobre zurocime.

PS: tento text som prepisal asi 100x . dost viet som odtial vymazal :))

Tak a dosť. K sémantike.

liska · November 11, 2015, 9:15pm

Lubor, postupne budem porovnavat vlastnosti nášho prístupu s tvojimi pripomienkami, pojdem ale postupne, pomaly. Keďže nas pristup je komplexný systém dovolím si ho nazvať Variantou A, pričom tvoj kompilacny prístup si dovolim oznacit za variantu B.

Skúsim ich bližie zadefinovať:

Varianta A: Komplexný systémový návrh sémantických dátových štandardov [18 paragrafov] je založený na svetových štandardoch semantiky W3C, odporúčaniach v rámci Government Linked Data, v súlade s odporúčaniami SEMIC (Semantic Interoperability Community)
SEMIC Support Centre , ktorá je súčasťou ISA (Interoperability Solutions for European Public Administrations (ISA) Programme) pod európskou komisiou.URI reprezentujú rôzne entity, či už indivíduá (reálne objekty sveta), defínície (ontológie, triedy, vlastnosti), datasety (číselníky, hierarchie), distribúcie datasetov, katalógy, pričom sú používané A) odporučené ontológie na verejné dáta ako DCAT, ADMS, PERSON, ORGANIZATION …B) súčasne URI zohľadňujú tzv. štúdiu perzistencie URI, publikovanej tu: https://joinup.ec.europa.eu/sites/default/files/D7.1.3%20-%20Study%20on%20persistent%20URIs.pdf

Varianta B: skúsim ju extrahovať z tvojho príspevku. Napísal si že kľúčové je:

pre každú inštanciu dátového prvku mať ref.id.

URI by mohlo vyzerať nejako takto: http://data.gov.sk/refid/f589a1e7-a27d-47ad-9f85-d69b86ac949d

vytvárať ref.id. pre konštrukty pre ktoré dnes neexistuje dátový prvok iba ak je to ozaj nevyhnutné (zakladá to budúce problémy)

vytvárať ref.id. tak, aby sa dalo automaticky (strojovo) konvertovať medzi ref.id. a dnes používaným - - identifikátorom v príslušnej doméne

pamätať pri návrhu, že ref.id. bude (snáď) používaný ako lokátor

najdôležitejšie sú procesy: kto, kedy a akú povinnosť má vytvárať, prijímať a používať ref.id.

Pripomienky budem dávať k tvojmu návrhnu postupne, bude to trvať dni, až týždne kým sa vypíšem. Na začiatok si tu dovolím uviesť, na čo je vlastne sémantika dobrá, pretože často budem potrebovať vyzdvihnúť ciele. Je to vyjadrené v sémantických štandardoch (zatiaľ veľmi narýchlo navrhnutý text), časť A, paragraf §A2 - Strategický zámer použitia sémantiky vo verejných dátach - je - Poskytovanie všetkých verejných dát vo forme 4★ a 5★ z pohľadu 5★open data pre nasledovné potreby: Umožnenie efektívne prepojiť VŠETKY VEREJNÉ DÁTA, tj, rôzne registre, datasety, číselníky, hierarchie prostredníctvom sémantiky zavedením jednotných URI identifikátorov a štandardizovaných ontológií pre jednotlivé entity, pre efektívne spracovanie, vyhľadávanie, integráciu, analytiku … atď. Sémantika je kľúčová pre zefektívnenie verejných dát.

V tomto príspevku sa hlavne zameriam na prvé dva body, aj to úvodne zatiaľ:

[- pre každú inštanciu dátového prvku mať ref.id.]
[- URI by mohlo vyzerať nejako takto: http://data.gov.sk/refid/f589a1e7-a27d-47ad-9f85-d69b86ac949d ]

V sémantike je to trochu širšie. Názov dátový prvok je v sémantike najpodobnejší triede, tj. owl:Class, prípade konceptu, tj. skos:Concept. Platí, že aj tento dátový prvok má svoj jednotný referencovateľný identifikátor (skos = SKOS Simple Knowledge Organization System Namespace Document - HTML Variant, 18 August 2009 Recommendation Edition, owl = http://www.w3.org/2002/07/owl# ) . Keď chcem zadefinovať nejaký nový dátový prvok, aj tomu musím dať URI (nie len jeho inštancii). Čiže najskôr vytvorím ontológiu ktorá má vlastné URI a v nej vytvorený element ontológie získava toto URI. V našom prípade išlo napr. o prenesenie KDP (katalógu dátových prvok) do sémantiky, čím vznikla Ontológia dátových prvkov, ktorá má URI

http://data.gov.sk/def/ontology/odp

pričom napr. taká fyzická osoba (D.1.1) má URI

http://data.gov.sk/def/ontology/odp/PhysicalPerson

čiže v tripletoch to vyzerá nasledovne (nech odp = http://data.gov.sk/def/ontology/odp, rdf = …):

odp:PhysicalPerson rdf:type owl:Class .
odp:PhysicalPerson rdfs:label "fyzická osoba" .
odp:PhysicalPerson skos:historyNote "D.1.1" .

Podobne je to aj pri vlastnosti, aj tá ma URI, napr. priezvisko je dátovou vlastnosťou fyzickej osoby

odp:familyName rdf:type owl:DataTypeProperty .
odp:familyName rdfs:label "priezvisko"
odp:familyName skos:historyNote "D.1.1.1.6" .
odp:familyName rdfs:domain odp:PhysicalPerson .

PS: dobre sa to číta, že? Čiže napr. môžem povedať že ja sa volám Líška takto (moje URI odvodím napr. od toho ze som clenom PS1):

<http://data.gov.sk/id/person/ps1-member/miroslav-liska> odp:familyName "Liska" .

Tak. Teraz skocme do varianty B, kde maju byt URI v tvare http://data.gov.sk/refid/f589a1e7-a27d-47ad-9f85-d69b86ac949d. Dam ti tu takýto triplet:

refid:f589a1e7-a27d refid:aa89a1e7-47ad "Kovac" .

Ma tusenie o com je tento triplet? Povolanie? Priezvisko? Prezývka?
No nevadí, pridajme ďaľšie cenné znalosti

refid:f589a1e7-a27d refid:aa89a1e7-8888 refid:1189a1e7-5487 .

táto je tiež dobrá

refid:f589a1e7-a27d refid:cchjgjhd-8888 refid:ferfrgge-hfjd .

krása že? Zhrniem:

Varianta B
refid:f589a1e7-a27d refid:aa89a1e7-47ad "Kovac" . refid:f589a1e7-a27d refid:aa89a1e7-8888 refid:1189a1e7-5487 . refid:f589a1e7-a27d refid:cchjgjhd-8888 refid:ferfrgge-hfjd .

Varianta A:
sav-person:dusan-kovac odp:familyName "Kovac" . sav-person:dusan-kovac odp:sex "1" . sav-person:dusan-kovac odp:marrital-status "2" .

Verim ze vies o kom boli posledne tri triplety.

Trosku odbocim, ale prilezitost vysvetlit strojove odvodzovanie treba vyuzit. Vies iste o tom, ze by som dokazal najst vyhladavanim dusana kovaca aj podla textu “osoba”, hoc, napr. tie tri posledne triplety o tom nic nehovoria? Jednoducho kedze domena relacie odp:familyName je odp:PhysicalPerson, stroj odvodi ze

sav-person:dusan-kovac rdf:type odp:PhysicalPerson .

No a to je kluc aby bolo vyhladavanie nad verejnymi datami ako sa na dnesne pomery vyzaduje.

Tak ci onak, co povies na tu citatelnost URI?

Je to dolezite, dokazeme sa bavit o merite veci, chapeme vyznam. To by si vazne chcel aby ludia co budu robit s URIckami (analytici/navrhari/implementatori/testeri) radsej pouzivali zakodovany nic nehovoriaci format? Bolo by to velmi neefektivne, …, a kedze sa tu jedna o verejne data, o obrovske mnozstvo tripletov, bola by to hruza.

Tu by som mohol uz skoncit, ale este trosku predsa len:

Co je ale dolezite, napr. pravidla pre perzistentne URI hovoria, ze ak sa da, mame zachovavat pouzivane IDcka v casti identita URI. A to je splnene, pretoze napr. polozka z ciselnika pohlavie muz ma nasledovne URI: http://data.gov.sk/def/sex/1 , hoc mohlo by to byt aj http://data.gov.sk/def/sex/male, lenze mame velke mnozstvo ciselnikov a to by bolo uz neefektivne zase takto robit URI. Cize je tu vyvazena citatelnost. Nie je uplne maximalna, ale nie je to ani zakodovana hatlmatinka Nastatie, aj v sucasnom zneni vynosu je pravidlo na URI - citatelnost uz zabezpecena.

Čerešnička v tejto téme na záver. Neviem či si niekedy robil so SPARQL, teda jazykom na dopytovanie grafu. Alebo, či si niekedy traverzoval RDF grafom, tj. prieskumne si prechádzal uzol po uzle v grafe.

Tu je napr. RDF graf vizualizujúci 5 tripletov:

A teraz si predstav ze takeho andreja kisku kludne popise 100 tripletov. Pekny graf. S tym sa da robit vela veci, transformovat ho na dopyt (odstranim uzol Kiska, a hlavny uzol prezidenta zmenim na premennu, cim sa pytam: Vrat mi prezidentov ktory sa volali Andrej.)

No a keby mal byt tento graf zakodovany, tak to by bolo dost narocne cokolvek s tym robit … to by si analytikom teda pekne zavaril.

Ked to zhrniem. Ulohou tohto prispevku bolo poukazanie na dolezitost citatelnosti URI. Ak nepridu k tomu ziadne pripomienky, budem sa venovat skvelej problematike

vytvárať ref.id. pre konštrukty pre ktoré dnes neexistuje dátový prvok iba ak je to ozaj nevyhnutné (zakladá to budúce problémy).

Jednotlivych paragrafov popisujucich datove standardy som sa zatial moc nedotykal, i na to pride cas.

liska · March 25, 2016, 10:52am

(presunuté z vlákna Ideálne Slovensko.sk - nech je téma pokope)

Slovensko.sk::EFormuláre

Cca pred polrokom som do NASESu reportoval bug v XML serializácii eFormulára, v časti sémantickej anotácie, že majú dve podstatné chyby, ktoré sa dajú jednoducho opraviť.

Napr. hned prvý formulár 001.Ohlásenie k miestnemu poplatku za komunálne odpady a drobné stavebné odpady

je ich vidieť. Prvá je, že hodnota dc:creator musí byť typu rdf:Resource , tj. je to URI. Čiže hodnota by mohla byť

http://data.gov.sk/id/person/creator/00308307.A0000224.000000026-CivanRichard

Toto je chyba spôsobená nesúladom so samotnou špecifikáciou použitia ontológie DCMI.

Druhá chyba je zase síce najskôr len nesúlad s používaným navrhnutých sémantických štandardov (ktoré su už publikované 2,5 roka), kde tak ako vo všetkých vládnych dátach sveta je URI reprezentované začiatkom http:// (čo samozrejme súvisí s podporou protokolu http na dereferenciáciu URI, čo sa pripravuje), ale toto by tak zhehodnotilo celkový syntaktický systém data.gov.sk-semanticweb. Čiže správna forma je

http://data.gov.sk/id/corporate-body/00308307

Keby ste si niekto stiahli celý LOD Slovakia, tak tam je už veľké množstvo URIčok, ktoré používajú toto posledné data.gov.sk URI.

V tejto súvislosti je vytvorený návrh na PS1(ešte neposlaný), ako majú byť sémanticky anotované rôzne XML /ak sa má vyskytnúť URI v nesémantickom formáte/ (čiže kľudne ak má niekto pripomienky tak ich sem hodte), kde by anotácia vyzerala nejako takto:

<rdf:Description>
<dc:identifier>http://data.gov.sk/doc/eform/00308307.A0000224.000000026.OhlasenieMiestnyPoplatokZaKOaDSO_FO/1.0</dc:identifier>
<dc:publisher>http://data.gov.sk/id/corporate-body/00308307</dc:publisher>
<dct:isVersionOf>http://data.gov.sk/doc/eform/00308307.A0000224.000000026.OhlasenieMiestnyPoplatokZaKOaDSO_FO</dct:isVersionOf>
<dct:valid>2015-10-08</dct:valid>
</rdf:Description>

Čiže jednoduché štandardné DCMI.

No a aby som sa ešte vrátil k samotnému reportovanému bugu. Prišla mi odpoveď že ďakujú za podnet, a odvtedy nič. Pevne verím že by to vedeli opraviť jednoducho (oprava generovania dvoch textov) bez nejakého obrovského čohokoľvek. URI pre samotný elektronický formulár je správne, takže som celkovo optimista.

liska · May 24, 2016, 1:59pm

Prepojené údaje verejnej správy na Slovensku? Zápas pokračuje!

Vo štvrok je zasadnutie PS1 pre dátové štandardy, kde jedným s bodov bude prejednanie Sémantických dátových štandardov pre ISVS.

https://wiki.finance.gov.sk/display/PS1/19.+zasadnutie+PS1

Ucelený materiál Sémantické štandardy ISVS si môžete stiahnuť tu:
http://www.semantickyweb.sk/standards/20160524-data.gov.sk-semanticke-standardy.pdf

Štandardy sú podstatne spresnené - sú zladené s tzv. Referenčnými údajmi. Na základe tejto požiadavky sa napr. ontológia ODP musela rozdrobit na:

http://data.gov.sk/def/ontology/resource/2016-05-11.owl
http://data.gov.sk/def/ontology/physical-person/2016-05-11.owl
http://data.gov.sk/def/ontology/organization/2016-05-11.owl
http://data.gov.sk/def/ontology/identifier/2016-05-11.owl
http://data.gov.sk/def/ontology/egov/2016-01-01.owl

ostatné ontológie tam ešte nie sú, chceme to všetko zladiť až z príslušnými definíciami všetkých referenčných údajov z referenčných registrov ako Register adries a ostatné. Súčasné štandardy pokrývajú Register právnických osôb a Register daňových subjektov.

Tu krátky úryvok so štandardov z časti Referenčné registre a URI.

ČASŤ C.1. URI referenčných údajov

§C.1.1. Referenčné údaje a URI

Popis
V súčasnosti sa uchováva množstvo informácií v rôznych ISVS duplicitne. Napr. obchodný register pre ministerstvo financií obsahuje názov „Ministerstvo Financií SR“, kdežto Register daňových subjektov obsahuje názov „Ministerstvo financií Slovenskej republiky“. Čiže keby sa všetky informácie sústredili do jedinej databázy, nebolo by v podstate jasné, ktoré dáta sú smerodajné. A to je presne úloha referenčných údajov. Identifikovať, že globálne – z rámca nejakej databázy je daná entita referenčná, tj. smerodajná.

Formálne je referenčný údaj tvorený podľa praviel §B.2.3 URI pre triedy a §B.2.4. URI pre vlastnosti, tj. referenčným údajom môže byť trieda, objektová alebo dátová vlastnosť, pričom patrí do tzv. referenčného kontextu v rámci databázy, ktorá keďže obsahuje referenčné údaje, je referenčná databáza. Množina referenčných kontextov potom tvorí celkový graf platných prepojených údajov ISVS.

Príklad
Uvedený problém je ilustrovaný na nasledujúcom obrázku. Po zhraní údajov z RPO a RDS dostaneme duplicitnú vlastnosť názov organizácie, a je teda potrebné rozhodnúť, ktorá je smerodajná (referenčná) a ktorá nie.

Riešenie spočíva v definícii dátového prvku k príslušnému referenčnému registru. Nasledovný prvý triplet definuje, že názov organizácie je referenčným údajom v registry právnických osôb, a na druhej strane, identifikátor IČ-DPH je referenčným údajom v Registry daňových subjektov.

<http://data.gov.sk/def/ontology/organization/name> 
<http://data.gov.sk/def/ontology/resource/referenceRegister>
<http://data.gov.sk/id/egov/isvs/420>  .

<http://data.gov.sk/def/ontology/organization/ic-dph> 
<http://data.gov.sk/def/ontology/resource/referenceRegister>
<http://data.gov.sk/id/egov/isvs/6113>  .

Referenčnú údaje majú svoju definíciu v príslušných ontológiach. Podľa týchto definícií je možné vyhodnotiť, či sú dané dáta o entite publikované správne.

Poznámka
Pojmy „referenčné údaje“ a „referencovateľné údaje“ majú odlišný význam a použitie, a je ich potrebné rozlišovať. Vo všeobecnosti platí, že všetky údaje sú referencovateľné - prostredníctvom URI (Jednotný referencovateľný identitikátor). Avšak, ako už bolo spomenuté, rôzne ISVS uchovávajú množstvo údajov duplicitne (napr. názov firmy je „udržiavaný“ vo viacerých registroch), a teda je nutné definovať, ktoré sú tie správne, tj. smerodajné. A tieto údaje sa nazývajú referenčné.

jsuchal · May 24, 2016, 2:15pm

Co pravnicke osoby co nemaju ICO? Ich identifikator bude vyzerat ako?

Inak ta zelena cast by uz podla vsetkeho dnes mala existovat v projekte IS CSRU - cast, ktora sa zaobera master data managment. Jedine co treba spravit je to preklopit do tripletov.

Lukas_Kisza · May 24, 2016, 7:53pm

Miro, zase raz si ukazal ze si skvely mentor do problematiky semantickeho webu (mne ten clanok pomohol). Skus este odstranit ten hejtersky podton a budto dokonale

Keep going!

liska · May 25, 2016, 7:50am

Lukáško, ale veď ja nechcem hejtovať. Ale polepšiť sa istotne viem, však to sa dá vždy, že?

Čo chcem ale povedať je, že práveže som optimista, pretože momentálne na MIFI (aspoň teda v rámci PS1) je momentálne priaznivá situácia pre problematiku URI, resp. LinkedData & ISVS. To isté platí aj tu v rámci Slovensko.digital, stretol som sa s viacerými, dobre sme sa porozprávali a vysvetlili si veci a myslím že máme úplne spoločné ciele za ktoré sa oplatí kopať spoločne.

Ale samozrejme, potrebujem sa od tejto témy trochu odosobniť, pretože to príliš prežívam. Veď to poznáš. Príde za Tebou syn, či sa sním nejdeš hrať, ty ho odmietneš s tým, že máš veľa roboty (data.gov.sk-semanticweb), nech príde za chvíľu. A potom keď sa vráti, tak zistiš že opäť nemáš čas a zatiaľ ubehli 2 roky.

liska · May 25, 2016, 8:03am

Díkes za otázku. Pre istotu sa kuknem do špecifikácie, aké to má presné znenie:

§B.3.3. URI pre organizáciu

URI vzor
http://data.gov.sk/id/[organization-classification]+/[org-id]

Dovolená Syntax
[org-id] = jedinečný kód organizácie, najčastejšie IČO. V inom prípade nesmie byť org-id duplikátne k IČO.

Príklad
Nasledovné triplety definujú: Štatistický úrad, Ministerstvo Financií a Slovensko Digital.
http://data.gov.sk/def/ontology/organization/CorporateBody
owl:oneOf
http://data.gov.sk/id/corporate-body/00166197 ;
http://data.gov.sk/id/corporate-body/00151742 ;
http://data.gov.sk/id/corporate-body/05621456 .

Čiže toto je podľa OK (ale mal som tam chybičiek, musím opraviť textáciu, díkes), čiže toto je podľa mňa dosť široké. Pre spresnenie je v MetaIS navrhnutý identifikátor pre organizáciu ako

http://data.gov.sk/id/corporate-body/[ORG-ID]

(linku pošlem až keď opravia chalani bug. v mete), čiže ak sa jedná o organizáciu čo nemá ičo, môže sa použiť akékoľvek ORG-ID ale tak, aby sa to nebilo s IČOm (pričom sa spresní aj vzťah medzi identifikátorom a typom identifikátora). Ak by dokonca to ORG-ID sa bilo s IČOm, a nebolo by to IČO, tak sa dá viac upresniť URI organizácie hlbšou hierarchiou konceptu, napr.

http://data.gov.sk/id/corporate-body/special-org/[ORG-ID].

Za túto referenciu díkes, určite si to pozriem.

robert.kuchar · May 26, 2016, 4:57pm

Ma predsa existovať register pravnickych osob … tak by som nedaval AKEKOLVEK, ale ID z RPO.

jsuchal · May 27, 2016, 5:14pm

Toto neznie na prvý pohľad zle ale trochu do rpo vidím a to ID vôbec nevyzerá na unikátne tiež a navyše nemá ani žiadnu oporu v zákonoch. Takže zase nič. Ico sa zase sem tam zmení pri pár firmách.

liska · June 6, 2016, 9:47am

Milí priatelia,

dovoľte mi pár infošiek. Stretnutie PS1 k sémantickým dátovým štandardom (28.5.) podľa mňa dopadlo vynikajúco K predloženým materiálov som dostal pomerne dosť pripomienok. Prevážili tie k celkovej forme a i globálnemu obsahu, pretože raz tam bol všeobecný paragraf pre tvorbu URI pre indivíduá (osoby, organizácie …) a niekedy tam bol paragraf konkrétny k organizáciam, ktoré sme tam dali hlavne kvoli príkladom.

Čiže toto sme opravili, jednak sme samotné štandardy zmenšili, spresnili a i oddelili samotné pravidlá od príkladov. Konkrétne URI budú nahodené v MetaIS, čo musím ešte dorobiť, pošlem tam linku a PODSTATNE sa zastanem MetaIS2.0, teda jeho subsystému URI Registrácia.

Samotné štandardy môžete nájsť už na tejto linke:
https://wiki.finance.gov.sk/pages/viewpage.action?pageId=16416782

kde to vyzerá nejako takto:

pričom takto sú popísané pravidlá napr. pre tvorbu URI vlastností

a tu sú samotné príklady:

PS: Priamo môžu materiál pripomienkovať asi len členovia PS1, k čomu môžem dodať len to, že všetkými 10timi podporím, aby malo slovensko.digital tam priame zastúpenie.

liska · June 6, 2016, 10:17am

Toto je vynikajúca pripomienka, a vôbec, vo všeobecnosti je to správna trefa na diskusiu/štandardizáciu. Aké ID sa má vlastne používať? Napr. na poslednom stretnutí PS1 bola k tomuto diskusia síce veľmi krátko, ale názory sa rôznia.
Majú sa použiť už len nové, IDčka z referenčných registrov, alebo sa môžu použiť aj iné platné IDčka (identifikátory) na tú istú vec, ak sú dokonca aj platné podľa zákona?

Ja osobe zatiaľ zastávam názor, že sa majú dať použiť všetky platné IDčka, aj povôdné IDčka, veď sémantika je o tom, že poskytuje na to prostriedky ako to dosiahnuť a okrem všetkých fantastických vecí ktoré prinášajú, podľa mňa majú aj pomôcť pri integrácii.

Preto som to jednak vyňal ako samostatný bod do metodiky, kde som to formuloval zatiaľ takto
§C.1.1. Tvorba URI z rôznych platných identifikátorov na rovnakú entitu s príkladom, čo je vlastne prerozprávaný tento nedávny príspevok tu na slovensko.digital.

V postate na stretnutí zaznela myšlienka, teraz máme šancu to urobiť dobre, začíname s tým, čiže mal by byť v tom poriadok. Ja to vidím tak, že poriadok stále ostáva, sémantika nie je o niečom úplne novom, je to skôr lepší kalkulus, resp. celá významová sieť nad všetkým existujúcimi dátami, kdekoľvek už sú.

Čiže, podobne ako v prípade Registra adries (kde sa musíme vysporiadať s 3 IDčkami pre nejakú entitu), aj v prípade organizácií sa budeme musieť vysporiadať s viacerými IDčkami. Keď sa mapovanie vypublikuje ako samostatný dataset, tak sa hneď po naloadovaní do triplestoru dajú použiť IDčka práve tie, ktoré potrebujem.