Register adries

liska · March 17, 2016, 9:23am

Úprimne verím, že riešenie tohto problému treba preniesť do sémantiky, a tá bohužiaľ u nás nemá na ružiach ustlané . Pre snáď lepšie priblíženie, nech sa páči, tu je riešenie: - Linkovanie data.gov.sk datasetov s Registrom adries - . Riešenie je zadarmo (samozrejme treba ešte dorobiť XSLT transformátory na 8 datasetov z data.gov.sk (čo musí dať študent za víkend, publikovať API…). Výsledok je, že máme prepojené sémantické dáta (5★) a to je nutný predpoklad na reálne posunutie sa v informatizacii. Áno, aj procesy treba samozrejme zefektívniť (chaos v informatizácii je toho dôkazom), ale rovnako treba posunúť aj dáta, pretože inak premrháme úsilie na neefektívnu správu neefektívnych dát, čo nás jedného dňa môže odstaviť.

No. Register adries je krásny príklad toho, kedy už treba prejsť na linked data. (Možno že požiadavky na dátové prepojenia len v 3★ mali byť hooodne menej náročné ). Keby sme už ten problém riešili v sémantike, tj. linked data, nepotrebovali by sme zaviesť ďalšie IDčko aby sme zintegrovali iné dve. Stačilo by povedať že zdroje (jednotne referencovateľné) sú owl:sameAs. Sám triplestorový engin by mergoval identity a voči dotazom by sa to chovalo ako jedna entita (A taká profi tripletová DB (2CPU) stojí 3000E).

Nevadí ale. Tým, že je pridaný nový register adries a ten má svoje nové kódovanie, tak je pridaná nová entita i v sémantike. Tá sa samozrejme opäť prepája vzťahom owl:sameAs na existujúce, čiže v konečnom dôsledku aj nová entita predstavuje už existujúcu. A namiesto dvoch entít (referencovateľných zdrojov), máme ešte tretí, čo nie je treba. No, a v tom je tá zbytočnosť, že v sémantike to netreba riešiť týmto spôsobom (tj. na integráciu dvoch zdrojov pridajme tretí).

Ja ceny neriešim, snažím sa skôr hovoriť o úsilí. Ak sa bude stále sémantika odsúvať a odsúvať (pričom vo vyspelých egovernmentoch je to už základom), tak nám zbytočné úsilie na rozvoj a udržiavanie dát môže hodne prekrížiť plány.