Ak na to spravne pozeram, tak toto len hovori o tom, ze v RPO je kopec zaznamov co maju rovnake ICO. (Lebo sa to tam zlieva z roznych registrov). Ale v RPO su vlastne vypisy, nie firmy.
Ale toto vyhodnotenie sa deje v SD nie? Akoze to nie je oficialna statistika ale to je nieco co SD spravilo z dat ktore ma z RPO, tak? A co znamena to ze su to vypisy a nie firmy? Akoze existuje firma A, ta si zmeni nazov na B a tym padom ma historicky vypis aj vypis novy? Mozno su to hlupe otazky ale chcem pochopit na ake cisla sa pozeram.
Deje sa to v SD, ale tie data su priamo z RPO.
Vypis: Ak pozries, tak vidis ze su tam rozne registre. Ak das vyhladat jedno ico, tak najdes viac zaznamov (napriklad v ZRSR a ORSR s rovnakym ICO - to je este ako tak ok).
@balgava mozno by bolo zaujimavejsie spravit hladanie rovnakych ICO len v jednom registri, nie napriec registrami.
To iste som pisala na githube: Kvalita RPO · Issue #21 · slovensko-digital/ekosystem · GitHub
Vstupne data aj so selectom vidno tu (select vidis ked mas pristup - na public linkoch su uz len resulty) Metabase
no dobre, takze tym ze tam nemam pristup a neviem ako je spravene tak som sa moc dalej nepohol… jedine ze to viete zdielat
pridam jeden zdroj problemov, v OR su stale vedene rozne neaktivne spolocnosti, ktore dostavali ICO este v 80 rokoch, a tam napriklad rovnake ICO mali aj prevadzky. Prakticky to prinasa problem len informatikom, kedze ide o mrtve spolocnosti.
Presne preto by trebalo podrobnejsie vediet o tom probleme, lebo je mozne ze tie duplikaty su neaktivne a zabudnute duse, ktore treba archivovat a odstranit z exportov no zaroven ich mat kvoli historii zverejnene. Lebo aby sa kvoli tomuto nerobili projekty za 30 milionov ked su to uplne nepodstatne zaznamy. Osobne ani nechapem ako to riesia na slovensko.sk ak su duplicity pri ICO a uz zacina byt takmer pausalna povinnost komunikovat cez UPVS minimalne pre najvacsie registre ktore robia s ICO.
to su tie detaily v ktorych je skovany diabol. Povodne trivialny problem jednej tabulky s cca 80 tis zaznami kde je unikatne ICO sa zmeni na skutocny svet.
Ale tento problem sa neda riesit projektom, toto sa vola cistenie registrov a tam je tych detailov este podstatne viac.
URI podľa mňa nemôžu za to, že existujú duplicitné IČO identifikátory. Ja to beriem ako chybu, a riešenie cez URI vidím ako jednoduché. Ak napr. ičo 98151866 má viac subjektov, tak neostáva nič iné len pridať nejaký unikatný prídavný reťazec, tj.
…
pričom samozrejme toto by bol len hotfix, a treba študovať a riešiť systémo typ chyby duplicity:
Napr. - duplicitné platné IČO pre viac právnych subjektov, alebo tie iné firmy sú v nejakom historickom vzťahu, či sú vôbec aktívne, alebo iné špeciálne prípady dôvodu duplicity. Otázka je tiež, ako to rieši obchodný register (či sa vráti viac subjektov) či iné registre. Čiže tento problém podľa mňa sa aj tak má riešiť tam kde vznikol, a URI (resp. RDF) s tým problém nemá (naopak owl:sameAs stotožňovanie, resp. owl:differentFrom oddelenie dokáže tento problém len podporiť).
idem si to pozrieť
No unikatny identifikator uz existuje. je to id z RPO. lenze to ma to oporu v zakone? Je to toto?
Ten konkrétny vyhlásený dátový prvok
lsub:legalID je relácia medzi právnym subjektom a identifikátorom právneho subjektu (pričom on je zadefinovaný ako identifikačné číslo organizácie, a myslelo sa tým IČO - viď prvý príspevok v tomto vlákne). Súčasne s týmto je na metais vypublikovaný aj príklad (toto je výňatok)
https://metais.finance.gov.sk/publicspace?pageId=24946454
<lsub:LegalSubject rdf:about="https://data.gov.sk/id/legal-subject/77777771">
<lsub:name xml:lang="sk">Zasnežovacia technika, a.s.</lsub:name>
<schema:startDate rdf:datatype="&xsd;dateTime">2018-02-16T00:00:00Z</schema:startDate>
<lsub:legalID>
<lsub:LegalID>
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/7"/>
<skos:notation rdf:datatype="&xsd;string">77777771</skos:notation>
<schema:startDate rdf:datatype="&xsd;dateTime">2018-02-16T00:00:00Z</schema:startDate>
</lsub:LegalID>
</lsub:legalID>
</lsub:LegalSubject>
čiže stále je to IČO. Myslím že tým dôvodoom bolo aj, že
- tento problém treba tak či onak vyriešiť
- IČO sa používa úplne všade (či už v ISVS, zákonoch, dokumentoch, zmluvách, open data), práveže prejsť na nový identifikátor by mohlo už dosť komplikovanú SK situáciu ešte viac zkomplikovať.
Na záver ešte dodám, že v rámci schválených URI je aj táto šablóna (z 2017-05-30)
práve na identifikátor právneho subjektu.
https://metais.finance.gov.sk/standardization/votedetail/3
Tieto linky neukladám preto že: toto je schválené, tak sa to musí dodržovať!
Naopak, skôr sa mi vidí: to je síce schválené, ale je to blbosť tak to ignorujem
Posielam to len preto, aby som odpovedal na otázku, čo sa tým myslelo. Ak to má byť inak, som za diskusiu aby to bolo lepšie, opäť ale, URI to neublíži.
Ja nijako uzitocnost/neuzitocnost URI teraz neriesim. Len som chcel opat upozornit na realitu.
ale veď OK, to mi napísali ruky keď som sa pozeral na telku
K tomu datasetu: Keď sa naň pozerám, on znamená toto?
To prvé číslo IČO(IPO), používajú 2 (alebo N) subjekty, pričom sú tam uvedené aj nejaké idčka (org_ids), ktoré nie sú ičom (sú nejaké krátke), pričom v poslednom stĺpci sú názvy týchto právnych subjektov?
Predpokladám že áno, a predpokladám že aj viete, že vo väčšine prípadov jasne vidieť že sa jedná o ten istý subjekt. Ale samozrejme, mal by to niekto všetko skontrolovať, vyriešiť a potvrdiť (asi na stráne štátu). Nerozumiem trochu tomu stĺpcu org_ids, čo je toto za identifikátor (alebo je to ičo bez 0?).
Je to identifikator interny z RPO.
Mno, je to pekne zaujímavé. Takto by som to nejako zapísal.
Prípad1 - rozdielne:
<lsub:LegalSubject rdf:about="https://data.gov.sk/id/legal-subject/00000001-A">
<lsub:name xml:lang="sk">František Habiňák - Fitys</lsub:name>
<adms:identifier>
<adms:Identifier >
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/7"/>
<skos:notation rdf:datatype="&xsd;string">00000001</skos:notation>
</adms:Identifier>
</adms:identifier>
<adms:identifier>
<adms:Identifier>
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/rpo-id"/>
<skos:notation rdf:datatype="&xsd;string">448270</skos:notation>
</adms:Identifier>
</adms:identifier>
</lsub:LegalSubject>
<lsub:LegalSubject rdf:about="https://data.gov.sk/id/legal-subject/00000001-B">
<lsub:name xml:lang="sk">Závody ťažkého strojárstva, kombinát, výskumno-vývojový ústav Komárno</lsub:name>
<adms:identifier>
<adms:Identifier >
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/7"/>
<skos:notation rdf:datatype="&xsd;string">00000001</skos:notation>
</adms:Identifier>
</adms:identifier>
<adms:identifier>
<adms:Identifier>
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/rpo-id"/>
<skos:notation rdf:datatype="&xsd;string">695713</skos:notation>
</adms:Identifier>
</adms:identifier>
</lsub:LegalSubject>
pričom platí
<https://data.gov.sk/id/legal-subject/00000001-A> owl:differentTo <https://data.gov.sk/id/legal-subject/00000001-B>
Prípad2 - rozdielne subjekty s nejakým vzťahom. Jedna je obec, a druhá je “zahraničná osoba”, ktorý poskytuje televízne vysielanie v káblovom rozvode. :
<lsub:LegalSubject rdf:about="https://data.gov.sk/id/legal-subject/00306606-A">
<lsub:name xml:lang="sk">Obec Nesvady</lsub:name>
<adms:identifier>
<adms:Identifier >
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/7"/>
<skos:notation rdf:datatype="&xsd;string">00306606</skos:notation>
</adms:Identifier>
</adms:identifier>
<adms:identifier>
<adms:Identifier>
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/rpo-id"/>
<skos:notation rdf:datatype="&xsd;string">464686</skos:notation>
</adms:Identifier>
</adms:identifier>
</lsub:LegalSubject>
<lsub:LegalSubject rdf:about="https://data.gov.sk/id/legal-subject/00306606-B">
<lsub:name xml:lang="sk">Obec Nesvady</lsub:name>
<adms:identifier>
<adms:Identifier >
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/7"/>
<skos:notation rdf:datatype="&xsd;string">00306606</skos:notation>
</adms:Identifier>
</adms:identifier>
<adms:identifier>
<adms:Identifier>
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/rpo-id"/>
<skos:notation rdf:datatype="&xsd;string">9372810</skos:notation>
</adms:Identifier>
</adms:identifier>
</lsub:LegalSubject>
pričom platí
<https://data.gov.sk/id/legal-subject/00306606-A> owl:differentTo <https://data.gov.sk/id/legal-subject/00306606-B>
Prípad3 - rovnaké subjekty. viac IPO) :
<lsub:LegalSubject rdf:about="https://data.gov.sk/id/legal-subject/00306495">
<lsub:name xml:lang="sk">Obec Nesvady</lsub:name>
<adms:identifier>
<adms:Identifier >
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/7"/>
<skos:notation rdf:datatype="&xsd;string">00306495</skos:notation>
</adms:Identifier>
</adms:identifier>
<adms:identifier>
<adms:Identifier>
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/rpo-id"/>
<skos:notation rdf:datatype="&xsd;string">463628</skos:notation>
</adms:Identifier>
</adms:identifier>
<adms:identifier>
<adms:Identifier>
<dct:type rdf:resource="https://data.gov.sk/def/identifier-type/rpo-id"/>
<skos:notation rdf:datatype="&xsd;string">9371018</skos:notation>
</adms:Identifier>
</adms:identifier>
</lsub:LegalSubject>
Len by som pridal poznámku, že “jednotný referencovateľný identifikátor” (t.j. URI tvorené podľa schválenej schémy) sa môže používať iba pre údaje stotožnené s referenčnými údajmi - viď. §46 písm.g) výnosu o štd. (pozor, nájsť aktuálne znenie výnosu je ťažšie ako sa zdá).
Čiže nie je možné bezhlavo prilepiť URI ku každému subjektu len preto že viem jeho IČO. Týmto by sa mal aj riešiť problém s duplicitnými IČO. Prvým krokom samozrejme musí byť, že URI pre jednotlivé subjekty priradí referenčný register, čo sa dosiaľ nestalo, a správca RPO o tom zrejme ani nechyruje.
Kazdopadne je to celkom ulet. Ked si clovek pozriet tie data co vyexportoval @jsuchal tak tam je pre drvivu vacsinu mozne spravit uplne banalne stotoznenie lebo uz podla nazvu su to tie iste entity. To ked si najdu brigadnika tak to musi mat povedzme za mesiac zvladnute. Teda aspon tych 95% veci co sa daju jednoducho stotoznit.
Neviem ci ste to uz rozluskli, ale oficialne stanovisko RPO (neviem to nicim podlozit) je take, ze unikatnost je dana zdrojovym registrom a identifikatorom (ICO). Az duplicity na urovni jedneho zdrojoveho registra su skutocne duplicity.
cize uradnik/obcan sa ma rozhodnut, ktory zaznam je spravny a ten vyberie alebo vyberie lubovolny, nakolko vsetky su spravne?