Chcem ta opatovne ubezpecit, ze toto ziadny problem pre nijaky nas ekosystem ani biznis model nie je. Konspiracia pekna, ale ked uvidis nase prijmy z ekosystemu pochopis. A vlastne cele naopak, budem velmi rad, ked nebudem musiet cistit statne data, ale robit nad nimi len tie aplikacie s pridanou hodnotou.
Bavime sa vyhradne o open datach, ze? Ake integracne projekty tu spominas? Projekty ktore budu vyuzivat otvorene data budu najskor hradene zo sukromnych penazi, cize nerozumiem o com je rec. Plus teda ja mam za sebou nejake integracie pomerne velkych datasetov a skus uhadnut kde je zakopany pes:
- data su nedostupne a treba ich zpristupnit (hocijako) - pridana hodnota nekonecno lebo z nuly mam nieco
- data su dostupne ale je v nich bordel (duplicitne identifikatory smerom von na referecne data) - pridana hodnota velka aj ked si to vycistit musis sam. (toto je aktualny stav)
- data su dostupne a su v nich nejake unikatne identifikatory na referencne data - pridana hodnota obrovska - viem prepojit dva datasety bez toho, aby som to rucne cistil (spoiler alert - toto niekto musi aspon trosku spravit aj tak, cize najskor gestor dat predtym ako to vyhlasia za ref. udaje)
- data z roznych datasetov nie su jednotnom formate. - meh.
Prepac, ale cela tato saskaren ci to bude RDF, OWL, N3, Turtle alebo ine furtle riesi problem v praxi limitne sa bliziaci nula cela nic. A to ti hovorim ako clovek co sa semantickemu webu venoval na vyske, ked tam tvoj kolega - este o semantickom webe ani nesnival. A taktiez ako clovek co na open datach zacal svoju karieru aktivistu a mam za sebou zopar myslim celkom uspesnych open data projektov. To co tu prezentujete ako problem datovej integracie, tak na to som v zivote nenarazil a nikdy mi to nechybalo. Preto moja poznamka o slonovinovej vezi. Rad si vypocujem ake projekty napriklad v Datalane, za tie roky co sa tomu venujete ste s tymto urobili a kolko prinosov vam toto prinieslo. Lebo toto sa pytam snad uz milionty krat a nic. Problem neni medzi krokmi 3. a 4., to je implementacny detail. Kamen urazu je medzi 2. a 3. a to nijake rdf, owl, linked data nijakym sposobom neriesi. To dokonca neni ani ITckarsky problem.
K 4. vstupny/vystupny format a jeho konverzia/filtracia do niecoho co potrebujem je jednorazova vec, preto je dost nepodstatne co to je, hlavne nech to nerobi viac problemov ako uzitku. A to je presne ten moment kde zacinam mat pochybnosti.
Takze takto, na vstupe bude RDF, na vystupe RDF, odhlasovala sa povinnost robit pre nejake projekty 100% v 5* a tak sa teda opravnene pytam, ze co myslime pod tym RDF. Lebo zatial tu nepadlo ani slovo o tom, ze to moze byt aj to JSON-LD (teraz uz odrazu je to ok) a som zvedavy co povies na to, keby to ostali byt tie CSV a k tomu by sa len prilepila transformacia na RDF (mimochodom w3c odporucanie Generating RDF from Tabular Data on the Web) a kto chce nech si ju pouzije. Bude to 4* alebo 5* ? Ak ano tak s tym nemam ziadny problem. Ak nie, tak by som laskovo rad vedel aku pridanu hodnotu mi prinesie, ze to bude nejaky iny standardizovany format (prosim kreslenie grafov ktore si viem rozklikvat za pridanu hodnotu naozaj nepovazujem, bavme sa o realnych usecasoch z praxe). Ja pri takomto niecom paradoxne vidim vyhodu, az keby bol pod tym full SPARQL endpoint a mozem si odpalovat queries ake chcem, lenze toto predsa nechceme, ci?
Lebo mne z tohto celeho vychadza len to, ze vyhodu z toho maju len ti, co potrebuju velke mnozstva datasetov spracovavat = standard a z toho ti okamzite vylezie aj triplestore. A to sme predsa tiez nechceli, ci? Uz rozumies mojmu zdeseniu? Ked to kvaka ako triplestore, vyzera to ako triplestore, tak to najskor bude triplestore.
Toto je chvalihodna aktivita, ale rozmyslam co zlyhalo ked sme vlastne uz raz tento projekt nakupili za statne peniaze eDemokracia a dokonca - open data node - https://opendatanode.org/page/unifiedviews a nejako sa to neujalo.
Toto som nikde nerozporoval, takze s tym problem nemam. Skor by ma vsak zaujimalo ako riesite ten velmi prakticky problem s ktorym sa ja uplne bezne stretavam a nejako si sa v tvojej odpovedi mu vyhol - pripomeniem - streamovaci import ktori mi zaruci konzistenciu bez toho, aby som musel robit medziulozisko v pamati alebo disku.