Otázky k verejným obstarávaniam

Dano · October 26, 2016, 9:16am

Na obstaravania.verejne.digital sme spustili projek kde využívamé umelú inteligenciu na nájdenie dobrých kandidátov do verejných obstarávaní (podľa toho aké podobné obstarávania vyhrali v minulosti). Využívame dáta a API z ekosystem.slovensko.digital. Máme k nim pár otázok:

Ako často/kedy ich updatujete? Z našej skúsenosti to bývalo denne, ale teraz je posledný update z pondelka rána (2016-10-24T05:00:21.842971Z)
Obsahuje dataset všetky obstarávania na Slovensku, či len tie najväčšie? Pre nás by boli najzaujímavejšie menšie obstarávania pre obce a štátne organizácie, ktoré často súťažia veľmi podobné veci a my vieme identifikovať ktoré firmy by sa mali prihlásiť.

jsuchal · October 26, 2016, 9:23am

Ahoj,

tahame to z https://data.gov.sk/dataset/vestnik-verejneho-obstaravania-201610 cize to sedi. Neviem cosa udialo. Inak chystame taku “status-page” kde budes vidiet ako casto sa to taha a ake su cerstve data. Zavisi to od zdroja ku zdroju.

Mali by tam byt vsetky obstarka co su vo vestniku. Male podlimitne zakazky (do 20k tam nebudu). Chystame data z EKS. Vid Data EKS · Issue #9 · slovensko-digital/ekosystem · GitHub tam by toho mohlo byt zaujimavejsieho viac.

jsuchal · October 26, 2016, 9:29am

@Dano vedel by si povedat nieco o tom ako to funguje vo vnutri? Ako to modelujete, etc etc.

Inak sekate dobre tie apky ako Baťa cvičky. Kde môžeme posielať pripomienky?

Dano · October 26, 2016, 8:20pm

Vdaka! EKS vyzera zaujimavo. Na pripomienky je najlepsia sprava cez facebook nasej stranky.

Prva verzia je relativne jednoducha, robime viac menej toto. Casom by sme ju chceli dat na github. Ako vstup berieme nazov a popis asi 70tisic byvalych obstaravani z datanestu a ekosystem.slovensko.digital. Mame zakladny lemmatizer ktory znormalizuje slova na zakladny tvar. Povyhadzujeme prilis caste a velmi zriedkave normalny tvary. Plus mame manualne vytvoreny blacklist ~100 normalnych tvarov. Potom skonvertujeme pomocou tf-idf na bag of words. Podobnost medzi bag of words je klasicka cosine similarity. Skusali sme sa hrat s LSI/LDA, ale obycajne tf-idf ma o dost vacsi recall na tomto sete s porovnatelnym precision. Chceli by sme skusit / natrenovat slovensky word2vec, ale nemali sme na to cas. Ak vies o sikovnom studentovi, co hlada napad na bakalarsku/magistersku pracu, posli ho nasim smerom.