Na obstaravania.verejne.digital sme spustili projek kde využívamé umelú inteligenciu na nájdenie dobrých kandidátov do verejných obstarávaní (podľa toho aké podobné obstarávania vyhrali v minulosti). Využívame dáta a API z ekosystem.slovensko.digital. Máme k nim pár otázok:
Ako často/kedy ich updatujete? Z našej skúsenosti to bývalo denne, ale teraz je posledný update z pondelka rána (2016-10-24T05:00:21.842971Z)
Obsahuje dataset všetky obstarávania na Slovensku, či len tie najväčšie? Pre nás by boli najzaujímavejšie menšie obstarávania pre obce a štátne organizácie, ktoré často súťažia veľmi podobné veci a my vieme identifikovať ktoré firmy by sa mali prihlásiť.
Vdaka! EKS vyzera zaujimavo. Na pripomienky je najlepsia sprava cez facebook nasej stranky.
Prva verzia je relativne jednoducha, robime viac menej toto. Casom by sme ju chceli dat na github. Ako vstup berieme nazov a popis asi 70tisic byvalych obstaravani z datanestu a ekosystem.slovensko.digital. Mame zakladny lemmatizer ktory znormalizuje slova na zakladny tvar. Povyhadzujeme prilis caste a velmi zriedkave normalny tvary. Plus mame manualne vytvoreny blacklist ~100 normalnych tvarov. Potom skonvertujeme pomocou tf-idf na bag of words. Podobnost medzi bag of words je klasicka cosine similarity. Skusali sme sa hrat s LSI/LDA, ale obycajne tf-idf ma o dost vacsi recall na tomto sete s porovnatelnym precision. Chceli by sme skusit / natrenovat slovensky word2vec, ale nemali sme na to cas. Ak vies o sikovnom studentovi, co hlada napad na bakalarsku/magistersku pracu, posli ho nasim smerom.