Je v záujme štátu, aby svoje dáta zverejňoval v čo najlepšie strojovo spracovateľnej podobe, a najmä jednotnej schéme, aby bolo možné jednotlivé datasety medzi sebou automatizovane prepájať. Centrálnym miestom zverejňovania týchto dát je portál data.gov.sk. Súčasne existuje aj jednotná schéma dát (Centrálny model údajov verejnej správy), ktorá popisuje sémantickými vzťahmi prepojenia. Problémom však zostáva, ako jednotlivé datasety do jednotnej podoby dostať. V súčasnosti existujú v rôznych formátoch, ale najmä s neznámou obsahovou štruktúrou (sémantikou), ktorá znemožňuje ich priamočiare prepájanie napr. atribút “firma” sa v inom datasete môže volať “spoločnosť”. Prípadne obsah tohoto atribútu je pre rôzne datasety inak vyjadrený, atď. Tieto problémy prispievajú k tomu, že obrovská časť peňazí a času je opakovane investovaná do dátovej integrácie. Správcovia týchto datasetov (spravidla úradníci) nemajú technické kapacity, aby súlad ich datasetu so centrálnou schémou zabezpečili, čím sú ich výstupné dáta ťažko prepoužiteľné iným subjektom štátnej správy, ale aj komerčným sektorom.
Preto v tomto projekte rozvinieme funkcionalitu už existujúceho nástroja, ktorého cieľom je umožniť čo najmenej bolestivú transformáciu datasetov v “neznámom tvare” na datasety zodpovedajúce požadovanej schéme. Snažiť sa budeme o čo najviac automatickú transformáciu s minimálnou potrebou ľudského zásahu. Na riešenie nejasných situácií však bude treba povolať aj používateľa, napríklad na to, aby určil, či atribút vstupného datasetu, napr. “meno” je v skutočnosti menom osoby alebo firmy resp. budeme ho potrebovať aj na to, aby potvrdil aj mapovania zistené automaticky. Všetky tieto akcie ale musia zohľadňovať koncového používateľa - bežného človeka bez technického pozadia.