Domaća suradnja

SenseHive: Dinamički modeli za postepenu izgradnju leksičko-semantičkih resursa potpomognuti radom mnoštva

Voditelj: doc. dr. sc. Jan Šnajder (FER UNIZG)

O projektu

Trajanje projekta: 01/10/2015 − 30/09/2018

Financiranje: HRZZ (107.000 €)

Nositelj projekta: Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Fakulteta računarstva i elektrotehnike Sveučilišta u Zagrebu

Sažetak: Leksičko-semantički resursi igraju bitnu ulogu u obradi prirodnoga jezika i srodnih primjena poput pretraživanja informacija. Nažalost, njihova je izgradnja izuzetno skupa te je rijetko vođena praktičnim potrebama, što kod jezika sa slabije razvijenim resursima predstavlja naročit problem. Moguće rješenje jest izgradnja leksičko-semantičkih resursa potpomognuta radom mnoštva (engl. crowdsourcing). Premda se rad mnoštva pokazao izvedivim i znatno povoljnijim pristupom, još uvijek ne postoji cjelovita metodologija koja bi omogućila postepenu izgradnju vrlo velikih leksičko-semantičkih resursa. Cilj ovoga projekta jest upotpuniti ovu prazninu i istražiti računalne modele i metode za postepenu i učinkovitu izgradnju leksičko-semantičkih resursa potpomognutu radom mnoštva. Istraživanje će objediniti modele za dinamičan rad mnoštva, modele semantike temeljene na korpusu (distribucijske modele i tematske modele) te aktivno strojno učenje, te polučiti cjelovit i jezično neovisan radni okvir, tzv. SenseHive. SenseHive objedinjuje prilagodiv prikaz značenja i leksičko-semantičkih veza riječi temeljen na grafovima (SenseGraph) i postupke za njegovu postepenu izgradnju. Značenja riječi dinamički se razdjeljuju i stapaju na temelju analize ljudskih ocjena dobivenih nad podatcima ekstrahiranima iz korpusa. U prvoj fazi projekta izgradit ćemo prototip i upotrijebiti ga za ciljane eksperimente na podatcima na hrvatskom, slovenskom i engleskom jeziku s ciljem odgovaranja na relevantna istraživačka pitanja. Kao dokaz koncepta, u drugoj ćemo fazi primijeniti SenseHive za izgradnju leksičko-semantičkog resursa za hrvatski jezik umjerene veličine, proširivanjem i obogaćivanjem postojećih leksičko-semantičkih resursa. Predloženo će istraživanje unaprijediti stanje znanosti u području računalne semantike i poluatomatske izgradnje jezičnih resursa te rezultirati konkretnim leksičko-semantičkim resursom za hrvatski jezik od velike praktične vrijednosti.

Suradnici na projektu

Pravopis

pravopis.hr

Gramatika

gramatika.hr

Savjetnik

jezicni-savjetnik.hr

Bolje.hr

bolje.hr

Hrvatski u školi

hrvatski.hr

Riznica

riznica.ihjj.hr

Nazivlje

nazivlje.hr

Matura

matura.ihjj.hr

Frazemi

frazemi.ihjj.hr

Valencije

valencije.ihjj.hr

Kolokacije

ihjj.hr/kolokacije/

Metafore

ihjj.hr/metafore/