Odobren bilateralni projekt „Označivanje semantičkih uloga u slovenskom i hrvatskom
Voditelji projekta
Simon Krek (Slovenija)
Kristina Štrkalj Despot (Hrvatska)
Suradnici
HRVATSKA
- Nikola Ljubešić
- Jan Šnajder
- Željko Agić
- Ivan Pandžić
SLOVENIJA
- Tomaž Erjavec
- Kaja Dobrovoljc
- Darja Fišer
- Polona Gantar
Glavni cilj
Prema iscrpnoj jezičnoporedbenoj studiji u okviru META-NET White Paper Series, i hrvatski i slovenski jezik jezičnotehnološki su slabije razvijeni jezici kojima manjka naprednih jezičnih resursa i alata za obradu prirodnoga jezika. Označivanje semantičkih uloga sljedeći je korak jezikoslovne analize koji se može uspješno nadograditi na ostvarene slojeve jezikoslovnoga označivanja u postojećim hrvatskim i slovenskim korpusima za učenje. Za bliske jezike koji dijele mnoge jezične značajke, poželjno je primjenjivati slična jezikoslovna načela i sustave označivanja u jednakim zadaćama obrade prirodnoga jezika. Stoga je cilj projekta izgraditi sustav oznaka semantičkih uloga koje će biti sukladne postojećim sintaktičkoovisnosnim oznakama korištenima u korpusima koji su se rabili za algoritme strojnoga učenja za oba jezika. To će rezultirati uzorcima slovenskoga i hrvatskoga korpusa za učenje koji će biti označeni kompatibilnim oznakama u obama jezicima. Takvi će korpusi poslužiti kao osnova za prve eksperimente automatskoga označivanja semantičkih uloga s pomoću metoda nadziranoga strojnoga učenja.
Temeljne zadaće
U okviru projekta predviđaju se tri temeljne zadaće:
- oblikovanje zajedničkoga hrvatsko-slovenskoga skupa semantičkih oznaka temeljenoga na postojećim sustavima koji se rabe u drugim jezicima
- sastavljanje uputa za označivanje i označivanje korpusnoga uzorka
- izvođenje prvih eksperimenata automatskoga označivanja s pomoću algoritama strojnoga učenja
Rezultati:
U okviru projekta izradit će se ovi dokumenti, skupovi podataka i alati:
- zajedničke upute za označivanje semantičkih uloga u slovenskom i hrvatskom jeziku
- alati za označivanje semantičkih uloga za označivače na objema stranama
- uzorak korpusa za učenje koji je ručno označen kompatibilnim oznakama semantičkih uloga za hrvatski i,slovenski jezik
- eksperimentalni alati za strojno učenje za automatsko označivanje semantičkih uloga
Svi će dokumenti, skupovi podataka i alati biti dostupni pod otvorenim licencijama, što je u skladu sa zahtjevima postojećih korpusa za učenje.