Odobren bilateralni projekt „Označivanje semantičkih uloga u slovenskom i hrvatskom

Voditelji projekta

Simon Krek (Slovenija)

Kristina Štrkalj Despot (Hrvatska)


Suradnici

HRVATSKA

  • Nikola Ljubešić
  • Jan Šnajder
  • Željko Agić
  • Ivan Pandžić

SLOVENIJA


  • Tomaž Erjavec
  • Kaja Dobrovoljc
  • Darja Fišer
  • Polona Gantar



Glavni cilj

Prema iscrpnoj jezičnoporedbenoj studiji u okviru META-NET White Paper Series, i hrvatski i slovenski jezik jezičnotehnološki su slabije razvijeni jezici kojima manjka naprednih jezičnih resursa i alata za obradu prirodnoga jezika. Označivanje semantičkih uloga sljedeći je korak jezikoslovne analize koji se može uspješno nadograditi na ostvarene slojeve jezikoslovnoga označivanja u postojećim hrvatskim i slovenskim korpusima za učenje. Za bliske jezike koji dijele mnoge jezične značajke, poželjno je primjenjivati slična jezikoslovna načela i sustave označivanja u jednakim zadaćama obrade prirodnoga jezika. Stoga je cilj projekta izgraditi sustav oznaka semantičkih uloga koje će biti sukladne postojećim sintaktičkoovisnosnim oznakama korištenima u korpusima koji su se rabili za algoritme strojnoga učenja za oba jezika. To će rezultirati uzorcima slovenskoga i hrvatskoga korpusa za učenje koji će biti označeni kompatibilnim oznakama u obama jezicima. Takvi će korpusi poslužiti kao osnova za prve eksperimente automatskoga označivanja semantičkih uloga s pomoću metoda nadziranoga strojnoga učenja.


Temeljne zadaće

U okviru projekta predviđaju se tri temeljne zadaće:

  • oblikovanje zajedničkoga hrvatsko-slovenskoga skupa semantičkih oznaka temeljenoga na postojećim sustavima koji se rabe u drugim jezicima
  • sastavljanje uputa za označivanje i označivanje korpusnoga uzorka
  • izvođenje prvih eksperimenata automatskoga označivanja s pomoću algoritama strojnoga učenja

Rezultati:

U okviru projekta izradit će se ovi dokumenti, skupovi podataka i alati:

  • zajedničke upute za označivanje semantičkih uloga u slovenskom i hrvatskom jeziku
  • alati za označivanje semantičkih uloga za označivače na objema stranama
  • uzorak korpusa za učenje koji je ručno označen kompatibilnim oznakama semantičkih uloga za hrvatski i,slovenski jezik
  • eksperimentalni alati za strojno učenje za automatsko označivanje semantičkih uloga

Svi će dokumenti, skupovi podataka i alati biti dostupni pod otvorenim licencijama, što je u skladu sa zahtjevima postojećih korpusa za učenje.

Pravopis

pravopis.hr

Gramatika

gramatika.hr

Savjetnik

jezicni-savjetnik.hr

Bolje.hr

bolje.hr

Hrvatski u školi

hrvatski.hr

Riznica

riznica.ihjj.hr

Nazivlje

nazivlje.hr

Matura

matura.ihjj.hr

Frazemi

frazemi.ihjj.hr

Valencije

valencije.ihjj.hr

Kolokacije

ihjj.hr/kolokacije/

Metafore

ihjj.hr/metafore/