Kolokacijska baza hrvatskoga jezika

Suradnici na projektu:

  • znanstvenice Instituta za hrvatski jezik i jezikoslovlje dr. sc. Goranka Blagus Bartolec, dr. sc. Barbara Kovačević, dr. sc. Ivana Kurtović Budja, dr. sc. Ivana Matas Ivanković i vanjski suradnik Dr. phil. Stefan Rittgasser.
  • računalna i mrežna podrška: Vedran Cindrić

Projekt Računalna kolokacijska baza hrvatskoga jezika osmišljen je kao dinamični (s mogućnošću nadogradnje) rječnik sveza riječi hrvatskoga jezika, sveza koje se unose i obrađuju u relacijskoj bazi podataka. Rezultati projekta bit će javno dostupni i pretraživi na mrežnoj stranici Instituta za hrvatski jezik i jezikoslovlje. Projekt se temelji na opširnom korpusu koji je prikupio i računalno obradio Dr. phil. Stefan Rittgasser. Uzorak baze objavljen je na mrežnoj adresi www.lingua-hr.de.

Cjelokupna građa nastala je prikupljanjem podataka iz izvora suvremenoga jezika, a proširuje se novim izvorima u skladu sa zahtjevima koji se nametnu tijekom rada.

Građa obuhvaća:

  • raznovrstan hrvatski dnevni, tjedni i mjesečni tisak
  • postojeće leksikografske izvore, ponajprije institutske izvore te leksikografske izvore drugih izdavačkih kuća
  • bazu Narodnih novina
  • stručnu literaturu: izbor 10 jezikoslovnih časopisa (nekoliko novijih godišta te računalno čitljive radove s temom o svezama riječi)
  • lijepu književnost prema računalnom korpusu riznica.ihjj.hr.

Svaka će sveza u bazi prema svojim leksičkim i semantičkim obilježjima biti označena posebnom oznakom, a korisnik će dobiti uvid u vrstu leksičke sveze i, na temelju unesenih primjera, kontekst njezine najčešće primjene u govoru. Na taj će se način dobiti iscrpan pregled frazema, naziva, čvrstih sveza, slobodnih sveza, pragmema, poslovica, prijedložno-padežnih izraza, vezničkih skupova.

Osim popisa kolokacijskih sveza, u skladu s računalnim tehnologijama, baza će omogućivati različite načine pretraživanja podataka korisnih za raznovrsna istraživanja.

Strukturu baze tvori devet stupaca ili polja: 1. natuknica, 2. vrsta riječi (samo za homografne i homonimne natuknice), 3. redoslijed značenja (ako je natuknica višeznačna), 4. tekst (primjeri sveza), 5. sinonim (jednorječni ili višerječni), 6. oznaka vrste sveze (frazem, čvrsta sveza – naziv ili kolokacija, poslovica, slobodna sveza (nema oznaku)), 7. struka., 8. novo (rijetkost)., 9. izvor.

Rad na bazi podijeljen je u dvije faze. U prvom je razdoblju primarni cilj pripremiti prikupljenu građu po slovima. Građa se uređuje u programu Access u skladu s izrađenim smjernicama za obradu leksičke građe na temelju kojih će se prikupljene sveze pročistiti, osloboditi nepotrebnih i ponavljajućih primjera. Uređena će se građa u fazama prebacivati u javno dostupnu bazu na mrežnim stranicama Instituta za hrvatski jezik i jezikoslovlje. U drugom razdoblju slijedi obilježavanje sveza unošenjem odrednice struke, ekspresivnosti, funkcionalnoga stila, vremenske i prostorne raslojenosti te, ako je potrebno, podatak o izvoru primjera sveze. U kolokacijskoj bazi primjer sveze ne donosi se samo pod jednom nosivom natuknicom, nego pod svim samoznačnicama, odnosno barem pod dvjema riječima. Osnovni je cilj projekta donijeti iscrpan popis sveza riječi hrvatskoga jezika s opisom njihovih glavnih gramatičkih i značenjskih obilježja te pokazati mogućnosti njihove uporabe.

Od srpnja 2015. javno je dostupan ogledni uzorak baze na mrežnoj adresi: http://www-test.ihjj.hr/kolokacije/ Početna javno dostupna baza sadržava samo četiri stupca: 1. natuknica (jednorječnica), 2. vrsta riječi (ako su natuknice homonimi ili homografi), 4. tekst (primjer sveze) i 6. oznaka (označuje se vrsta sveze: frazem, naziv ili čvrsta sveza, poslovica, slobodna sveza (bez oznake)). U prvoj fazi dostupna su priređena slova L, Lj, M, Š i V.

Popis oznaka u bazi:

1. Vrsta riječi

Oznaka Značenje
a pridjev
b broj
c veznik
d prilog
p prijedlog
re povratni glagol
s imenica
t čestica
v glagol
z zamjenica
u usklik

2. Oznaka primjera

Oznaka Značenje
F frazem
E frazem u kontekstu
P poslovica
S čvrsta sveza (naziv ili kolokacija)
bez oznake slobodna sveza