Projekti u okviru osnovne djelatnosti

Kolokacijska baza hrvatskoga jezika

Voditelj: Goranka Blagus Bartolec

O projektu

Kolokacijska baza hrvatskoga jezika

Suradnici na projektu:

  • znanstvenice Instituta za hrvatski jezik i jezikoslovlje: dr. sc. Goranka Blagus Bartolec, voditeljica projekta; dr. sc. Barbara Kovačević, dr. sc. Ivana Kurtović Budja, dr. sc. Ivana Matas Ivanković i vanjski suradnik Dr. phil. Stefan Rittgasser (Njemačka)
  • računalna i mrežna podrška: Vedran Cindrić

Projekt Kolokacijska baza hrvatskoga jezika osmišljen je kao dinamični (s mogućnošću nadogradnje) rječnik sveza riječi hrvatskoga jezika koje se unose i obrađuju u relacijskoj bazi podataka. Rezultati projekta bit će javno dostupni i pretraživi na mrežnoj stranici Instituta za hrvatski jezik i jezikoslovlje (www.ihjj.hr). Testna inačica Kolokacijske baze hrvatskoga jezika dostupna je na mrežnoj adresi http://ihjj.hr/kolokacije/. U sklopu projekta od lipnja 2017. dostupna je i Baza frazema hrvatskoga jezika na mrežnoj adresi http://frazemi.ihjj.hr./.

Projekt se temelji na opširnom korpusu koji je prikupio i računalno obradio Dr. phil. Stefan Rittgasser. Uzorak baze objavljen je na mrežnoj adresi www.lingua-hr.de.

Cjelokupna građa nastala je prikupljanjem podataka iz izvora suvremenoga jezika, a proširuje se novim izvorima u skladu sa zahtjevima koji se nametnu tijekom rada.

Građa obuhvaća:

– raznovrstan hrvatski dnevni, tjedni i mjesečni tisak

– postojeće leksikografske izvore, ponajprije institutske izvore te leksikografske izvore drugih izdavačkih kuća

– bazu Narodnih novina

– stručnu literaturu: izbor 10 jezikoslovnih časopisa (nekoliko novijih godišta te računalno čitljive radove s temom o svezama riječi)

– lijepu književnost prema računalnom korpusu riznica.ihjj.hr

– građu drugih korpusa hrvatskoga jezika te mrežnih stranica.

Svaka će sveza u bazi prema svojim leksičkim i semantičkim obilježjima biti označena posebnom oznakom, a korisnik će dobiti uvid u vrstu leksičke sveze i, na temelju unesenih primjera, kontekst njezine najčešće primjene u govoru. Na taj će se način dobiti iscrpan pregled frazema (mlatiti praznu slamu), višerječnih naziva (binomni poučak), kolokacijskih sveza (četkica za zube), slobodnih sveza (sunčan dan), pragmema (dobar dan, dobro došli), poslovica (Željezo se kuje dok je vruće.), prijedložno-padežnih izraza (niz dlaku, bez problema), gramatičkih sveza (s obzirom na to da, bilo kako, budući da).

Osim ustaljenih kolokacijskih sklopova na sintagmatskoj razini, baza će sadržavati brojne (učestale i manje učestale) primjere uporabe pojedinih riječi koji se ne mogu odrediti kao određena vrsta čvrste sveze, dakle primjere koji nisu kolokacijska sveza, gramatička sveza, višerječni naziv, frazem, poslovica ili pragmem, ali se temelje na uobičajenoj sintaktičkoj strukturi i ostvaruju se u komunikacijskoj praksi (razgovornoj, službenoj, administrativnoj, publicističkoj, književnoj). Takvi primjeri u bazi najčešće neće imati nikakvu leksičku odrednicu jer nemaju obilježja koja su svojstvena drugim čvrstim svezama u hrvatskome jeziku, ali također svjedoče o različitim mogućnostima sintaktičke i stilske uporabe te su zanimljivi na razini prevođenja ili u poučavanju hrvatskoga kao stranoga jezika. Neke riječi u hrvatskome jeziku imaju bogat kolokacijski potencijal, dok se nekim riječima, iako se učestalo upotrebljavaju u svakodnevnoj komunikcaiji, ne može pripisati to obilježje. Namjera je bazom obuhvatiti različite primjere kojima se potvrđuje povezivost pojedinih riječi s drugima, neovisno o njihovoj leksičkoj čvrstoći, ali s primarnim ciljem da se posebno obilježe one sveze koje se, u skladu s teorijskim opisom njihovih obilježja, mogu odrediti kao vrsta čvrste sveze. Teorijska načela za određivanje čvrstih sveza u bazi prema vrsti bit će iznesena na mrežnoj stranici projekta u završnoj fazi.

Osim popisa sveza baza će omogućivati različite načine pretraživanja podataka korisnih za raznovrsna istraživanja (prema vrsti leksičke sveze, stilskoj ili stručnoj odrednici, vrsti riječi, sinonimu).

Unutar sveze u kosim se zagradama donosi i rekcijsko-valencijska dopuna kako bi se, osim kanonskoga oblika sveze, uputilo na širi sintaktički i komunikacijski potencijal sveze koji se ostvaruje ovisno o kontekstu u kojemu se određena sveza upotrebljava (npr. pozvati /koga/ na rođendan, imati /koga, što/ na umu, većinski vlasnik /čega/). Na taj je način obuhvaćena i kategorija živosti, tj. donosi se podatak o živoj ili neživoj dopuni (imati utjecaj na /koga, što/, povisiti glas na /koga/, dignuti zajam za /što/, dobiti /što/ besplatno), što je, uz podatak o rekciji, iznimno korisno i važno u poučavanju hrvatskoga jezika kao stranoga/inoga. Donse se i primjeri sveza koje su česte u uporabi, ali pripadaju razgovornomu ili kojemu drugomu stilu s uputom na standardni, tj. neutralni oblik (ići kod liječnika (razg.) upućuje se na ići k liječniku / ići liječniku, po dolasku (razg.) upućuje se na nakon dolaska). Uz glagole se donose obvezni ili najčešći prijedlozi te će Baza sadržavati brojne glagolsko-prijedložne sklopove koji otvaraju mjesto različitim padežnim (imenskim) dopunama (sastati se s /kim/, zainteresirati se za /koga, što/, suočiti se s /kim, čim/, odustati od /koga, čega).

Strukturu baze tvori devet stupaca ili polja: 1. natuknica, 2. vrsta riječi (samo za homografne i homonimne natuknice), 3. redoslijed značenja (ako je natuknica višeznačna), 4. tekst (primjeri sveza), 5. sinonim (jednorječni ili višerječni), 6. oznaka vrste sveze (frazem, čvrsta sveza – naziv ili kolokacija, poslovica, slobodna sveza (nema oznaku)), 7. struka, 8. novo (rijetkost), 9. izvor.

Rad na bazi podijeljen je u dvije faze. U prvom je razdoblju primarni cilj pripremiti prikupljenu građu po slovima. Građa se uređuje u programu Microsoft Access u skladu s izrađenim smjernicama za obradu leksičke građe. Uređena će se građa u fazama prebacivati u javno dostupnu bazu na mrežnim stranicama Instituta za hrvatski jezik i jezikoslovlje. U drugom razdoblju slijedi obilježavanje sveza unošenjem odrednice struke, ekspresivnosti, funkcionalnoga stila, vremenske i prostorne raslojenosti te, ako je potrebno, podatak o izvoru primjera sveze. U kolokacijskoj bazi primjer sveze ne donosi se samo pod jednom nosivom natuknicom, nego pod svim samoznačnicama, odnosno barem pod dvjema riječima.

Od srpnja 2015. dostupan je ogledni (testni) uzorak baze na mrežnoj stranici http://ihjj.hr/kolokacije/. Početna dostupna baza sadržava samo četiri stupca: natuknica (jednorječnica), vrsta riječi (ako su natuknice homonimi ili homografi), tekst (primjer sveze) i oznaka (označuje se vrsta sveze: frazem, naziv ili čvrsta sveza, poslovica, slobodna sveza (bez oznake)). U prvoj fazi javno su dostupna priređena slova L, Lj, M, Š iV.

Osnovni je cilj projekta donijeti iscrpan popis sveza riječi hrvatskoga jezika s opisom njihovih glavnih gramatičkih i značenjskih obilježja te pokazati mogućnosti njihove upotrebe. Podatci uneseni u bazu iscrpan su temelj za različita jezikoslovna istraživanja (gramatička, sintaktička, leksikološka), unapređenje korpusnih alata za prepoznavanje čvrstih leksičkih sveza (imena, frazema, poslovica, višerječnih naziva), izradu novih leksikografskih (tiskanih i mrežnih) priručnika te za istraživanja na dvojezičnoj ili višejezičnoj razini koja će biti korisna u prevođenju, izradi paralelnih korpusa te u učenju hrvatskoga kao stranoga/inoga jezika.

Objavljeni radovi:

Blagus Bartolec, Goranka. 2019. Past Participles in Multiword Units in Croatian. Forum Lingwistyczne 6. 111–122.

Blagus Bartolec, Goranka. 2019. Ustaljeni koligacijski sklopovi u zavisnosloženim rečenicama u hrvatskome jeziku. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje 45/2. 329–345.

Blagus Bartolec, Goranka. 2018. Sinonimija u višerječnim svezama hrvatskoga jezika. Od dvojbe do razdvojbe. Zbornik radova u čast profesorici Branki Tafri. Ur. Košutar, Petra; Kovačić, Mislav. Ibis grafika. Zagreb. 21–31.

Blagus Bartolec, Goranka. 2017. Glagolske kolokacije u administrativnome funkcionalnom stilu. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje 43/2. 285–309.

Blagus Bartolec, Goranka. 2017. Synonymy between theory and practice: The corpus-based approach to determining synonymy in lexicographic description. Computational and Corpus-based Phraseology: Recent Advances and Interdisciplinary Approaches (Proceedings of the Conference II). Editions Tradulex. Geneva. 132–136.

Blagus Bartolec, Goranka. 2017. Slobodno i čvrsto u jeziku. Jezik kao predmet proučavanja i jezik kao predmet poučavanja: Zbornik radova s međunarodnoga znanstvenog skupa Hrvatskoga društva za primijenjenu lingvistiku održanoga od 12. do 14. svibnja 2016. godine u Rijeci. Ur. Stolac, Diana; Vlastelić, Anastazija. Srednja Europa – HDPL. Zagreb. 57–71.

Suradnici na projektu

Goranka Blagus Bartolec rođena je 30. prosinca 1970. u Kneževu u Baranji. Na Filozofskom fakultetu u Zagrebu diplomirala je 29. rujna 1995. opću lingvistiku i komparativnu književnost s radom Usporedbe putopisnoga ...

Pročitaj više

Barbara Kovačević rođena je 1973. godine u Rijeci. Osnovnu školu završila je u Crikvenici, a srednju školu (Opću gimnaziju Pavao Ritter Vitezović) u Senju. Godine 1998. diplomirala je na Filozofskome fakultetu u ...

Pročitaj više

Ivana Kurtović Budja rodila se 1972. u Splitu. Diplomirala je na Filozofskom fakultetu u Zagrebu 1997. radom "Kliški mjesni govor". Magistrirala je 2003. na temu "Fonološki opis mjesnih govora čakavskih mjesta koja ...

Pročitaj više

Dr. sc. Ivana Matas Ivanković rođena je 22. veljače 1975. godine u Zagrebu, gdje je završila osnovnu i srednju školu (Pedagoški obrazovni centar). Diplomirala je 1999. na Filozofskom fakultetu u Zagrebu grupe Hrvat...

Pročitaj više

Pravopis

pravopis.hr

Gramatika

gramatika.hr

Savjetnik

jezicni-savjetnik.hr

Bolje.hr

bolje.hr

Hrvatski u školi

hrvatski.hr

Riznica

riznica.ihjj.hr

Nazivlje

nazivlje.hr

Matura

matura.ihjj.hr

Frazemi

frazemi.ihjj.hr

Valencije

valencije.ihjj.hr

Kolokacije

ihjj.hr/kolokacije/

Metafore

ihjj.hr/metafore/