Projekti koje financira HRZZ

Višerječni izrazi u hrvatskome jeziku – leksikološki, računalnolingvistički i glotodidaktički pristup (MWE-Cro)

Voditelj: dr. sc. Goranka Blagus Bartolec

O projektu

naslov projekta: Višerječni izrazi u hrvatskome jeziku – leksikološki, računalnolingvistički i glotodidaktički pristup

english title of the project: Multiword Expressions in Croatian - Lexicological, Computational Linguistic and Glottodidactic Approach

akronim: MWE-Cro

projekt financira: Hrvatska zaklada za znanost

natječaj: IP-2022-10 ("Istraživački projekti")

šifra projekta: IP-2022-10-7697

trajanje projekta: 31. prosinca 2023. – 30. prosinca 2027. (48 mjeseci)

mrežna stranica: mwe-cro.jezik.hr

logotip projekta: MWE-Cro


Suradnici:

dr. Magdalena Baer, Instytut Filologii Słowiańskiej, Uniwersytet im. Adama Mickiewicza, Poznań; suradnica

dr. sc. Petra Bago, Filozofski fakultet Sveučilišta u Zagrebu; suradnica

dr. sc. Goranka Blagus Bartolec, Institut za hrvatski jezik, Zagreb; voditeljica projekta

dr. sc. Gorana Duplančić Rogošić, Ekonomski fakultet, Sveučilište u Splitu; suradnica

dr. sc. Barbara Kovačević, Institut za hrvatski jezik, Zagreb; suradnica

dr. sc. Ivana Kurtović Budja, Institut za hrvatski jezik, Zagreb; suradnica

dr. sc. Ivana Matas Ivanković, Institut za hrvatski jezik, Zagreb; suradnica

dr. sc. Antonia Ordulj, Fakultet hrvatskih studija, Sveučilište u Zagrebu; suradnica

dr. sc. Mirjana Šnjarić, Filozofski fakultet Sveučilišta u Zagrebu; suradnica

Sažetak projekta:

Glavni je cilj projekta razviti mrežno pretraživ i javno dostupan repozitorij višerječnih izraza hrvatskoga jezika s opisom njihovih gramatičkih i značenjskih obilježja. Podatci uneseni u bazu bit će koristan izvor za: 1. različita jezikoslovna istraživanja, 2. unaprjeđenje korpusnih alata za prepoznavanje višerječnih izraza (općih i stručnih kolokacija, frazema, poslovica, pragmema, gramatičkih sveza), 3. istraživanja na kontrastivnoj razini za potrebe prevođenja, izrade paralelnih korpusa te u poučavanju i učenju hrvatskoga kao inoga jezika. Kategorizacija višerječnih izraza temeljit će se na postojećim teorijskim opisima višerječnih izraza, osobito onim kojima su određene suvremene smjernice proučavanja takvih sveza u 21. stoljeću, što uključuje primjenu i unapređenje korpusnih i računalnih tehnologija, primjenu višerječnih izraza u govoru te njihovu percepciju pri usvajanju hrvatskoga kao inoga jezika. U okviru projekta razvit će se 5 baza – opća baza višerječnih izraza, baza frazema, baza hrvatskih poslovica, baza višerječnih izraza u okviru hrvatskoga kao inoga jezika, baza glagolskih kolokacija hrvatskoga, poljskoga, njemačkoga i engleskoga jezika. Poslovice kao plodna skupina višerječnih izraza temeljenih na izricanju narodnih mudrosti, za razliku od frazema, znatno su manje zastupljene u suvremenim leksikografskim izvorima, korpusima i u nastavi Hrvatskoga jezika, što nameće potrebu njihova uvrštavanja u mrežnu bazu kako bi bile dostupne i sadašnjim i budućim, izvornim i stranim, govornicima hrvatskoga jezika. Glagolske kolokacije u hrvatskom i drugim jezicima važna su i složena skupina višerječnih izraza, a izrada baze glagolskih kolokacija kao i drugih višerječnih sveza olakšala bi i unaprijedila poučavanje hrvatskoga kao inoga jezika. Baze višerječnih izraza danas su jedan od temeljnih jezičnih resursa svakoga jezika te ključna karika u razvoju obrade prirodnoga jezika. Stoga je izrada takva mrežnog resursa strateški važna i za hrvatski jezik te za povezivanje hrvatskoga jezika s drugim jezicima (poljskim, njemačkim, engleskim).

Summary

The main objective of the project is to develop an online searchable and publicly available repository of multiword expressions (MWEs) in Croatian with a description of their grammatical and semantic features. The data entered into the database will be a useful source for: 1 various linguistic researches, 2 improvement of corpus tools for detecting MWEs (collocations, idioms, proverbs, grammatical phrases), 3 the contrastive research applicable in translation, creating parallel corpora, and learning Croatian as a foreign language. The classification of MWEs will be based on the existing theoretical descriptions, especially those that have determined the modern guidelines for the study of such phrases in the 21st century, which includes the improvement of corpus and computer technologies, the use of MWEs in a spoken context and adopting Croatian as foreign language. The project proposal includes the development of 5 databases – a basic database of MWEs, an idiom database, a proverb database, a database of MWEs in Croatian as foreign language, a database of verb collocations in Croatian, Polish, German, and English. Proverbs, based on the folk wisdom, unlike idioms, are less represented MWEs in contemporary lexicography, corpora and teaching of Croatian, which imposes the need to include them in an online database so that they are available to native and non-native speakers of Croatian. Verb collocations in Croatian and other languages are an important and complex group of MWEs that require special attention when learning the language. Development of the Verb collocations database, as well as other multiword expressions, would facilitate and thus improve the teaching of Croatian as a second and foreign language. Today, databases of MWEs are one of the fundamental linguistic resources of every language and a key link in the improvement of natural language processing. Therefore, this online resource is strategically important for Croatian and for relationship between Croatian and other languages (Polish, German, English).

Suradnici na projektu

Pravopis

pravopis.hr

Gramatika

gramatika.hr

Savjetnik

jezicni-savjetnik.hr

Bolje.hr

bolje.hr

Hrvatski u školi

hrvatski.hr

Riznica

riznica.ihjj.hr

Nazivlje

nazivlje.hr

Matura

matura.ihjj.hr

Frazemi

frazemi.ihjj.hr

Valencije

valencije.ihjj.hr

Kolokacije

ihjj.hr/kolokacije/

Metafore

ihjj.hr/metafore/