Pojmovnik


 • Afrilex (African Association for Lexicography) Afrička udruga za leksikografiju http://afrilex.africanlanguages.com
 • agregator (engl. aggregator, dictionary portal) v. rječnički portal
 • AHlib digitalna zbirka slovenske prijevodne književnosti od 1848. do 1918. godine https://repozitorij.uni-lj.si/IzpisGradiva.php?id=52855
 • AI (engl. artificial intelligence) > umjetna inteligencija
 • algoritam za gramatičko tagiranje (engl. part-of-speech tagging algorithms) algoritam s pomoću kojega se provodi gramatičko tagiranje, odnosno s pomoću kojih se pridružuju oznake za vrstu riječi pojavnicama u korpusu
 • anotacija (engl. annotation) dodavanje jezičnih informacija elektroničkomu korpusu
 • ANW (Algemeen Nederlands Woordenboek) opsežan znanstveni mrežni rječnik suvremenoga nizozemskog jezika sastavljen u Institutu za nizozemski jezik http://anw.inl.nl
 • Asialex (The Asian Association for Lexicography) Azijska udruga za leksikografiju http://www.asialex.org/
 • Australex (Australasian Association for Lexicography) Australazijska udruga za leksikografiju https://www.adelaide.edu.au/australex/

 • BabelNet višejezična leksička semantička i ontološka mreža koja se sastoji od 13 801 844 povezanih jezičnih čvorova koji se zovu Babelovi sinonimni skupovi ( engl. Babel synsets). Za svaku je natuknicu osim definicije moguće dobiti i prijevod na druge jezike te sintetiziran izgovor istovrijednice, a za neke pojmove postoje i slikovni prikazi https://babelnet.org/
 • banka stabala (engl. treebank) parsirani tekstni korpus koji ima označenu sintaktičku i semantičku strukturu rečenica


 • Canoonet gramatika, rječnik i jezični savjeti (Fragen Sie Dr. Bopp) za njemački jezik http://www.canoo.net/

 • CJVT (Center za jezikovne vire in tehnologije) znanstvena ustanova Sveučilišta u Ljubljani koja se bavi istraživanjima povezanim s digitalnim jezičnim izvorima i jezičnim tehnologijama za suvremeni slovenski jezik https://www.cjvt.si/en/
 • CL (engl. computational linguistics) > računalno jezikoslovlje
 • CLARIN (Common Language Resources and Technology Infrastructure) europska istraživačka infrastruktura za jezične izvore i tehnologiju koja digitalne jezične izvore čini dostupnima znanstvenicima, istraživačima i studentima svih disciplina, posebice u humanističkim i društvenim znanostima https://www.clarin.eu/
 • CMC (engl. computer-mediated communication) komunikacija koja se odvija uporabom jednoga ili više elektroničkih uređaja na mreži
 • CroDeriV morfološki leksikon hrvatskih glagola koji obuhvaća oko 14 500 glagola rastavljenih na leksičke i tvorbene morfeme; glagoli istoga korijena međusobno su povezani te je uspostavljena opća morfološka struktura primjenjiva na sve hrvatske glagole (četiri mjesta za prefikse s desne i tri mjesta za sufikse s lijeve strane leksičkoga morfema)
 • CroLTec (CROatian Learner TExt Corpus) korpus tekstova čiji su autori osobe koje uče hrvatski jezik kao ini jezik, obuhvaća tekstove od A1 do C1 razine učenja hrvatskoga jezika
 • CroWN (Croatian Wordnet) > Hrvatski Wordnet
 • ConceptNet višejezična baza koja omogućuje prikaz semantičkoga odnosa među riječima i izrazima http://conceptnet.io/
 • Cosmas II sustav za pretragu i analizu korpusa i upravljanje njime (upotrijebljen npr. pri izradi elexika)

 • crpenje naziva (engl. terminology extraction) postupak pronalaženja naziva određene struke u korpusu
 • crpenje podataka (engl. data mining) razvrstavanje, organiziranje ili okupljanje velikoga broja podataka i izvlačenje relevantnih informacija, proces pronalaženja korisnih informacija u velikoj količini podataka

 • čestoća (engl. frequency) broj pojavljivanja riječi ili izraza, primjerice u korpusu

 • DARIAH-ERIC (Digital Research Infrastructure for the Arts and Humanities – European Research Infrastructure Consortium) digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti, uključena u Europski konzorcij za istraživačku infrastrukturu (ERIC); zapravo je riječ o DARIAH-EU-u, koji je od 2014. godine pripao pod ERIC (European Research Infrastructure Consortium), pa se otad često (ali ne redovito) tako navodi
 • DARIAH-EU (Digital Research Infrastructure for the Arts and Humanities – European Union) sveeuropska digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti https://www.dariah.eu/
 • DARIAH-HR digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti u Republici Hrvatskoj http://dariah.hr/hr/naslovnica/
 • Das Digitale Wörterbuch der deutschen Sprache (DWDS) digitalni rječnički sustav u izradi koji se u trenutačno temelji na njemačkome rječniku Wörterbuch der deutschen Gegenwartssprache (WDG), čija se građa obogaćuje podatcima iz opsežnih tekstnih korpusa i drugih izvora prikupljenih u svrhu projekta; projekt se provodi u sklopu Centra za digitalnu leksikografiju njemačkoga jezika (ZDL) https://www.dwds.de/
 • data mining > crpenje podataka
 • deduplikacija (engl. deduplication) izbacivanje iz korpusa primjera koji se ponavljaju, npr. zbog navođenja antonim: reduplikacija
 • deep (neural) learning > duboko (neuronsko) učenje
 • dekodiranje (engl. decoding) proces obrnut od enkodiranja, u kojemu se znakove određenoga prilagođenog formata dobivene enkodiranjem vraća u njihov izvorni oblik
 • DeReKo (Das Deutsche Referenzenkorpus) IDS-ov korpus govornoga jezika (sadržava oko 42 milijarde riječi po podatcima iz veljače 2018.), može se pretraživati s pomoću programa Cosmas II http://www1.ids-mannheim.de/kl/projekte/korpora/
 • DeReWo IDS-ov korpus pisanoga jezika, može se pretraživati s pomoću programa Cosmas II http://www1.ids-mannheim.de/kl/projekte/methoden/derewo.html
 • DGD IDS-ova baza govornoga korpusa njemačkoga jezika, koju sačinjavaju 92 korpusa i koja sadržava oko 4000 sati audiozapisa i videozapisa; bazom se mogu koristiti registrirani korisnici https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern....
 • DH (engl. digital humanities) > digitalna humanistika
 • dictionary matrix > rječnička matrica
 • digitalizacija (engl. digitization) pretvorba teksta, slike, zvuka, pokretnih slika (filmova i videa) ili trodimenzijskoga oblika nekoga objekta u digitalni oblik, računalnu datotetku koja se može obrađivati, pohranjivati ili prenositi računalima i računalnim sustavima
 • digitalna humanistika (engl. digital humanities, DH) znanstveno područje koje se bavi primjenom računalnih ili digitalnih tehnologija u humanističkim znanostima
 • DSNA (Dictionary Society of North America) Sjevernoameričko leksikografsko društvo http://www.dictionarysociety.com/
 • DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz) Njemački istraživački centar za umjetnu inteligenciju https://www.dfki.de/web
 • duboko (neuronsko) učenje (engl. deep neural network, deep (neural) learning) strojno učenje koje se odnosi na računala koja uče na temelju neuronskih mreža s pomoću kojih mogu, na temelju prethodnih zadataka, naučiti samostalno donositi odluke povezane s obradom podataka
 • DWDS (Das Digitale Wörterbuch der deutschen Sprache)
  https://www.dwds.de/

 • ekstrakcija podataka (engl. extraction of data) postupak analize i prikupljanja određenih podataka iz jednoga ili više različitih podatkovnih izvora (najčešće baza podataka) kako bi se došlo do relevantnih informacija
 • elektronički rječnik (engl. electronic dictionary, e-dictionary) rječnik u digitalnome obliku
 • e-leksikograf (engl. e-lexicographer) stručnjak koji se bavi teorijom i praksom izrade elektroničkih leksikografskih djela
 • e-leksikografija (engl. e-lexicography) znanstvena disciplina koja se bavi teorijom i praksom izrade elektroničkih leksikografskih djela
 • e-leksikografkinja (engl. e-lexicographer) stručnjakinja koji se bavi teorijom i praksom izrade elektroničkih leksikografskih djela
 • eLex konferencija o e-leksikografiji koja se održava svake druge godine https://elex.link/
 • elexiko jednojezični mrežni rječnik izrađen u Institutu za njemački jezik u Mannheimu http://www1.ids-mannheim.de/
 • Elexis (European Lexicographic Infrastructure) Europska leksikografska infrastruktura

 • eNeL (European Network of e-Lexicography) > Europska mreža za e-leksikografiju
 • enkodiranje (engl. encoding) proces prebacivanja skupa znakova (koji mogu uključivati slova, brojke, pravopsine znakove, simbole itd.) u određeni format koji te znakove može uspješno pohraniti i prenijeti za ispravan prikaz na zaslonu
 • e-rječnik v. elektronički rječnik
 • error tagging > označivanje pogrešaka
 • EURALEX (European Association for Lexicography) Europska udruga za leksikografiju; udruga za stručnjake iz cijeloga svijeta koji se bave leksikografijom i s njom povezanim područjima; konferencije se održavaju svake druge godine https://euralex.org/
 • Europska mreža za e-leksikografiju (engl. European Network of e-Lexicography) COST-ova akcija čiji je cilj utemeljiti europsku mrežu leksikografa kako bi se strukturirano pristupilo ostvarenju izazova suvremene e-leksikografije povezanih s omogućavanjem lakšeg pristupa rječnicima, razmjenu leksikografskih znanja, zajedničkih standarda i rješenja te razvoju zajedničkoga pristupa e-leksikografiji
 • Europski rječnički portal portal koji po unaprijed određenim kriterijima okuplja kvalitetne mrežne rječnike europskih jezika te pomaže korisnicima stranice da ih lakše pronađu; portal održavaju stručnjaci Europske mreže za e-leksikografiju http://www.dictionaryportal.eu/hr/


 • FIDA korpus slovenskoga jezika sastavljen od tekstova iz različitih izvora nastalih između 1990. i 2000. godine koji sadržava 100 milijuna pojavnica
 • FidaPLUS nadogradnja korpusa slovenskoga jezika FIDA; dodatno su prikupljeni tekstovi nastali do 2006. koji uključuju društvene mreže, novine, blogove i književna djela; sadržava oko 600 milijuna pojavnica; naslijedio ga je korpus Gigafida
 • FrameNet leksička baza podataka engleskoga jezika sa slobodnim pristupom utemeljena na primjerima uporabe riječi u stvarnim tekstovima; građa je organizirana u više od 1200 semantičkih okvira https://framenet.icsi.berkeley.edu/fndrupal/
 • frekvencija (engl. frequency) v. čestoća
 • frekventnost (engl. frequency) v. čestoća
 • FRENK projekt koji povezuje suvremene kvantitativne i kvalitativne višedisciplinske pristupe (metode korpusnoga jezikoslovlja, kritičku analizu diskursa, pravnu analizu i metode sociološkoga istraživanja) kako bi se istražila uporaba i percepcija društveno neprihvatljivoga oblika komunikacije u društvenome i kulturnome kontekstu http://nl.ijs.si/frenk/

 • GALA (Globalization and Localization Association) svjetska neprofitna udruga za jezičnu industriju https://www.gala-global.org/
 • GDEX (Good Dictionary Examples) alat ugrađen u SketchEngine koji omogućuje pronalaženje dobrih primjera u korpusu; dobrim se primjerom smatra primjer koji je tipičan, ilustrativan, primjerene duljine i puna rečenica; ovisno o načelima obrade leksikografi prilagođuju primjere pronađene u korpusu, ali mogućnost automatskoga odabira dobrih primjera olakšava rječničku obradu
 • Gigafida korpus slovenskih tekstova koji pripadaju različitim funkcionalnim stilovima i žanrovima; uključuje tekstove iz novina i časopisa, knjiga i udžbenika, s mrežnih stranica, transkripte parlamentarnih rasprava itd.; sadržava oko 1,2 milijarde pojavnica https://www.cjvt.si/gigafida/

 • Gigafida 2.0 nadograđena inačica korpusa Gigafida; dodani su tekstovi poput školske literature i odabranih književnih djela; sadržava oko 1,5 milijardi riječi te je korpus također razvijen na tehničkoj razini, što omogućuje uklanjanje duplikata tekstova, poboljšava točnost jezičnoga označavanja i odvajanje tekstova na standardnome jeziku od ostalih tekstova
 • Globalex udruga stručnjaka koji se bave izradom rječnika i drugih jezičnih izvora; inicijativa je pokrenuta 2015. godine na konferenciji eLex u Ujedinjenome Kraljevstvu te uključuje predstavnike svih udruga za leksikografiju utemeljenih na različitim kontinentima: afričku (Afrilex), azijsku (Asialex), australazijsku (Australex), europsku (Euralex) i sjevernoameričku (DSNA); cilj je Globalexa olakšati razmjenu znanja i suradnju između svojih članova i drugih koje zanimaju jezikoslovlje i jezične tehnologije, promicati stvaranje, istraživanje, razmjenu, diseminaciju, integraciju i uporabu leksikografskih izvora i rješenja https://globalex.link/
 • GOS (Korpus GOvorjene Slovenščine) korpus govornoga slovenskog jezika, koji sadržava transkripcije govora u različitim situacijama (radijskih i televizijskih emisija, predavanja, razgovora u krugu prijatelja i obitelji, sastanaka itd.); korpus je nastao u okviru projekta Sporazumevanje v slovenskem jeziku
  http://www.korpus-gos.net/
 • govoreći rječnik (engl. talking dictionary) interaktivni mrežni rječnik koji korisniku omogućuje da čuje visokokvalitetne audiozapise te snima i prenosi novi sadržaj i slike
 • gramatičko tagiranje (engl. part-of-speech tagging) pridruživanje oznake za vrstu riječi pojavnicama u korpusu
 • gramatika skica (engl. Sketch Grammar) jezični opis na kojemu se temelje skice riječi za određeni jezik; nastaje pretpostavljanjem podataka potrebnih za jezični opis ili leksikografsku obradu i testiranjem rezultata; niz pravila kojima se traže kolokacije u tekstnome korpusu te se kategoriziraju prema gramatičkim odnosima, npr. objektima, subjektima, modifikatorima itd.; piše se u jeziku CQL, a rezultat se prikazuje u obliku skica riječi u sučelju SketchEngine
 • govoreni korpus > govorni korpus
 • govorni korpus korpus koji sačinjavaju zvučni zapisi te prijepisi spontanoga govora

 • Hašek (fonetizirano prema Hascheck – Hrvatski akademski spelling checker) pravopisni provjernik za hrvatski jezik razvijen na Fakultetu elektrotehnike i računarstva Sveučilišta u Zagrebu, 2016. zamijenjen novijom inačicom Ispravi.me
 • hipertekst (engl. hypertext) tekstna struktura koja se sastoji od međusobno povezanih jedinica informacije (engl. node) prikazana na elektroničkome uređaju; hipertekst nema jedinstven redoslijed čitanja, nego ga čitatelj dinamički određuje, tj. određuje ga tijekom čitanja
 • HLT (engl. human language technology) > jezične tehnologije
 • HOBS (Hrvatska ovisnosna banka stabala engl. Croatian Dependancy Treebank)
 • hrLex hrvatski morfološki leksikon http://nlp.ffzg.hr/resources/lexicons/hrlex/
 • HNK (Hrvatski nacionalni korpus) v. Hrvatski nacionalni korpus
 • HR4EU mrežni portal namijenjen strancima koji uče hrvatski jezik izrađen u Zavodu za lingvistiku na projektu koji financira Europska unija u okviru Europskoga socijalnog fonda.
 • Hrvatska ovisnosna banka stabala (HOBS, engl. Croatian Dependancy Treebank) dva korpusa Hrvatskoga nacionalnoga korpusa (prvi je dio novinskoga potkorpusa – tjednik Croatia Weekly, drugi uključuje 500 rečenica iz tečajeva za hrvatski jezik dostupnih na portalu HR4EU)označena na morfosintaktičkoj i ovisnosnoj razini te na razini semantičkih uloga
 • Hrvatska jezična riznica korpus Instituta za hrvatski jezik i jezikoslovlje http://riznica.ihjj.hr
 • Hrvatski lematizacijski poslužitelj mrežni program za pretraživanje Hrvatskoga morfološkoga leksikona i njegovu uporabu u računalnojezikoslovnim postupcima: pri generiranju i prepoznavanju oblika hrvatskih riječi, tj. svođenju na osnovni oblik (lematiziranju)
 • Hrvatski morfološki leksikon baza koja se sastoji od više od 45 000 riječi općega jezika, 15 000 osobnih muških i ženskih imena i 50 000 prezimena registriranih u Republici Hrvatskoj te 3 900 000 njihovih oblika; morfosintaktički opisi usklađeni su s MulTextEast v 3.0 preporukama za hrvatski jezik
 • Hrvatski jezični portal javno dostupna rječnička baza hrvatskoga jezika, zajednički projekt nakladničke kuće Znanje i Srca; uključuje 116 516 natuknica http://hjp.znanje.hr/
 • Hrvatski mrežni korpus v. hrWaC
 • Hrvatski nacionalni korpus (HNK) jedan od triju korpusa hrvatskoga jezika (uz hrWaC i Hrvatsku jezičnu riznicu); obaseže više od 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno; za pretraživanje HNK-a potreban je slobodno dostupan program Bonito
 • Hrvatski Wordnet (CroWN) semantička mreža hrvatskoga jezika koja slijedi strukturu prinstonskoga WordNeta i povezana je s njegovom inačicom 3.0; temelj organizacije CroWN-a sinonimni su skupovi
 • hrWaC (Hrvatski mrežni korpus) lematiziran i na morfosintaktičkoj razini označen korpus hrvatskoga jezika; inačica 2.1. sadržava 1,4 milijarde pojavnica http://nlp.ffzg.hr/resources/corpora/hrwac/
 • html (HTML, Hypertext Markup Language) standardizirani jezik za označavanje podataka, koji se primjenjuje za stvaranje mrežnih stranica i mrežnih aplikacija

 • Íslex rječnik namijenjen govornicima drugih nordijskih jezika koji uče islandski http://islex.hi.is/; natuknice su povezane s morfološkom bazom islandskoga jezika http://bin.arnastofnun.is/forsida/; dostupna je i jednojezična inačica rječnika http://islenskordabok.arnastofnun.is/
 • Ispravi.me pravopisni provjernik za hrvatski jezik razvijen na Fakultetu elektrotehnike i računarstva Sveučilišta u Zagrebu koji je 2016. zamijenio svoju stariju inačicu Hašek

 • izbornik (engl. meni) prikaz na početku dugih rječničkih članaka koji sažeto prikazuje značenja natuknice

 • jezične tehnologije (engl. language tehnology) tehnologije koje uključuju obradu prirodnoga jezika (NLP) i računalno jezikoslovlje te govorne tehnologije; sinonim: LT, HLT
 • jezični alati (engl. linguistic tools) programi koji se razvijaju na temelju jezičnih izvora kao ishodišnih podataka te obrađuju postojeće jezične izvore ili služe za stvaranje novih jezičnih izvora; omogućuju jednostavniju, bržu i jeftiniju uporabu prirodnoga jezika u računalnome okružju
 • jezični izvori (engl. language resources) digitalno su usustavljena i pretraživa jezična građa koja dolazi u dva oblika: a) kao korpusi, tj. zbirke tekstova na jednome ili više jezika koje služe kao znatna količina jezičnih podataka za temeljna istraživanja o jeziku/jezicima i njihovim međuodnosima te b) kao digitalni rječnici, lako dostupni i pretraživi mrežno ili izvanmrežno; na temelju jezičnih izvora kao ishodišnih podataka razvijaju se jezični alati koji ili obrađuju postojeće jezične izvore ili služe za stvaranje novih jezičnih izvora
 • jezični resursi > jezični izvori
 • JT v. jezične tehnologije
 • JSON (Java Script Object Notation) datoteka koja omogućuje organiziranu pohranu informacija u zagradama, a informacije se mogu poslije lako i brzo učitati na mrežnim stranicama; u nekim se slučajevima može upotrijebiti kao zamjena za XML datoteke

 • kanonski oblik (engl. canonical form) osnovni oblik riječi u kojemu se u pravilu uspostavlja rječnička natuknica; za imenice to je nominativ jednine, za glagole infinitiv, za pridjeve nominativ jednine muškoga roda itd.; ako se riječ nikad ne pojavljuje u kanonskome obliku, zapisuje se u najtipičnijemu, kanonskomu obliku najbližemu obliku, npr. se
 • Klexicon (Kinder lexicon) Wikipedia za djecu https://klexikon.zum.de/wiki/Klexikon
 • konkordancija (engl. concordance) popis riječi sa svim oblicima u kojima se pojavljuju zajedno s kontekstom i oznakom izvora, koji se nalaze u nekome korpusu
 • kolokacija (engl. collocation) skup od najmanje dvije punoznačne riječi koje se često pojavljuju zajedno
 • konkordanca (engl. concordance) > konkordancija
 • konkordancer (engl. concordancer) računalni program koji automatski konkordira tekst
 • konkordansa (engl. concordance) > konkordancija
 • KonText javno dostupan alat za pretraživanje korpusa, moguće je besplatno korištenje njime za pretraživanje korpusa na Clarinovim stranicama https://www.clarin.si/kontext/corpora/corplist
 • konverzijski alati (engl. conversion tools) alati koji omogućuju uporabu rječničkoga sadržaja u stvaranju novih rječničkih ili jezičnih sadržaja
 • Kookurenz analyse alat za pretragu teksta (upotrijebljen pri izradi elexika)
 • KorAP program za pretragu korpusa, fleksibilan i održiv sustav otvorenoga koda za rad s korpusima https://korap.ids-mannheim.de/
 • korpus (engl. corpus) zbirka tekstova prirodnoga jezika sastavljena po određenome kriteriju, skup jezičnih odsječaka (tekstova) koji su odabrani i skupljeni prema jasnim jezikoslovnim kriterijima radi dobivanja određenoga jezičnog uzorka
 • korpus standardnoga jezika korpus tekstova pisanih standardnim jezikom
 • korpusno utemeljen rječnik (engl. corpus based dictionary) rječnik u kojemu se obrađivač služi korpusom, ali može slobodno procijeniti što treba unijeti u rječnik te rječnik može po potrebi dopunjavati i riječima iz drugih izvora te kolokacijama i značenjima koji nisu potvrđeni u korpusu
 • korpusom vođen rječnik (engl. corpus driven dictionary) rječnik u kojemu se obrađivač služi isključivo korpusom pa se u rječniku nalazi samo ono što se nalazi u korpusu
 • korpusna lingvistika v. korpusno jezikoslovlje
 • korpusno jezikoslovlje (engl. corpus linguistics) grana jezikoslovlja koja se bavi jezičnom analizom strojno izrađenih korpusa pisanoga ili govornoga jezika
 • kratka definicija (engl. menu definition) definicija koja se pokazuje u izborniku, prikazu na početku dugih rječničkih članaka koji sažeto prikazuje značenja natuknice
 • Kres korpus slovenskoga jezika nastao unutar projekta Komunikacija na slovenskome jeziku u razdoblju od 2008. do 2012. godine; sadržava gotovo 100 milijuna pojavnica http://www.korpus-kres.net/Support/About

 • lema (engl. lemma) kanonski oblik riječi (u morfologiji i leksikografiji), kanonski oblik pojavnice (u korpusnome jezikoslovlju), tagirana vrijednost
 • lematiziranje (engl. lemmatization, lemmatisation) uspostava kanonskoga oblika pojavnice
 • lematizirati (engl. to lemmatize) uspostavljati kanonski oblik pojavnice
 • Lexin 1. rječnik namijenjen strancima koji uče švedski, postoji jednojezična varijanta te dvojezične kombinacije za određene jezike; postoje poveznice sa slikovnim prikazima za određene riječi i teme https://lexin.nada.kth.se/lexin/; 2. rječnik namijenjen strancima koji uče norveški http://lexin.udir.no/
 • Linguistic Linked Open Data (LLOD) pokret vezan za izdavanje jezičnih izvora i programa za jezikoslovce i obrađivače prirodnoga jezika koji moraju bit izdani pod licencijom zajedničkoga kreativnog dobra (engl. Creative Commons ili CC), biti dostupni preko jedinstvene mrežne adrese, koristiti se suvremenim mrežnim standardima za podjelu resursa (HTML, RDF, JSON) te nuditi poveznice na druge korisne sadržaje http://linguistic-lod.org/llod-cloud
 • link > poveznica
 • linked data v. povezani podatci
 • LLOD > Linguistic Linked Open Data
 • LOD (engl. linked open data) 1. tip povezanih podataka (Linked Data) koji se objavljuje pod otvorenom licencijom, 2. metoda objavljivanja strukturiranih podataka koja omogućuje uzajamno povezivanje
 • LT (engl. language technology) > jezične tehnologije
 • LT Advisor GALA-ina platforma za opis jezičnih tehnologija, ocjene i oglede

 • matrični rječnik (engl. matrix dictionary) univerzalna leksikografska metastrukture, rječnik koji obuhvaća više jezika, leksikografski izvor predviđen planom projekta Elexis; univerzalni registar/mreža semantičkih odnosa koji služe kao semantički posrednički jezik za opću razmjenu znanja, usmjeren na težak višeznačenjski vokabular (jednorječni i višerječni), moderan i povijesni
 • matrix dictionary > matrični rječnik
 • meni (engl. meni) v. izbornik
 • menu definition > kratka definicija
 • menu v. izbornik
 • Metanet javno mrežno dostupna baza konceptualnih i jezičnih metafora, metonimija te predodžbenih shema, kognitivnih primitiva i semantičkih okvira hrvatskoga jezika s pripadajućim leksičkim jedinicama https://metafora.ihjj.hr:8443/Metafore/
 • mrežni repozitorij (engl. web repository) računalni sustav za pohranu, preuzimanje, čuvanje, odabir i izlučivanje podataka na mreži
 • mrežni rječnik (engl. web-born dictionary) rječnik izvorno osmišljen za mrežnu platformu, što uključuje lakše međusobno povezivanje unutarrječničkoga sadržaja (cross-referencing) i rječničkoga sadržaja s drugim mrežnim sadržajima, unošenje u rječnik sadržaja poput audiozapisa i videozapisa te mogućnost komunikacije s korisnicima koji mogu biti i aktivni sudionici u stvaranju rječničkoga sadržaja
 • MSD (morfo-syntactic description) > morfosintaktički opis

 • natuknica (engl. headword) riječ iz rječničkoga abecedarija koja se nalazi na početku rječničkoga članka i za kojom slijedi njezina obrada
 • n-gram sekvencija određene duljine koju sačinjavaju znakovi ili riječi koje se pojavljuju unutar teksta; pri radu s korpusima n-grami se odnose na sekvencije riječi; unigram je jedna riječ, bigram je sekvencija od dvije riječi, trigram je sekvencija od tri riječi itd.
 • n-gram overlap > preklapanje n-grama
 • nacionalni korpus (engl. national corpus) 1. opći korpus koji uključuje velik broj tekstova reprezentativnih za određeni jezik, 2. v. opći korpus
 • NER (Named-entity recognition) računalni proces u kojem se pronalaze, pohranjuju i sortiraju dijelovi teksta u određene zadane kategorije (npr. u neobrađenomu tekstu pronalaze se sva imena te automatski izdvajaju u kategorije imena ljudi, imena mjesta, imena tvrtki itd.)
 • NLP (engl. natural language processing) > obrada prirodnih jezika
 • NoSketchEngine javno dostupan alat za pretraživanje korpusa s pomoću kojega se može pretraživati korpus hrWaC
 • Nova beseda govorni korpus slovenskoga jezika koji se izrađuje na Inštitutu za slovenski jezik Frana Ramovša u Ljubljani

 • obrada prirodnih jezika (engl. natural language processing) 1. jezikoslovno područje usmjereno na interakciju između prirodnoga jezika i računalâ; analiza i razumijevanje složenih jezičnih izraza prirodnoga jezika s pomoću računala; primjenom obrade prirodnih jezika moguće je ostvariti različite zadaće (npr. automatsko sažimanje, prevođenje, prepoznavanje glasa, segmentacija tema itd.), 2. računalno jezikoslovlje
 • odostražni rječnik (engl. reverse dictionary) rječnik u kojemu su riječi abecedirane od kraja; odostražni rječnik Rückläufiges Wörterbuch des Serbokroatischen (1965. – 1967.) mrežno je dostupan na https://www.uibk.ac.at/slawistik/institut/matesic.html. Demoinačica odstražnoga rječnika naziva za vršitelje/vršiteljice radnje (https://borna12.gitlab.io/odostraznji-mz/, izradio Josip Mihaljević):


 • odostražnik v. odostražni rječnik
 • OmegaWiki projekt masovne podrške ( engl. crowdsourcing) u stvaranju rječnika svih jezika, koji uključuje leksičke, terminološke i ontološke podatke spojene putem relacijske baze podataka http://www.omegawiki.org/Meta:Main_Page
 • opći korpus (engl. general corpus) korpus koji je reprezentativan za jezik u cjelini, koji se sastoji od tekstova koji pripadaju različitim tekstnim vrstama, područjima i stilovima
 • OWID (Online-Wortschatz-Informationssystem Deutsch) portal za znanstvenu korpusno utemeljenu leksikografiju IDS-a (uključena i bibliografija e-leksikografskih djela i mrežnih rječnika) https://www.owid.de/
 • Oxygen program za rječničku obradu (upotrijebljen npr. pri izradi elexika)
 • označavanje korpusa v. tagiranje
 • označivanje pogrešaka (engl. error tagging) označivanje jezičnih pogrešaka u tekstu korpusa koje računalo može razumjeti
 • označivanje semantičkih uloga (engl. semantic role labeling) proces u prirodnoj obradi jezika u kojemu se označava semantička uloga riječi ili izraza u rečenici (npr. agent, cilj i rezultat)

 • pametna leksikografija (engl. smart lexicography) leksikografija usmjerena prikazu rječnika na različitim uređajima, prilagodba leksikografskih djela novim digitalnim formatima, npr. pametnim telefonima
 • paralelni korpus > usporedni korpus
 • Parlametar alat koji s pomoću analize glasa i transkripata zastupničkih nastupa olakšava praćenje rada Hrvatskoga sabora https://parlametar.hr/
 • parsiranje (engl. parsing) raščlanjivanje rečenice u računalnoj obradbi jezika
 • parsirati (engl. to parse) raščlaniti rečenicu u računalnoj obradbi jezika
 • parser (engl. parser) računalni program za analizu rečenice do osnovnih sintaktičkih kategorija ili do riječi
 • parsemsko stablo (engl. parse tree) prikaz raščlanjene rečenice u obliku stabla u računalnoj obradbi jezika
 • PARSEME (PARSing and Multi-word Expressions) interdisciplinarna znanstvena mreža usmjerena na ulogu višerječnih jedinica (MWE – multiword expression) u parsiranju, cilj joj je poboljšati računalnu učinkovitost obrade prirodnoga jezika
 • PDF (Portable Document Format) format u kojemu dokument čuva sve značajke otisnutoga dokumenta u obliku e-slike
 • podatkovno rudarenje (engl. data mining) > crpenje podataka
 • pojavnica (engl. token) sve što se nalazi između dva znaka koja služe kao graničnici (svako individualno pojavljivanje); svaka pojava jezične jedinice u korpusu, na razini riječi svaki oblik uključen u leksem
 • ponovna uporaba rječničkoga sadržaja (engl. reuse of dictionary content) povezivanje rječničkoga sadržaja s drugim rječnicima i jezičnim izvorima kako bi se stvorili novi rječnički (jezični) sadržaji, integracija, povezivanje i spajanje rječničkih sadržaja kojoj je važan preduvjet kompatibilnost formata
 • POS tagging (part-of-speech tagging) > gramatičko tagiranje
 • POS tagging algoritmi > algoritmi za gramatičko tagiranje
 • POST (part-of-speech tagging) > gramatičko tagiranje
 • potkorpus (engl. subcorpus) izdvojeni dio korpusa koji može bit određen na temelju tematskih sadržaja, medija (govorni ili pisani potkorpus), vremenu nastanka teksta, izvora itd.; upotrebljava se za lakšu organizaciju sadržaja u korpusu
 • povezani podatci (engl. linked data) strukturirani podatci uzajamno povezani s drugim podatcima na semantičkoj mreži (engl. Semantic Web) kako bi ih se lakše moglo pronaći s pomoću semantičkih upita ( engl. semantic queries)
 • poveznica (engl. link) veza između dviju mrežnih stranica; veza između hipertekstnoga sadržaja i kojega drugog hipertekstnog ili bilo kakva multimedijskoga sadržaja (mrežne stranice, glazbe, slike, filma, animacije)
 • Praška ovisnosna banka stabala baza podataka koja sadržava veliku količinu teksta na češkome jeziku kojemu su pridružene složene i međusobno povezane morfološke, sintaktičke i semantičke oznake. https://ufal.mff.cuni.cz/pdt2.0/browse/
 • preklapanje n-grama (engl. n-gram overlap) metoda kojom se provjerava preklapanje istih n-grama u različitim dokumentima
 • pretraživač (engl. search engine) računalni progam s pomoću kojega se pretražuju informacije na internetu

 • računalna lingvistika > računalno jezikoslovlje
 • računalno jezikoslovlje (engl. computational linguistics) interdisciplinarno područje povezano s računalnim modeliranjem prirodnoga jezika, temeljenim na statistici ili pravilima, kao i s proučavanjem odgovarajućih računalnih pristupa jezičnim pitanjima
 • različnica (engl. type) pojedinačna riječ koja se razlikuje od druge riječi (npr. u korpusu riječ koja se bilježi samo pri prvome pojavljivanju jer se sa svakim sljedećim pojavljivanjem smatra pojavnicom), jedinstveni oblik pojavnice iz korpusa
 • reduplikacija (engl. reduplication) ponavljanje primjera u korpusu, npr. zbog navođenja antonim: deduplikacija
 • REFER prvi sustav koji je nastao u Institutu za njemački jezik (Institut f ür Deutsche Sprache) za rad s upitnim jezicima koji se upotrebljavaju za dohvaćanje podataka iz korpusa
 • regex v. regularni izraz
 • regularni izraz (engl. regular expression) zadani niz znakova čija se kombinacija može upotrijebiti za pronalaženje određenih dijelova teksta, izraz koji se uspostavlja za pretraživanje korpusa s pomoću alata SketchEngine i NoSketchEngine za traženje ciljanih gramatičkih ili leksičkih uzoraka (popis regularnih izraza dostupan je na https://sketchengine.co.uk/documentation/corpus-querying/). Regularni izrazi iz SketchEngineova kalendara za 2018.:


 • rječnička matrica (engl. dictionary matrix) jedinstvena sveobuhvatna rječnička struktura nastala opsežnim povezivanjem ključnih strukturnih elemenata u različitim vrstama rječnika, usmjerena na (izravno ili neizravno) povezivanje postojećih leksikografskih izvora na razini natuknice, ali i na razni ostalih strukturnih elemenata, pa tako i na značenjskoj razini putem BabelNeta (jedan od koraka u projektu Elexis koji dalje vodi stvaranju matričnoga rječnika)
 • rječnički članak (engl. entry) članak u kojemu se nalazi obrada pojedine natuknice
 • rječnički portal (engl. dictionary portal, aggregator) (rječničke) mrežne stranice koje omogućuju pristup drugim rječničkim mrežnim stranicama
 • rječnik otvorenoga pristupa (engl. open source dictionary) rječnik dostupan tza opću uporabu, rječnik utemeljen na kodu kojim se svi mogu služiti sinonim: rječnik slobodnoga pristupa, slobodno/besplatno dostupan rječnik
 • ReLDI (Regional Linguistic Data Initiative) mreža istraživača koji se bave jezikom, rezultat dvogodišnjega institucijskoga partnerstva znanstvenih organizacija u Švicarskoj, Srbiji i Hrvatskoj u okviru programa SCOPES Švicarske nacionalne fondacije za znanost
 • reprezentativni korpus (engl. representative corpus) korpus koji veličinom i kvalitetom obuhvaća mnogo mogućnosti za obradu riječi i rečenica koje su potrebne korisniku; reprezantativnost se uglavnom određuje s obzirom na veličinu i sadržaj korpusa te kako se tekstovi iz tih sadržaja dohvaćaju za izradu jezičnih uzoraka ( engl. sampling)
 • responzivni rječnik (engl. responsive dictionary) rječnik koji se može pregledavati na različitim računalnim uređajima te na različitim mrežnim preglednicima
 • retrodigitalizacija (engl. retrodigitization) prenošenje nedigitalnih podataka (npr. iz tiskanih knjiga, snimaka, filmova) u digitalni oblik
 • rudarenje podataka (engl. data mining) > crpenje podataka

 • semantic role labeling (SRL) > označivanje semantičkih uloga
 • semantička mreža (engl. semantic web) skup značenja i pojmova koji su u nekoj mjeri povezani sa središnjim značenjem
 • sinonimni skup (eng. synset) skup sinonima međusobno zamjenjivih u najmanje jednome kontekstu
 • sinskup (eng. synset) > sinonimni skup
 • sloWaC (Slovenski mrežni korpus) lematiziran i morfološki označen korpus slovenskoga jezika; inačica 2.0. sadržava 1,2 milijarde pojavnica http://nlp.ffzg.hr/resources/corpora/srwac/
 • SketchEngine računalna podrška za upravljanje korpusima i tekstnu analizu koju je razvio lexical Computing Limited
 • SketchGrammar > gramatika skica
 • skice riječi (engl. WordSketches) sažetak gramatičkoga i kolokacijskoga opisa riječi utemeljen na gramatici skica
 • Skoleordbog danski školski rječnik, pristup se plaća, namijenjen je učenicima osnovne škole, natuknice su obogaćene slikama i zvučnim zapisima http://skoleordbog.dk/
 • specijalizirani korpus > specijalni korpus
 • specijalni korpus (engl. specialized corpus) korpus koji (za razliku od općega korpusa) obuhvaća samo jedan jezični varijetet odabran po određenim kriterijima, npr. stručni korpusi (korpusi stručnih tekstova)
 • SRL (semantic role labeling) > označivanje semantičkih uloga
 • srWac (Srpski mrežni korpus) lematiziran i morfološki označen korpus srpskoga jezika; inačica 1.0. sadržava 894 milijuna pojavnica http://nlp.ffzg.hr/resources/corpora/srwac/
 • stablo parsema v. parsemsko stablo
 • strojno učenje (engl. machine learning) učenje računala da izvrše automatske radnje te ih s vremenom usavršavaju na temelju unesenih podataka koje koriste za učenje njihova izvođenja
 • struktura stabla (engl. T-structure, tree-structure) hijerarhijska struktura podataka u kojoj su elementi povezani s drugim elementima koji se mogu nalaziti iznad, ispod ili do njih; veze između elemenata zovu se grane; struktura podatka najčešće je hijerarhijski ustrojena od jednoga gornjeg elementa (korijena) koji se dalje dijeli na podelemente koji dalje mogu imaju svoje podelemente

 • synset > sinonimni skup
 • Svenska Akademiens ordbok povijesni rječnik koji opisuje švedski jezik od 1521. do današnjih dana, mrežna verzija tiskanoga rječnika koji izdaje Švedska akademija, a trenutačno obuhvaća 37 svezaka u kojima su obrađene natuknice avret https://svenska.se/
 • Svenska Akademiens ordlista popis švedskih riječi s podatcima o njihovu pisanju, oblicima, izgovoru te osnovnim podatcima o značenju koji izdaje Švedska akademija https://svenska.se/
 • Svensk ordbok jednojezični rječnik suvremenoga švedskog jezika, mrežna verzija tiskanoga rječnika koji je Švedska akademija izdala 2009. godine https://svenska.se/
 • SW (Semantic Web) > semantička mreža

 • T-structure (tree-strucutre) > struktura stabla
 • tag (engl. tag) 1. oznaka koja se pridružuje pojavnici u korpusu, 2. oznaka kojom se označuje da pojavnica pripada određenoj vrsti riječi
 • tager (engl. tagger, POS tagger) dio programske podrške koji pridružuje identifikacijsku ili klasifikacijsku oznaku dijelovima teksta ili podatcima
 • tagiranje (engl. tagging, POS tagging, part-of-speech tagging, POST) 1. označavanje pojavnica u tekstu (korpusu), 2. > gramatičko tagiranje
 • tagirati (engl. to tag) 1. označiti/označavati pojavnice u tekstu (korpusu), 2. označiti/označavati riječ u tekstu (korpusu) kao pripadnicu određene vrste riječi, pridružiti/pridruživati oznake za vrstu riječi pojavnicama u korpusu, identificirati vrstu riječi i oblike pojedinih riječi
 • TEI (Text Encoding Iniciative) konzorcij koji razvija i održava standard za prikazivanje tekstova u digitalnome obliku; u njegovim smjernicama određene su metode kodiranja strojno čitljivih tekstova, stoga se primjenjuju u humanističkim i društvenim znanostima (a posebno u jezikoslovlju) http://www.tei-c.org/index.xml
 • tezaurus (engl. thesaurus) zbirka riječi prirodnoga jezika (općega i/ili stručnoga) s prikazom njihovih pojmovnih odnosa
 • TickBox Lexicography SketchEngineov alat koji omogućuje da se primjeri pritiskom miša umeću iz skica riječi u program za obradu rječnika
 • TLex (TshwaneLex) paket programskih aplikacija s velikim brojem funkcija koji služi za izradu rječnika http://tshwanedje.com/tshwanelex/
 • treebank > banka stabala
 • TshwaneLex v. TLex
 • token > pojavnica

 • umjetna inteligencija (engl. artificial intelligence) područje računalne znanosti koje se bavi izradom programa i sustava koji mogu automatski izvršavati zadatke za koje je potreban neki oblik inteligencije, tj. koji se mogu snalaziti u novim prilikama, učiti nove pojmove, donositi zaključke, razumjeti prirodni jezik, raspoznavati prizore i dr.
 • univerzalna ovisnost (engl. universal dependencies) platforma za unakrižnu jezično konzistentnu gramatičku anotaciju koja omogućuje zajednički rad većega broja suradnika
 • unutarrječničko povezivanje (engl. cross-referencing) povezivanje rječničkih članaka ili dijelova rječničkih članaka unutar rječnika s pomoću poveznica
 • usporedni korpus (engl. parallel corpus) dvojezični ili višejezični korpus koji sadržava niz tekstova na dva ili više jezika; važan alat za istraživanje nazivlja,kontrastivnu jezikoslovnu analizu, definiranje prijevodnih ekvivalenata, sastavljanje dvojezičnih i višejezičnih rječnika
 • upitni jezik (engl. query language) računalni jezik koji se upotrebljava za prikupljanje određenih podataka iz baze podatka ili infromacijskoga sustava

 • vikifikacija (engl. wikification) prepoznavanje i povezivanje riječi u tekstu sa postojećim mrežnim člancima na Wikipediji
 • višerazinska anotacija (engl. multi-level annotation) anotacija koja obuhvaća više jezičnih razina
 • višeslojna anotacija (engl. multi-layer annotation) > višerazinska anotacija
 • vizualni rječnik (engl. visual dictionary) rječnik koji značenje riječi objašnjava slikama, koji sadržava ilustracije ili crteže

 • WebAnno mrežni program za višeslojnu jezičnu anotaciju (morfološku, sintaktičku i semantičku); moguće odrediti i dodatni sloj za vlastite potrebe, koji ne mora biti jezični https://webanno.github.io/webanno/
 • wikification v. vikifikacija
 • word embedding tehnike u obradi prirodnog jezika u kojima se riječi ili izrazi prikazuju kao vektori realnih brojeva
 • Wikifier mrežni servis koji obrađuje unesen ili učitan tekst tako što stvara mrežne poveznice na članke za Wikipediji za riječi koje se u njemu spominju (za jezik na kojemu je unesen i za još jedan jezik po izboru) http://wikifier.org/
 • Wiktionary Wikimedijin mrežni višejezični internetski suradnički projekt u okviru kojega se stvara rječnik slobodnoga sadržaja dostupan na više od 150 jezika; uključuje i hrvatski Wječnik
 • Wiki-rječnik v. Wječnik
 • Wječnik hrvatski internetski rječnik nastao u okviru projekta Wiktionary u okviru kojega se stvara rječnik slobodnoga sadržaja dostupan na više od 150 jezika
 • WordNet velika mrežno dostupna rječnička baza engleskoga jezika; temelji se na okupljanju četiriju vrsta riječi (imenica, pridjeva, glagola i priloga) u skupine kognitivnih sinonima; struktura baze upućuje na odnose među riječima, i to uglavnom među riječima koje pripadaju istoj vrsti riječi (npr. hiperonimiju/hiponimiju, meronimiju, antonimiju itd.) https://wordnet.princeton.edu/
 • WordSketches > skice riječi

 • xml (EXtensible Markup Language) jednostavno čitljiv standardizirani jezik za označivanje podataka

 • ZDL (Zentrum für digitale Lexikographie der deutschen Sprache)
 • Zentrum für digitale Lexikographie der deutschen Sprache (ZDL, Centar za digitalnu leksikografjiu njemačkoga jezika) projekt pokrenut 2019. godine s ciljem izrade digitalnoga informacijskog sustava koji bi iscrpno i pouzdano opisivao povijesni i suvremeni leksik njemačkoga jezika; suorganizatori su njemačke akademije znanosti u Berlinu, Göttingenu, Leipzigu i Mainzu https://www.zentrum-lexikographie.de/