Pojmovnik


  • Afrilex (African Association for Lexicography) Afrička udruga za leksikografiju http://afrilex.africanlanguages.com
  • AHlib digitalna zbirka slovenske prijevodne književnosti od 1848. do 1918. godine https://repozitorij.uni-lj.si/IzpisGradiva.php?id=52855
  • AI (engl. artificial intelligence) > umjetna inteligencija
  • algoritmi za gramatičko tagiranje (engl. part-of-speech tagging algorithms) algoritmi s pomoću kojih se provodi gramatičko tagiranje, odnosno s pomoću kojih se pridružuju oznake za vrstu riječi pojavnicama u korpusu
  • anotacija (engl. anotation) dodavanje jezičnih informacija elektroničkomu korpusu govornoga ili pisanoga jezika.
  • ANW (Algemeen Nederlands Woordenboek) opsežan znanstveni mrežni rječnik suvremenoga nizozemskog jezika sastavljen u Institutu za nizozemski jezik http://anw.inl.nl
  • Asialex (The Asian Association for Lexicography) Azijska udruga za leksikografiju http://www.asialex.org/
  • Australex (Australasian Association for Lexicography) Australazijska udruga za leksikografiju https://www.adelaide.edu.au/australex/

  • BabelNet višejezična semantička mreža i ontologija stvorena automatski povezivanjem Wikipedije s najpopularnijim računalnim leksikonom engleskoga jezika WordNetom https://en.wikipedia.org/wiki/BabelNet
  • banka stabala (engl. treebank) parsirani tekstni korpus koji ima označenu sintaktičku (sintaktička banka stabala) i semantičku (semantička banka stabala) strukturu rečenica


  • Canoonet gramatika, rječnik i jezični savjeti (Fragen Sie Dr. Bopp) za njemački jezik http://www.canoo.net/

  • CJVT (Center za jezikovne vire in tehnologije) znanstvena ustanova Sveučilišta u Ljubljani koja se bavi istraživanjima povezanim s digitalnim jezičnim izvorima i jezičnim tehnologijama za suvremeni slovenski jezik https://www.cjvt.si/en/
  • CL (engl. computational linguistics) > računalno jezikoslovlje
  • CLARIN (Common Language Resources and Technology Infrastructure) europska istraživačka infrastruktura za jezične izvore i tehnologiju koja digitalne jezične izvore čini dostupnima znanstvenicima, istraživačima i studentima svih disciplina, posebice u humanističkim i društvenim znanostima https://www.clarin.eu/
  • CMC (engl. computer-mediated communication) komunikacija koja se odvija uporabom jednoga ili više elektroničkih uređaja na mreži
  • CroDeriV morfološki leksikon hrvatskih glagola koji obuhvaća oko 14 500 glagola rastavljenih na leksičke i tvorbene morfeme; glagoli istoga korijena međusobno su povezani te je uspostavljena opća morfološka struktura primjenjiva na sve hrvatske glagole (četiri mjesta za prefikse s desne i tri mjesta za sufikse s lijeve strane leksičkoga morfema)
  • CroWN (Croatian Wordnet) > Hrvatski Wordnet
  • Cosmas II sustav za pretragu i analizu korpusa i upravljanje njime (upotrijebljen npr. pri izradi elexika)

  • crpenje naziva (engl. terminology extraction) postupak pronalaženja naziva određene struke u korpusu
  • crpenje podataka (engl. data mining) razvrstavanje, organiziranje ili okupljanje velikoga broja podataka i izvlačenje relevantnih informacija, proces pronalaženja korisnih informacija u velikoj količini podataka

  • DARIAH-ERIC (Digital Research Infrastructure for the Arts and Humanities – European Research Infrastructure Consortium) digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti, uključena u Europski konzorcij za istraživačku infrastrukturu (ERIC); zapravo je riječ o DARIAH-EU-u, koji je od 2014. godine pripao pod ERIC (European Research Infrastructure Consortium), pa se otad često (ali ne redovito) tako navodi
  • DARIAH-EU (Digital Research Infrastructure for the Arts and Humanities – European Union) sveeuropska digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti https://www.dariah.eu/
  • DARIAH-HR digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti u Republici Hrvatskoj http://dariah.hr/hr/naslovnica/
  • Das Digitale Wörterbuch der deutschen Sprache (DWDS) digitalni rječnički sustav u izradi koji se u trenutačno temelji na njemačkome rječniku Wörterbuch der deutschen Gegenwartssprache (WDG), čija se građa obogaćuje podatcima iz opsežnih tekstnih korpusa i drugih izvora prikupljenih u svrhu projekta; projekt se provodi u sklopu Centra za digitalnu leksikografiju njemačkoga jezika (ZDL) https://www.dwds.de/
  • data mining > crpenje podataka
  • DeReKo (Das Deutsche Referenzenkorpus) Njemački korpus referencija http://www1.ids-mannheim.de/kl/projekte/korpora/
  • DH (engl. digital humanities) > digitalna humanistika
  • digitalizacija (engl. digitization) pretvorba teksta, slike, zvuka, pokretnih slika (filmova i videa) ili trodimenzijskoga oblika nekoga objekta u digitalni oblik, računalnu datotetku koja se može obrađivati, pohranjivati ili prenositi računalima i računalnim sustavima
  • digitalna humanistika (engl. digital humanities, DH) znanstveno područje koje se bavi primjenom računalnih ili digitalnih tehnologija u humanističkim znanostima
  • DSNA (Dictionary Society of North America) Sjevernoameričko leksikografsko društvo http://www.dictionarysociety.com/
  • DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz) Njemački istraživački centar za umjetnu inteligenciju https://www.dfki.de/web
  • DWDS (Das Digitale Wörterbuch der deutschen Sprache)
    https://www.dwds.de/

  • ekstrakcija podataka (engl. extraction of data) postupak analize i prikupljanja određenih podataka iz jednoga ili više različitih podatkovnih izvora (najčešće baza podataka) kako bi se došlo do relevantnih informacija
  • elektronički rječnik (engl. electronic dictionary, e-dictionary) rječnik u digitalnome obliku
  • eLex konferencija o e-leksikografiji koja se održava svake druge godine https://elex.link/
  • elexiko jednojezični mrežni rječnik izrađen u Institutu za njemački jezik u Mannheimu http://www1.ids-mannheim.de/
  • Elexis (European Lexicographic Infrastructure) Europska leksikografska infrastruktura

  • eNel (European Network of e-Lexicography) COST-ova akcija Europska e-leksikografska mreža, čiji je cilj utemeljiti europsku mrežu leksikografa kako bi se strukturirano odgovorilo na izazove e-leksikografije http://www.elexicography.eu/
  • e-rječnik v. elektronički rječnik
  • EURALEX (European Association for Lexicography) Europska udruga za leksikografiju; udruga za stručnjake iz cijeloga svijeta koji se bave leksikografijom i s njom povezanim područjima; konferencije se održavaju svake druge godine https://euralex.org/
  • Europski rječnički portal portal koji po unaprijed određenim kriterijima okuplja kvalitetne mrežne rječnike europskih jezika te pomaže korisnicima stranice da ih lakše pronađu; portal održavaju stručnjaci Europske mreže za e-leksikografiju http://www.dictionaryportal.eu/hr/


  • FIDA korpus slovenskoga jezika sastavljen od tekstova iz različitih izvora nastalih između 1990. i 2000. godine koji sadržava 100 milijuna pojavnica
  • FidaPLUS nadogradnja korpusa slovenskoga jezika FIDA; dodatno su prikupljeni tekstovi nastali do 2006. koji uključuju društvene mreže, novine, blogove i književna djela; sadržava oko 600 milijuna pojavnica; naslijedio ga je korpus Gigafida
  • FrameNet leksička baza podataka engleskoga jezika sa slobodnim pristupom utemeljena na primjerima uporabe riječi u stvarnim tekstovima; građa je organizirana u više od 1200 semantičkih okvira https://framenet.icsi.berkeley.edu/fndrupal/
  • FRENK projekt koji povezuje suvremene kvantitativne i kvalitativne višedisciplinske pristupe (metode korpusnoga jezikoslovlja, kritičku analizu diskursa, pravnu analizu i metode sociološkoga istraživanja) kako bi se istražila uporaba i percepcija društveno neprihvatljivoga oblika komunikacije u društvenome i kulturnome kontekstu http://nl.ijs.si/frenk/

  • GALA (Globalization and Localization Association) svjetska neprofitna udruga za jezičnu industriju https://www.gala-global.org/
  • GDEX (Good Dictionary Examples) alat ugrađen u SketchEngine koji omogućuje pronalaženje dobrih primjera u korpusu; dobrim se primjerom smatra primjer koji je tipičan, ilustrativan, primjerene duljine i puna rečenica; ovisno o načelima obrade leksikografi prilagođuju primjere pronađene u korpusu, ali mogućnost automatskoga odabira dobrih primjera olakšava rječničku obradu
  • Gigafida korpus slovenskih tekstova koji pripadaju različitim funkcionalnim stilovima i žanrovima; uključuje tekstove iz novina i časopisa, knjiga i udžbenika, s mrežnih stranica, transkripte parlamentarnih rasprava itd.; sadržava oko 1,2 milijarde pojavnica https://www.cjvt.si/gigafida/

  • Gigafida 2.0 nadograđena inačica korpusa Gigafida; dodani su tekstovi poput školske literature i odabranih književnih djela; sadržava oko 1,5 milijardi riječi te je korpus također razvijen na tehničkoj razini, što omogućuje uklanjanje duplikata tekstova, poboljšava točnost jezičnoga označavanja i odvajanje tekstova na standardnome jeziku od ostalih tekstova
  • Globalex udruga stručnjaka koji se bave izradom rječnika i drugih jezičnih izvora; inicijativa je pokrenuta 2015. godine na konferenciji eLex u Ujedinjenome Kraljevstvu te uključuje predstavnike svih udruga za leksikografiju utemeljenih na različitim kontinentima: afričku (Afrilex), azijsku (Asialex), australazijsku (Australex), europsku (Euralex) i sjevernoameričku (DSNA); cilj je Globalexa olakšati razmjenu znanja i suradnju između svojih članova i drugih koje zanimaju jezikoslovlje i jezične tehnologije, promicati stvaranje, istraživanje, razmjenu, diseminaciju, integraciju i uporabu leksikografskih izvora i rješenja https://globalex.link/
  • GOS (Korpus GOvorjene Slovenščine) korpus govornoga slovenskog jezika, koji sadržava transkripcije govora u različitim situacijama (radijskih i televizijskih emisija, predavanja, razgovora u krugu prijatelja i obitelji, sastanaka itd.); korpus je nastao u okviru projekta Sporazumevanje v slovenskem jeziku
    http://www.korpus-gos.net/
  • gramatičko tagiranje (engl. part-of-speech tagging) pridruživanje oznake za vrstu riječi pojavnicama u korpusu
  • gramatika skica (engl. Sketch Grammar) jezični opis na kojemu se temelje skice riječi za određeni jezik; nastaje pretpostavljanjem podataka potrebnih za jezični opis ili leksikografsku obradu i testiranjem rezultata; niz pravila kojima se traže kolokacije u tekstnome korpusu te se kategoriziraju prema gramatičkim odnosima, npr. objektima, subjektima, modifikatorima itd.; piše se u jeziku CQL, a rezultat se prikazuje u obliku skica riječi u sučelju SketchEngine
  • govoreni korpus > govorni korpus
  • govorni korpus korpus koji sačinjavaju zvučni zapisi te prijepisi spontanoga govora

  • hipertekst (engl. hypertext) tekstna struktura koja se sastoji od međusobno povezanih jedinica informacije (engl. node) prikazana na elektroničkome uređaju; hipertekst nema jedinstven redoslijed čitanja, nego ga čitatelj dinamički određuje, tj. određuje ga tijekom čitanja
  • HLT (engl. human language technology) > jezične tehnologije
  • HOBS (Hrvatska ovisnosna banka stabala engl. Croatian Dependancy Treebank)
  • hrLex hrvatski morfološki leksikon http://nlp.ffzg.hr/resources/lexicons/hrlex/
  • HNK (Hrvatski nacionalni korpus) v. Hrvatski nacionalni korpus
  • HR4EU mrežni portal namijenjen strancima koji uče hrvatski jezik izrađen u Zavodu za lingvistiku na projektu koji financira Europska unija u okviru Europskoga socijalnog fonda.
  • Hrvatska ovisnosna banka stabala (HOBS, engl. Croatian Dependancy Treebank) dva korpusa Hrvatskoga nacionalnoga korpusa (prvi je dio novinskoga potkorpusa – tjednik Croatia Weekly, drugi uključuje 500 rečenica iz tečajeva za hrvatski jezik dostupnih na portalu HR4EU)označena na morfosintaktičkoj i ovisnosnoj razini te na razini semantičkih uloga
  • Hrvatska jezična riznica korpus Instituta za hrvatski jezik i jezikoslovlje http://riznica.ihjj.hr
  • Hrvatski lematizacijski poslužitelj mrežni program za pretraživanje Hrvatskoga morfološkoga leksikona i njegovu uporabu u računalnojezikoslovnim postupcima: pri generiranju i prepoznavanju oblika hrvatskih riječi, tj. svođenju na osnovni oblik (lematiziranju)
  • Hrvatski morfološki leksikon baza koja se sastoji od više od 45 000 riječi općega jezika, 15 000 osobnih muških i ženskih imena i 50 000 prezimena registriranih u Republici Hrvatskoj te 3 900 000 njihovih oblika; morfosintaktički opisi usklađeni su s MulTextEast v 3.0 preporukama za hrvatski jezik
  • Hrvatski jezični portal javno dostupna rječnička baza hrvatskoga jezika, zajednički projekt nakladničke kuće Znanje i Srca; uključuje 116 516 natuknica http://hjp.znanje.hr/
  • Hrvatski mrežni korpus v. hrWaC
  • Hrvatski nacionalni korpus (HNK) jedan od triju korpusa hrvatskoga jezika (uz hrWaC i Hrvatsku jezičnu riznicu); obaseže više od 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno; za pretraživanje HNK-a potreban je slobodno dostupan program Bonito
  • Hrvatski Wordnet (CroWN) semantička mreža hrvatskoga jezika koja slijedi strukturu prinstonskoga WordNeta i povezana je s njegovom inačicom 3.0; temelj organizacije CroWN-a sinonimni su skupovi
  • hrWaC (Hrvatski mrežni korpus) lematiziran i na morfosintaktičkoj razini označen korpus hrvatskoga jezika; inačica 2.1. sadržava 1,4 milijarde pojavnica http://nlp.ffzg.hr/resources/corpora/hrwac/
  • html (HTML, Hypertext Markup Language) standardizirani jezik za označavanje podataka, koji se primjenjuje za stvaranje mrežnih stranica i mrežnih aplikacija


  • jezične tehnologije (engl. language tehnology) tehnologije koje uključuju obradu prirodnoga jezika (NLP) i računalno jezikoslovlje te govorne tehnologije; sinonim: LT, HLT
  • jezični alati (engl. linguistic tools) programi koji se razvijaju na temelju jezičnih izvora kao ishodišnih podataka te obrađuju postojeće jezične izvore ili služe za stvaranje novih jezičnih izvora; omogućuju jednostavniju, bržu i jeftiniju uporabu prirodnoga jezika u računalnome okružju
  • jezični izvori (engl. language resources) digitalno su usustavljena i pretraživa jezična građa koja dolazi u dva oblika: a) kao korpusi, tj. zbirke tekstova na jednome ili više jezika koje služe kao znatna količina jezičnih podataka za temeljna istraživanja o jeziku/jezicima i njihovim međuodnosima te b) kao digitalni rječnici, lako dostupni i pretraživi mrežno ili izvanmrežno; na temelju jezičnih izvora kao ishodišnih podataka razvijaju se jezični alati koji ili obrađuju postojeće jezične izvore ili služe za stvaranje novih jezičnih izvora
  • jezični resursi > jezični izvori
  • JT v. jezične tehnologije
  • JSON (Java Script Object Notation) datoteka koja omogućuje organiziranu pohranu informacija u zagradama, a informacije se mogu poslije lako i brzo učitati na mrežnim stranicama; u nekim se slučajevima može upotrijebiti kao zamjena za XML datoteke

  • kanonski oblik (engl. canonical form) osnovni oblik riječi u kojemu se u pravilu uspostavlja rječnička natuknica; za imenice to je nominativ jednine, za glagole infinitiv, za pridjeve nominativ jednine muškoga roda itd.; ako se riječ nikad ne pojavljuje u kanonskome obliku, zapisuje se u najtipičnijemu, kanonskomu obliku najbližemu obliku, npr. se
  • Klexicon (Kinder lexicon) Wikipedia za djecu https://klexikon.zum.de/wiki/Klexikon
  • konkordancija (engl. concordance) popis riječi sa svim oblicima u kojima se pojavljuju zajedno s kontekstom i oznakom izvora, koji se nalaze u nekome korpusu
  • kolokacija (engl. collocation) skup od najmanje dvije punoznačne riječi koje se često pojavljuju zajedno
  • konkordanca (engl. concordance) > konkordancija
  • konkordancer (engl. concordancer) računalni program koji automatski konkordira tekst
  • konkordansa (engl. concordance) > konkordancija
  • Kookurenz analyse alat za pretragu teksta (upotrijebljen pri izradi elexika)
  • korpus (engl. corpus) zbirka tekstova prirodnoga jezika sastavljena po određenome kriteriju, skup jezičnih odsječaka (tekstova) koji su odabrani i skupljeni prema jasnim jezikoslovnim kriterijima radi dobivanja određenoga jezičnog uzorka
  • korpus standardnoga jezika korpus tekstova pisanih standardnim jezikom
  • korpusno utemeljen rječnik (engl. corpus based dictionary) rječnik u kojemu se obrađivač služi korpusom, ali može slobodno procijeniti što treba unijeti u rječnik te rječnik može po potrebi dopunjavati i riječima iz drugih izvora te kolokacijama i značenjima koji nisu potvrđeni u korpusu
  • korpusom vođen rječnik (engl. corpus driven dictionary) rječnik u kojemu se obrađivač služi isključivo korpusom pa se u rječniku nalazi samo ono što se nalazi u korpusu
  • korpusna lingvistika v. korpusno jezikoslovlje
  • korpusno jezikoslovlje (engl. corpus linguistics) grana jezikoslovlja koja se bavi jezičnom analizom strojno izrađenih korpusa pisanoga ili govornoga jezika
  • Kres korpus slovenskoga jezika nastao unutar projekta Komunikacija na slovenskome jeziku u razdoblju od 2008. do 2012. godine; sadržava gotovo 100 milijuna pojavnica http://www.korpus-kres.net/Support/About

  • lema (engl. lemma) kanonski oblik riječi (u morfologiji i leksikografiji), kanonski oblik pojavnice (u korpusnome jezikoslovlju), tagirana vrijednost
  • lematiziranje (engl. lemmatization, lemmatisation) uspostava kanonskoga oblika pojavnice
  • lematizirati (engl. to lemmatize) uspostavljati kanonski oblik pojavnice
  • Lexin 1. rječnik namijenjen strancima koji uče švedski, postoji jednojezična varijanta te dvojezične kombinacije za određene jezike; postoje poveznice sa slikovnim prikazima za određene riječi i teme https://lexin.nada.kth.se/lexin/; 2. rječnik namijenjen strancima koji uče norveški http://lexin.udir.no/
  • Linguistic Linked Open Data (LLOD) pokret vezan za izdavanje jezičnih izvora i programa za jezikoslovce i obrađivače prirodnoga jezika koji moraju bit izdani pod licencijom zajedničkoga kreativnog dobra (engl. Creative Commons ili CC), biti dostupni preko jedinstvene mrežne adrese, koristiti se suvremenim mrežnim standardima za podjelu resursa (HTML, RDF, JSON) te nuditi poveznice na druge korisne sadržaje http://linguistic-lod.org/llod-cloud
  • link > poveznica
  • LLOD > Linguistic Linked Open Data
  • LOD (engl. linked open data) 1. tip povezanih podataka (Linked Data) koji se objavljuje pod otvorenom licencijom, 2. metoda objavljivanja strukturiranih podataka koja omogućuje uzajamno povezivanje
  • LT (engl. language technology) > jezične tehnologije
  • LT Advisor GALA-ina platforma za opis jezičnih tehnologija, ocjene i oglede

  • Metanet javno mrežno dostupna baza konceptualnih i jezičnih metafora, metonimija te predodžbenih shema, kognitivnih primitiva i semantičkih okvira hrvatskoga jezika s pripadajućim leksičkim jedinicama https://metafora.ihjj.hr:8443/Metafore/
  • mrežni repozitorij (engl. web repository) računalni sustav za pohranu, preuzimanje, čuvanje, odabir i izlučivanje podataka na mreži
  • mrežni rječnik (engl. web-born dictionary) rječnik izvorno osmišljen za mrežnu platformu, što uključuje lakše međusobno povezivanje unutarrječničkoga sadržaja (cross-referencing) i rječničkoga sadržaja s drugim mrežnim sadržajima, unošenje u rječnik sadržaja poput audiozapisa i videozapisa te mogućnost komunikacije s korisnicima koji mogu biti i aktivni sudionici u stvaranju rječničkoga sadržaja
  • MSD (morfo-syntactic description) > morfosintaktički opis

  • n-gram sekvencija određene duljine koju sačinjavaju znakovi ili riječi koje se pojavljuju unutar teksta; pri radu s korpusima n-grami se odnose na sekvencije riječi; unigram je jedna riječ, bigram je sekvencija od dvije riječi, trigram je sekvencija od tri riječi itd.
  • n-gram overlap > preklapanje n-grama
  • nacionalni korpus (engl. national corpus) 1. opći korpus koji uključuje velik broj tekstova reprezentativnih za određeni jezik, 2. v. opći korpus
  • NER (Named-entity recognition) računalni proces u kojem se pronalaze, pohranjuju i sortiraju dijelovi teksta u određene zadane kategorije (npr. u neobrađenomu tekstu pronalaze se sva imena te automatski izdvajaju u kategorije imena ljudi, imena mjesta, imena tvrtki itd.)
  • NLP (engl. natural language processing) > obrada prirodnih jezika
  • NoSketchEngine javno dostupan alat za pretraživanje korpusa s pomoću kojega se može pretraživati korpus hrWaC
  • Nova beseda govorni korpus slovenskoga jezika koji se izrađuje na Inštitutu za slovenski jezik Frana Ramovša u Ljubljani

  • obrada prirodnih jezika (engl. natural language processing) 1. jezikoslovno područje usmjereno na interakciju između prirodnoga jezika i računalâ; analiza i razumijevanje složenih jezičnih izraza prirodnoga jezika s pomoću računala; primjenom obrade prirodnih jezika moguće je ostvariti različite zadaće (npr. automatsko sažimanje, prevođenje, prepoznavanje glasa, segmentacija tema itd.), 2. računalno jezikoslovlje
  • odostražni rječnik (engl. reverse dictionary) rječnik u kojemu su riječi abecedirane od kraja; odostražni rječnik Rückläufiges Wörterbuch des Serbokroatischen (1965. – 1967.) mrežno je dostupan na https://www.uibk.ac.at/slawistik/institut/matesic.html. Demoinačica odstražnoga rječnika naziva za vršitelje/vršiteljice radnje (https://borna12.gitlab.io/odostraznji-mz/, izradio Josip Mihaljević):


  • odostražnik v. odostražni rječnik
  • opći korpus (engl. general corpus) korpus koji je reprezentativan za jezik u cjelini, koji se sastoji od tekstova koji pripadaju različitim tekstnim vrstama, područjima i stilovima
  • OWID (Online-Wortschatz-Informationssystem Deutsch) portal za znanstvenu korpusno utemeljenu leksikografiju IDS-a (uključena i bibliografija e-leksikografskih djela i mrežnih rječnika) https://www.owid.de/
  • Oxygen program za rječničku obradu (upotrijebljen npr. pri izradi elexika)
  • označavanje korpusa v. tagiranje
  • označivanje semantičkih uloga (engl. semantic role labeling) proces u prirodnoj obradi jezika u kojemu se označava semantička uloga riječi ili izraza u rečenici (npr. agent, cilj i rezultat)

  • paralelni korpus > usporedni korpus
  • Parlametar alat koji s pomoću analize glasa i transkripata zastupničkih nastupa olakšava praćenje rada Hrvatskoga sabora https://parlametar.hr/
  • parsiranje (engl. parsing) raščlanjivanje rečenice u računalnoj obradbi jezika
  • parsirati (engl. to parse) raščlaniti rečenicu u računalnoj obradbi jezika
  • parser (engl. parser) računalni program za analizu rečenice do osnovnih sintaktičkih kategorija ili do riječi
  • parsemsko stablo (engl. parse tree) prikaz raščlanjene rečenice u obliku stabla u računalnoj obradbi jezika
  • PARSEME (PARSing and Multi-word Expressions) interdisciplinarna znanstvena mreža usmjerena na ulogu višerječnih jedinica (MWE – multiword expression) u parsiranju, cilj joj je poboljšati računalnu učinkovitost obrade prirodnoga jezika
  • PDF (Portable Document Format) format u kojemu dokument čuva sve značajke otisnutoga dokumenta u obliku e-slike
  • podatkovno rudarenje (engl. data mining) > crpenje podataka
  • pojavnica (engl. token) sve što se nalazi između dva znaka koja služe kao graničnici (svako individualno pojavljivanje); svaka pojava jezične jedinice u korpusu, na razini riječi svaki oblik uključen u leksem
  • POS tagging (part-of-speech tagging) > gramatičko tagiranje
  • POS tagging algoritmi > algoritmi za gramatičko tagiranje
  • POST (part-of-speech tagging) > gramatičko tagiranje
  • potkorpus (engl. subcorpus) izdvojeni dio korpusa koji može bit određen na temelju tematskih sadržaja, medija (govorni ili pisani potkorpus), vremenu nastanka teksta, izvora itd.; upotrebljava se za lakšu organizaciju sadržaja u korpusu
  • poveznica (engl. link) veza između dviju mrežnih stranica; veza između hipertekstnoga sadržaja i kojega drugog hipertekstnog ili bilo kakva multimedijskoga sadržaja (mrežne stranice, glazbe, slike, filma, animacije)
  • Praška ovisnosna banka stabala baza podataka koja sadržava veliku količinu teksta na češkome jeziku kojemu su pridružene složene i međusobno povezane morfološke, sintaktičke i semantičke oznake. https://ufal.mff.cuni.cz/pdt2.0/browse/
  • preklapanje n-grama (engl. n-gram overlap) metoda kojom se provjerava preklapanje istih n-grama u različitim dokumentima

  • računalna lingvistika > računalno jezikoslovlje
  • računalno jezikoslovlje (engl. computational linguistics) interdisciplinarno područje povezano s računalnim modeliranjem prirodnoga jezika, temeljenim na statistici ili pravilima, kao i s proučavanjem odgovarajućih računalnih pristupa jezičnim pitanjima
  • različnica (engl. type) pojedinačna riječ koja se razlikuje od druge riječi (npr. u korpusu riječ koja se bilježi samo pri prvome pojavljivanju jer se sa svakim sljedećim pojavljivanjem smatra pojavnicom), jedinstveni oblik pojavnice iz korpusa
  • regex v. regularni izraz
  • regularni izraz (engl. regular expression) zadani niz znakova čija se kombinacija može upotrijebiti za pronalaženje određenih dijelova teksta, izraz koji se uspostavlja za pretraživanje korpusa s pomoću alata SketchEngine i NoSketchEngine za traženje ciljanih gramatičkih ili leksičkih uzoraka (popis regularnih izraza dostupan je na https://sketchengine.co.uk/documentation/corpus-querying/). Regularni izrazi iz SketchEngineova kalendara za 2018.:


  • ReLDI (Regional Linguistic Data Initiative) mreža istraživača koji se bave jezikom, rezultat dvogodišnjega institucijskoga partnerstva znanstvenih organizacija u Švicarskoj, Srbiji i Hrvatskoj u okviru programa SCOPES Švicarske nacionalne fondacije za znanost
  • responzivni rječnik (engl. responsive dictionary) rječnik koji se može pregledavati na različitim računalnim uređajima te na različitim mrežnim preglednicima
  • retrodigitalizacija (engl. retrodigitization) prenošenje nedigitalnih podataka (npr. iz tiskanih knjiga, snimaka, filmova) u digitalni oblik
  • rudarenje podataka (engl. data mining) > crpenje podataka

  • semantic role labeling (SRL) > označivanje semantičkih uloga
  • semantička mreža (engl. semantic web) skup značenja i pojmova koji su u nekoj mjeri povezani sa središnjim značenjem
  • sinonimni skup (eng. synset) skup sinonima međusobno zamjenjivih u najmanje jednome kontekstu
  • sinskup (eng. synset) > sinonimni skup
  • sloWaC (Slovenski mrežni korpus) lematiziran i morfološki označen korpus slovenskoga jezika; inačica 2.0. sadržava 1,2 milijarde pojavnica http://nlp.ffzg.hr/resources/corpora/srwac/
  • SketchEngine alat za pretraživanje korpusa koji uključuje module skice riječi i primjeri dobre uporabe; pretraživanje se može obavljati i s pomoću regularnih izraza
  • SketchGrammar > gramatika skica
  • skice riječi (engl. WordSketches) sažetak gramatičkoga i kolokacijskoga opisa riječi utemeljen na gramatici skica
  • Skoleordbog danski školski rječnik, pristup se plaća, namijenjen je učenicima osnovne škole, natuknice su obogaćene slikama i zvučnim zapisima http://skoleordbog.dk/
  • specijalizirani korpus > specijalni korpus
  • specijalni korpus (engl. specialized corpus) korpus koji (za razliku od općega korpusa) obuhvaća samo jedan jezični varijetet odabran po određenim kriterijima, npr. stručni korpusi (korpusi stručnih tekstova)
  • stablo parsema v. parsemsko stablo
  • SRL (semantic role labeling) > označivanje semantičkih uloga
  • srWac (Srpski mrežni korpus) lematiziran i morfološki označen korpus srpskoga jezika; inačica 1.0. sadržava 894 milijuna pojavnica http://nlp.ffzg.hr/resources/corpora/srwac/
  • struktura stabla (engl. T-structure, tree-structure) hijerarhijska struktura podataka u kojoj su elementi povezani s drugim elementima koji se mogu nalaziti iznad, ispod ili do njih; veze između elemenata zovu se grane; struktura podatka najčešće je hijerarhijski ustrojena od jednoga gornjeg elementa (korijena) koji se dalje dijeli na podelemente koji dalje mogu imaju svoje podelemente

  • synset > sinonimni skup
  • Svenska Akademiens ordbok povijesni rječnik koji opisuje švedski jezik od 1521. do današnjih dana, mrežna verzija tiskanoga rječnika koji izdaje Švedska akademija, a trenutačno obuhvaća 37 svezaka u kojima su obrađene natuknice avret https://svenska.se/
  • Svenska Akademiens ordlista popis švedskih riječi s podatcima o njihovu pisanju, oblicima, izgovoru te osnovnim podatcima o značenju koji izdaje Švedska akademija https://svenska.se/
  • Svensk ordbok jednojezični rječnik suvremenoga švedskog jezika, mrežna verzija tiskanoga rječnika koji je Švedska akademija izdala 2009. godine https://svenska.se/
  • SW (Semantic Web) > semantička mreža

  • T-structure (tree-strucutre) > struktura stabla
  • tag (engl. tag) 1. oznaka koja se pridružuje pojavnici u korpusu, 2. oznaka kojom se označuje da pojavnica pripada određenoj vrsti riječi
  • tager (engl. tagger, POS tagger) dio programske podrške koji pridružuje identifikacijsku ili klasifikacijsku oznaku dijelovima teksta ili podatcima
  • tagiranje (engl. tagging, POS tagging, part-of-speech tagging, POST) 1. označavanje pojavnica u tekstu (korpusu), 2. > gramatičko tagiranje
  • tagirati (engl. to tag) 1. označiti/označavati pojavnice u tekstu (korpusu), 2. označiti/označavati riječ u tekstu (korpusu) kao pripadnicu određene vrste riječi, pridružiti/pridruživati oznake za vrstu riječi pojavnicama u korpusu, identificirati vrstu riječi i oblike pojedinih riječi
  • TEI (Text Encoding Iniciative) konzorcij koji razvija i održava standard za prikazivanje tekstova u digitalnome obliku; u njegovim smjernicama određene su metode kodiranja strojno čitljivih tekstova, stoga se primjenjuju u humanističkim i društvenim znanostima (a posebno u jezikoslovlju) http://www.tei-c.org/index.xml
  • tezaurus (engl. thesaurus) zbirka riječi prirodnoga jezika (općega i/ili stručnoga) s prikazom njihovih pojmovnih odnosa
  • TickBox Lexicography SketchEngineov alat koji omogućuje da se primjeri pritiskom miša umeću iz skica riječi u program za obradu rječnika
  • TLex (TshwaneLex) paket programskih aplikacija s velikim brojem funkcija koji služi za izradu rječnika http://tshwanedje.com/tshwanelex/
  • treebank > banka stabala
  • TshwaneLex v. TLex
  • token > pojavnica

  • umjetna inteligencija (engl. artificial intelligence) područje računalne znanosti koje se bavi izradom programa i sustava koji mogu automatski izvršavati zadatke za koje je potreban neki oblik inteligencije, tj. koji se mogu snalaziti u novim prilikama, učiti nove pojmove, donositi zaključke, razumjeti prirodni jezik, raspoznavati prizore i dr.
  • univerzalna ovisnost (engl. universal dependencies) platforma za unakrižnu jezično konzistentnu gramatičku anotaciju koja omogućuje zajednički rad većega broja suradnika
  • unutarrječničko povezivanje (engl. cross-referencing) povezivanje rječničkih članaka ili dijelova rječničkih članaka unutar rječnika s pomoću poveznica
  • usporedni korpus (engl. parallel corpus) dvojezični ili višejezični korpus koji sadržava niz tekstova na dva ili više jezika; važan alat za istraživanje nazivlja,kontrastivnu jezikoslovnu analizu, definiranje prijevodnih ekvivalenata, sastavljanje dvojezičnih i višejezičnih rječnika

  • Wiktionary Wikimedijin mrežni višejezični internetski suradnički projekt u okviru kojega se stvara rječnik slobodnoga sadržaja dostupan na više od 150 jezika; uključuje i hrvatski Wječnik
  • Wiki-rječnik v. Wječnik
  • Wječnik hrvatski internetski rječnik nastao u okviru projekta Wiktionary u okviru kojega se stvara rječnik slobodnoga sadržaja dostupan na više od 150 jezika
  • WordNet velika mrežno dostupna rječnička baza engleskoga jezika; temelji se na okupljanju četiriju vrsta riječi (imenica, pridjeva, glagola i priloga) u skupine kognitivnih sinonima; struktura baze upućuje na odnose među riječima, i to uglavnom među riječima koje pripadaju istoj vrsti riječi (npr. hiperonimiju/hiponimiju, meronimiju, antonimiju itd.) https://wordnet.princeton.edu/
  • WordSketches > skice riječi

  • xml (EXtensible Markup Language) jednostavno čitljiv standardizirani jezik za označivanje podataka

  • ZDL (Zentrum für digitale Lexikographie der deutschen Sprache)
  • Zentrum für digitale Lexikographie der deutschen Sprache (ZDL, Centar za digitalnu leksikografjiu njemačkoga jezika) projekt pokrenut 2019. godine s ciljem izrade digitalnoga informacijskog sustava koji bi iscrpno i pouzdano opisivao povijesni i suvremeni leksik njemačkoga jezika; suorganizatori su njemačke akademije znanosti u Berlinu, Göttingenu, Leipzigu i Mainzu https://www.zentrum-lexikographie.de/