Pojmovnik

  • Afrilex (African Association for Lexicography) Afrička udruga za leksikografiju http://afrilex.africanlanguages.com
  • algoritmi za gramatičko tagiranje (engl. part-of-speech tagging algorithms) algoritmi s pomoću kojih se provodi gramatičko tagiranje, odnosno s pomoću kojih se pridružuju oznake za vrstu riječi pojavnicama u korpusu
  • ANW (Algemeen Nederlands Woordenboek) opsežan znanstveni mrežni rječnik suvremenoga nizozemskog jezika sastavljen u Institutu za nizozemski jezik http://anw.inl.nl
  • Asialex (The Asian Association for Lexicography) Azijska udruga za leksikografiju http://www.asialex.org/
  • Australex (Australasian Association for Lexicography) Australazijska udruga za leksikografiju https://www.adelaide.edu.au/australex/
  • BabelNet višejezična semantička mreža i ontologija stvorena automatski povezivanjem Wikipedije s najpopularnijim računalnim leksikonom engleskoga jezika WordNetom https://en.wikipedia.org/wiki/BabelNet
  • Canoonet gramatika, rječnik i jezični savjeti (Fragen Sie Dr. Bopp) za njemački jezik http://www.canoo.net/

  • CL (engl. computational linguistics) > računalno jezikoslovlje
  • CLARIN (Common Language Resources and Technology Infrastructure) europska istraživačka infrastruktura za jezične izvore i tehnologiju koja digitalne jezične izvore čini dostupnima znanstvenicima, istraživačima i studentima svih disciplina, posebice u humanističkim i društvenim znanostima https://www.clarin.eu/
  • Cosmas II sustav za pretragu i analizu korpusa i upravljanje njime (upotrijebljen npr. pri izradi elexika)

  • crpenje naziva (engl. terminology extraction) postupak pronalaženja naziva određene struke u korpusu
  • crpenje podataka (engl. data mining) razvrstavanje, organiziranje ili okupljanje velikoga broja podataka i izvlačenje relevantnih informacija, proces pronalaženja korisnih informacija u velikoj količini podataka
  • DARIAH-ERIC (Digital Research Infrastructure for the Arts and Humanities – European Research Infrastructure Consortium) digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti, uključena u Europski konzorcij za istraživačku infrastrukturu (ERIC); zapravo je riječ o DARIAH-EU-u, koji je od 2014. godine pripao pod ERIC (European Research Infrastructure Consortium), pa se otad često (ali ne redovito) tako navodi
  • DARIAH-EU (Digital Research Infrastructure for the Arts and Humanities – European Union) sveeuropska digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti https://www.dariah.eu/
  • DARIAH-HR digitalna istraživačka infrastruktura za umjetnost i humanističke znanosti u Republici Hrvatskoj http://dariah.hr/hr/naslovnica/
  • data mining > crpenje podataka
  • DeReKo (Das Deutsche Referenzenkorpus) Njemački korpus referencija http://www1.ids-mannheim.de/kl/projekte/korpora/
  • DH (engl. digital humanities) > digitalna humanistika
  • digitalizacija (engl. digitization) pretvorba teksta, slike, zvuka, pokretnih slika (filmova i videa) ili trodimenzijskoga oblika nekoga objekta u digitalni oblik, računalnu datotetku koja se može obrađivati, pohranjivati ili prenositi računalima i računalnim sustavima
  • digitalna humanistika (engl. digital humanities, DH) znanstveno područje koje se bavi primjenom računalnih ili digitalnih tehnologija u humanističkim znanostima
  • DSNA (Dictionary Society of North America) Sjevernoameričko leksikografsko društvo http://www.dictionarysociety.com/
  • DFKI (Deutsches Forschungszentrum für Künstliche Intelligenz) Njemački istraživački centar za umjetnu inteligenciju https://www.dfki.de/web
  • DWDS (Das Wortauskunftssystem zur deutschen Sprache in Geschichte und Gegenwart) leksički informacijski sustav za njemački jezik https://www.dwds.de/
  • elektronički rječnik (engl. electronic dictionary, e-dictionary) rječnik u digitalnome obliku
  • eLex konferencija o e-leksikografiji koja se održava svake druge godine https://elex.link/
  • elexiko jednojezični mrežni rječnik izrađen u Institutu za njemački jezik u Mannheimu http://www1.ids-mannheim.de/
  • Elexis (European Lexicographic Infrastructure) Europska leksikografska infrastruktura

  • eNel (European Network of e-Lexicography) COST-ova akcija Europska e-leksikografska mreža, čiji je cilj utemeljiti europsku mrežu leksikografa kako bi se strukturirano odgovorilo na izazove e-leksikografije http://www.elexicography.eu/
  • e-rječnik v. elektronički rječnik
  • EURALEX (European Association for Lexicography) Europska udruga za leksikografiju; udruga za stručnjake iz cijeloga svijeta koji se bave leksikografijom i s njom povezanim područjima; konferencije se održavaju svake druge godine https://euralex.org/
  • FrameNet leksička baza podataka engleskoga jezika sa slobodnim pristupom utemeljena na primjerima uporabe riječi u stvarnim tekstovima; građa je organizirana u više od 1200 semantičkih okvira https://framenet.icsi.berkeley.edu/fndrupal/
  • GALA (Globalization and Localization Association) svjetska neprofitna udruga za jezičnu industriju https://www.gala-global.org/
  • GDEX (Good Dictionary Examples) alat ugrađen u SketchEngine koji omogućuje pronalaženje dobrih primjera u korpusu; dobrim se primjerom smatra primjer koji je tipičan, ilustrativan, primjerene duljine i puna rečenica; ovisno o načelima obrade leksikografi prilagođuju primjere pronađene u korpusu, ali mogućnost automatskoga odabira dobrih primjera olakšava rječničku obradu
  • Globalex udruga stručnjaka koji se bave izradom rječnika i drugih jezičnih izvora; inicijativa je pokrenuta 2015. godine na konferenciji eLex u Ujedinjenome Kraljevstvu te uključuje predstavnike svih udruga za leksikografiju utemeljenih na različitim kontinentima: afričku (Afrilex), azijsku (Asialex), australazijsku (Australex), europsku (Euralex) i sjevernoameričku (DSNA); cilj je Globalexa olakšati razmjenu znanja i suradnju između svojih članova i drugih koje zanimaju jezikoslovlje i jezične tehnologije, promicati stvaranje, istraživanje, razmjenu, diseminaciju, integraciju i uporabu leksikografskih izvora i rješenja https://globalex.link/
  • gramatičko tagiranje (engl. part-of-speech tagging) pridruživanje oznake za vrstu riječi pojavnicama u korpusu
  • gramatika skica (engl. Sketch Grammar) jezični opis na kojemu se temelje skice riječi za određeni jezik; nastaje pretpostavljanjem podataka potrebnih za jezični opis ili leksikografsku obradu i testiranjem rezultata; niz pravila kojima se traže kolokacije u tekstnome korpusu te se kategoriziraju prema gramatičkim odnosima, npr. objektima, subjektima, modifikatorima itd.; piše se u jeziku CQL, a rezultat se prikazuje u obliku skica riječi u sučelju SketchEngine
  • hipertekst (engl. hypertext) tekstna struktura koja se sastoji od međusobno povezanih jedinica informacije (engl. node) prikazana na elektroničkome uređaju; hipertekst nema jedinstven redoslijed čitanja, nego ga čitatelj dinamički određuje, tj. određuje ga tijekom čitanja
  • HLT (engl. human language technology) > jezične tehnologije
  • hrLex hrvatski morfološki leksikon http://nlp.ffzg.hr/resources/lexicons/hrlex/
  • HNK (Hrvatski nacionalni korpus) v. Hrvatski nacionalni korpus
  • Hrvatska jezična riznica korpus Instituta za hrvatski jezik i jezikoslovlje http://riznica.ihjj.hr
  • Hrvatski jezični portal javno dostupna rječnička baza hrvatskoga jezika, zajednički projekt nakladničke kuće Znanje i Srca; uključuje 116 516 natuknica http://hjp.znanje.hr/
  • Hrvatski mrežni korpus v. hrWaC
  • Hrvatski nacionalni korpus (HNK) jedan od triju korpusa hrvatskoga jezika (uz hrWaC i Hrvatsku jezičnu riznicu); obaseže više od 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno; za pretraživanje HNK-a potreban je slobodno dostupan program Bonito
  • hrWaC (Hrvatski mrežni korpus) lematiziran i na morfosintaktičkoj razini označen korpus hrvatskoga jezika; inačica 2.1. sadržava 1,4 milijarde pojavnica http://nlp.ffzg.hr/resources/corpora/hrwac/
  • html (HTML, Hypertext Markup Language) standardizirani jezik za označavanje podataka, koji se primjenjuje za stvaranje mrežnih stranica i mrežnih aplikacija
  • Íslex rječnik namijenjen govornicima drugih nordijskih jezika koji uče islandski http://islex.hi.is/; natuknice su povezane s morfološkom bazom islandskoga jezika http://bin.arnastofnun.is/forsida/; dostupna je i jednojezična inačica rječnika http://islenskordabok.arnastofnun.is/
  • jezične tehnologije (engl. language tehnology) tehnologije koje uključuju obradu prirodnoga jezika (NLP) i računalno jezikoslovlje te govorne tehnologije; sinonim: LT, HLT
  • jezični alati (engl. linguistic tools) programi koji ser razvijaju na temelju jezičnih izvora kao ishodišnih podataka te obrađuju postojeće jezične izvore ili služe za stvaranje novih jezičnih izvora; omogućuju jednostavniju, bržu i jeftiniju uporabu prirodnoga jezika u računalnome okružju
  • jezični izvori (engl. language resources) digitalno su usustavljena i pretraživa jezična građa koja dolazi u dva oblika: a) kao korpusi, tj. zbirke tekstova na jednome ili više jezika koje služe kao znatna količina jezičnih podataka za temeljna istraživanja o jeziku/jezicima i njihovim međuodnosima te b) kao digitalni rječnici, lako dostupni i pretraživi mrežno ili izvanmrežno; na temelju jezičnih izvora kao ishodišnih podataka razvijaju se jezični alati koji ili obrađuju postojeće jezične izvore ili služe za stvaranje novih jezičnih izvora
  • jezični resursi > jezični izvori
  • JT v. jezične tehnologije
  • JSON (Java Script Object Notation) datoteka koja omogućuje organiziranu pohranu informacija u zagradama, a informacije se mogu poslije lako i brzo učitati na mrežnim stranicama; u nekim se slučajevima može upotrijebiti kao zamjena za XML datoteke
  • kanonski oblik (engl. canonical form) osnovni oblik riječi u kojemu se u pravilu uspostavlja rječnička natuknica; za imenice to je nominativ jednine, za glagole infinitiv, za pridjeve nominativ jednine muškoga roda itd.; ako se riječ nikad ne pojavljuje u kanonskome obliku, zapisuje se u najtipičnijemu, kanonskomu obliku najbližemu obliku, npr. se
  • Klexicon (Kinder lexicon) Wikipedia za djecu https://klexikon.zum.de/wiki/Klexikon
  • konkordancija (engl. concordance) popis riječi sa svim oblicima u kojima se pojavljuju zajedno s kontekstom i oznakom izvora, koji se nalaze u nekome korpusu
  • Kookurenz analyse alat za pretragu teksta (upotrijebljen pri izradi elexika)
  • korpus (engl. corpus) zbirka tekstova prirodnoga jezika sastavljena po određenome kriteriju, skup jezičnih odsječaka (tekstova) koji su odabrani i skupljeni prema jasnim jezikoslovnim kriterijima radi dobivanja određenoga jezičnog uzorka
  • korpusno utemeljen rječnik (engl. corpus based dictionary) rječnik u kojemu se obrađivač služi korpusom, ali može slobodno procijeniti što treba unijeti u rječnik te rječnik može po potrebi dopunjavati i riječima iz drugih izvora te kolokacijama i značenjima koji nisu potvrđeni u korpusu
  • korpusom vođen rječnik (engl. corpus driven dictionary) rječnik u kojemu se obrađivač služi isključivo korpusom pa se u rječniku nalazi samo ono što se nalazi u korpusu
  • korpusna lingvistika v. korpusno jezikoslovlje
  • korpusno jezikoslovlje (engl. corpus linguistics) grana jezikoslovlja koja se bavi jezičnom analizom strojno izrađenih korpusa pisanoga ili govornoga jezika
  • lema (engl. lemma) kanonski oblik riječi (u morfologiji i leksikografiji), kanonski oblik pojavnice (u korpusnome jezikoslovlju), tagirana vrijednost
  • lematiziranje (engl. lemmatization, lemmatisation) uspostava kanonskoga oblika pojavnice
  • lematizirati (engl. to lemmatize) uspostavljati kanonski oblik pojavnice
  • Lexin 1. rječnik namijenjen strancima koji uče švedski, postoji jednojezična varijanta te dvojezične kombinacije za određene jezike; postoje poveznice sa slikovnim prikazima za određene riječi i teme https://lexin.nada.kth.se/lexin/; 2. rječnik namijenjen strancima koji uče norveški http://lexin.udir.no/
  • link > poveznica
  • LOD (engl. linked open data) 1. tip povezanih podataka (Linked Data) koji se objavljuje pod otvorenom licencijom, 2. metoda objavljivanja strukturiranih podataka koja omogućuje uzajamno povezivanje
  • LT (engl. language technology) > jezične tehnologije
  • LT Advisor GALA-ina platforma za opis jezičnih tehnologija, ocjene i oglede
  • Metanet javno mrežno dostupna baza konceptualnih i jezičnih metafora, metonimija te predodžbenih shema, kognitivnih primitiva i semantičkih okvira hrvatskoga jezika s pripadajućim leksičkim jedinicama https://metafora.ihjj.hr:8443/Metafore/
  • mrežni rječnik (engl. web-born dictionary) rječnik izvorno osmišljen za mrežnu platformu, što uključuje lakše međusobno povezivanje unutarrječničkoga sadržaja (cross-referencing) i rječničkoga sadržaja s drugim mrežnim sadržajima, unošenje u rječnik sadržaja poput audiozapisa i videozapisa te mogućnost komunikacije s korisnicima koji mogu biti i aktivni sudionici u stvaranju rječničkoga sadržaja
  • nacionalni korpus (engl. national corpus) 1. opći korpus koji uključuje velik broj tekstova reprezentativnih za određeni jezik, 2. v. opći korpus
  • NLP (engl. natural language processing) > obrada prirodnih jezika
  • NoSketchEngine javno dostupan alat za pretraživanje korpusa s pomoću kojega se može pretraživati korpus hrWaC
  • obrada prirodnih jezika (engl. natural language processing) 1. jezikoslovno područje usmjereno na interakciju između prirodnoga jezika i računalâ; analiza i razumijevanje složenih jezičnih izraza prirodnoga jezika s pomoću računala; primjenom obrade prirodnih jezika moguće je ostvariti različite zadaće (npr. automatsko sažimanje, prevođenje, prepoznavanje glasa, segmentacija tema itd.), 2. računalno jezikoslovlje
  • odostražni rječnik (engl. reverse dictionary) rječnik u kojemu su riječi abecedirane od kraja; odostražni rječnik Rückläufiges Wörterbuch des Serbokroatischen (1965. – 1967.) mrežno je dostupan na https://www.uibk.ac.at/slawistik/institut/matesic.html. Demoinačica odstražnoga rječnika naziva za vršitelje/vršiteljice radnje (https://borna12.gitlab.io/odostraznji-mz/, izradio Josip Mihaljević):


  • odostražnik v. odostražni rječnik
  • opći korpus (engl. general corpus) korpus koji je reprezentativan za jezik u cjelini, koji se sastoji od tekstova koji pripadaju različitim tekstnim vrstama, područjima i stilovima
  • OWID (Online-Wortschatz-Informationssystem Deutsch) portal za znanstvenu korpusno utemeljenu leksikografiju IDS-a (uključena i bibliografija e-leksikografskih djela i mrežnih rječnika) https://www.owid.de/
  • Oxygen program za rječničku obradu (upotrijebljen npr. pri izradi elexika)
  • označavanje korpusa v. tagiranje
  • parsiranje (engl. parsing) raščlanjivanje rečenice u računalnoj obradbi jezika
  • parsirati (engl. to parse) raščlaniti rečenicu u računalnoj obradbi jezika
  • parser (engl. parser) računalni program za analizu rečenice do osnovnih sintaktičkih kategorija ili do riječi
  • parsemsko stablo (engl. parse tree) prikaz raščlanjene rečenice u obliku stabla u računalnoj obradbi jezika
  • PARSEME (PARSing and Multi-word Expressions) interdisciplinarna znanstvena mreža usmjerena na ulogu višerječnih jedinica (MWE – multiword expression) u parsiranju, cilj joj je poboljšati računalnu učinkovitost obrade prirodnoga jezika
  • PDF (Portable Document Format) format u kojemu dokument čuva sve značajke otisnutoga dokumenta u obliku e-slike
  • podatkovno rudarenje (engl. data mining) > crpenje podataka
  • pojavnica (engl. token) sve što se nalazi između dva znaka koja služe kao graničnici (svako individualno pojavljivanje); svaka pojava jezične jedinice u korpusu, na razini riječi svaki oblik uključen u leksem
  • POS tagging (part-of-speech tagging) > gramatičko tagiranje
  • POS tagging algoritmi > algoritmi za gramatičko tagiranje
  • POST (part-of-speech tagging) > gramatičko tagiranje
  • poveznica (engl. link) veza između dviju mrežnih stranica; veza između hipertekstnoga sadržaja i kojega drugog hipertekstnog ili bilo kakva multimedijskoga sadržaja (mrežne stranice, glazbe, slike, filma, animacije)
  • računalna lingvistika > računalno jezikoslovlje
  • računalno jezikoslovlje (engl. computational linguistics) interdisciplinarno područje povezano s računalnim modeliranjem prirodnoga jezika, temeljenim na statistici ili pravilima, kao i s proučavanjem odgovarajućih računalnih pristupa jezičnim pitanjima
  • različnica (engl. type) pojedinačna riječ koja se razlikuje od druge riječi (npr. u korpusu riječ koja se bilježi samo pri prvome pojavljivanju jer se sa svakim sljedećim pojavljivanjem smatra pojavnicom), jedinstveni oblik pojavnice iz korpusa
  • regex v. regularni izraz
  • regularni izraz (engl. regular expression) zadani niz znakova čija se kombinacija može upotrijebiti za pronalaženje određenih dijelova teksta, izraz koji se uspostavlja za pretraživanje korpusa s pomoću alata SketchEngine i NoSketchEngine za traženje ciljanih gramatičkih ili leksičkih uzoraka (popis regularnih izraza dostupan je na https://sketchengine.co.uk/documentation/corpus-querying/). Regularni izrazi iz SketchEngineova kalendara za 2018.:


  • responzivni rječnik (engl. responsive dictionary) rječnik koji se može pregledavati na različitim računalnim uređajima te na različitim mrežnim preglednicima
  • retrodigitalizacija (engl. retrodigitization) prenošenje nedigitalnih podataka (npr. iz tiskanih knjiga, snimaka, filmova) u digitalni oblik
  • rudarenje podataka (engl. data mining) > crpenje podataka
  • semantička mreža (engl. semantic web) skup značenja i pojmova koji su u nekoj mjeri povezani sa središnjim značenjem
  • SketchEngine alat za pretraživanje korpusa koji uključuje module skice riječi i primjeri dobre uporabe; pretraživanje se može obavljati i s pomoću regularnih izraza
  • SketchGrammar > gramatika skica
  • skice riječi (engl. WordSketches) sažetak gramatičkoga i kolokacijskoga opisa riječi utemeljen na gramatici skica
  • Skoleordbog danski školski rječnik, pristup se plaća, namijenjen je učenicima osnovne škole, natuknice su obogaćene slikama i zvučnim zapisima http://skoleordbog.dk/
  • specijalizirani korpus > specijalni korpus
  • specijalni korpus (engl. specialized corpus) korpus koji (za razliku od općega korpusa) obuhvaća samo jedan jezični varijetet odabran po određenim kriterijima, npr. stručni korpusi (korpusi stručnih tekstova)
  • stablo parsema v. parsemsko stablo
  • Svenska Akademiens ordbok povijesni rječnik koji opisuje švedski jezik od 1521. do današnjih dana, mrežna verzija tiskanoga rječnika koji izdaje Švedska akademija, a trenutačno obuhvaća 37 svezaka u kojima su obrađene natuknice avret https://svenska.se/
  • Svenska Akademiens ordlista popis švedskih riječi s podatcima o njihovu pisanju, oblicima, izgovoru te osnovnim podatcima o značenju koji izdaje Švedska akademija https://svenska.se/
  • Svensk ordbok jednojezični rječnik suvremenoga švedskog jezika, mrežna verzija tiskanoga rječnika koji je Švedska akademija izdala 2009. godine https://svenska.se/
  • SW (Semantic Web) > semantička mreža
  • tag (engl. tag) 1. oznaka koja se pridružuje pojavnici u korpusu, 2. oznaka kojom se označuje da pojavnica pripada određenoj vrsti riječi
  • tager (engl. tagger, POS tagger) dio programske podrške koji pridružuje identifikacijsku ili klasifikacijsku oznaku dijelovima teksta ili podatcima
  • tagiranje (engl. tagging, POS tagging, part-of-speech tagging, POST) 1. označavanje pojavnica u tekstu (korpusu), 2. > gramatičko tagiranje
  • tagirati (engl. to tag) 1. označiti/označavati pojavnice u tekstu (korpusu), 2. označiti/označavati riječ u tekstu (korpusu) kao pripadnicu određene vrste riječi, pridružiti/pridruživati oznake za vrstu riječi pojavnicama u korpusu, identificirati vrstu riječi i oblike pojedinih riječi
  • TEI (Text Encoding Iniciative) konzorcij koji razvija i održava standard za prikazivanje tekstova u digitalnome obliku; u njegovim smjernicama određene su metode kodiranja strojno čitljivih tekstova, stoga se primjenjuju u humanističkim i društvenim znanostima (a posebno u jezikoslovlju) http://www.tei-c.org/index.xml
  • tezaurus (engl. thesaurus) zbirka riječi prirodnoga jezika (općega i/ili stručnoga) s prikazom njihovih pojmovnih odnosa
  • TickBox Lexicography SketchEngineov alat koji omogućuje da se primjeri pritiskom miša umeću iz skica riječi u program za obradu rječnika
  • TLex (TshwaneLex) paket programskih aplikacija s velikim brojem funkcija koji služi za izradu rječnika http://tshwanedje.com/tshwanelex/
  • TshwaneLex v. TLex
  • token > pojavnica
  • unutarrječničko povezivanje (engl. cross-referencing) povezivanje rječničkih članaka ili dijelova rječničkih članaka unutar rječnika s pomoću poveznica
  • Wiktionary Wikimedijin mrežni višejezični internetski suradnički projekt u okviru kojega se stvara rječnik slobodnoga sadržaja dostupan na više od 150 jezika; uključuje i hrvatski Wječnik
  • Wiki-rječnik v. Wječnik
  • Wječnik hrvatski internetski rječnik nastao u okviru projekta Wiktionary u okviru kojega se stvara rječnik slobodnoga sadržaja dostupan na više od 150 jezika
  • WordNet velika mrežno dostupna rječnička baza engleskoga jezika; temelji se na okupljanju četiriju vrsta riječi (imenica, pridjeva, glagola i priloga) u skupine kognitivnih sinonima; struktura baze upućuje na odnose među riječima, i to uglavnom među riječima koje pripadaju istoj vrsti riječi (npr. hiperonimiju/hiponimiju, meronimiju, antonimiju itd.) https://wordnet.princeton.edu/
  • WordSketches > skice riječi
  • xml (EXtensible Markup Language) jednostavno čitljiv standardizirani jezik za označivanje podataka