Granskingarvirksemi á Máltøknideplinum

CAALLM: Mentanarliga tilvitað meting og rætting av stórmálmyndlum – tillaging til norðurlendsk og baltisk samfeløg
Verkætlan (2026-2028)
Máltøknidepilin er partur av tvørtjóða samstarvi, sum miðar ímóti mentanarligari meting og tillaging av stórmálmyndlum (LLM) til norðurlendsku og baltisku samfeløgini. Meðan vitlíki og tøkni í dag ofta eru merkt av enskum máli, mentan og sjónarhornum, sum óætlað kunnu ávirka okkara staðbundnu virði, savna vit okkum um at tryggja, at hesir myndlar verða tillagaðir at kenna og virða málsliga og mentanarliga fjølbroytnið í okkara egna øki. Hetta arbeiðið byggir á fatanina um, at vitlíki skal vera eitt opið og fevnandi amboð, ið styrkir grundleggjandi samfelagsvirði sum javnstøðu, fólkaræði og álit, heldur enn at týna tey.
Sum partur av hesum hava vit ábyrgd av føroyska partinum av verkætlanini. Hetta fer at hava við sær nýtt føroyskt tilfeingi til máltøkni í høgari góðsku, sum fer at hava stóran týdning, ikki bert til at tillaga vitlíki, men eisini til framtíðar verkætlanir. Umframt hesar nýggju dátur fer verkætlanin at menna nýggjar hættir at greina og meta, hvussu málmyndlar handfara staðbundin málslig eyðkenni, og at enda fer verkætlanin at tillaga fleiri málmyndlar til at virka ábyrgdarfult í okkara samfelagsliga samanhangi. Við at menna hesi opnu og tvørmálsligu dátusettini gera vit føroyskan mentanararv til ein part av tøkniligu framtíðini.
Við at deila royndir og tilfeingi tvørtur um landamørk miðar samstarvið ímóti at flyta mørkini fyri máltøkni og vitlíki, samstundis sum ein mentanarliga tilvitaður vinkul verður tryggjaður. Hetta samstarvið ger tað møguligt hjá okkum at seta í verk tøkni, ið er umboðandi, álítandi og grundað í okkara felags samfelagsvirðum.
Á hesari síðuni kanst lesa meir um, hvør er við í verkætlanini.
Verkætlanin er stuðlað av Nordforsk.

At meta um føroyskt: menning av miðmarkandi máltøkniligum metingarkarmi
Á vári í 2024 byrjaði Iben Nyholm Debess upp á eina ph.d.-verkætlan í máltøkni á Máltøknideplinum.
Verkætlanin granskar meting av føroyskari máltøkni og menna ein metingarkarm við ávísum uppgávum í málfatan (Natural Language Understanding) og málframleiðslu (Natural Language Generation). Hesin metingarkarmurin fer at virka sum ‘benchmark’ fyri føroyska máltøkni og fer at gera tað møguligt at kanna og eftirmeta góðskuna á máltøkniligum amboðum og málmyndlum.
Hendan vitanin er virðismikil og gevur samanberingargrundarlag myndlanna millum. Eitt støðugt samanberingargrundarlag birtir undir góðskumenning og veitir gjøgnumskygni.
Í menningartilgongdini verða ymisk háttaløg kannað, sum eru serliga væl egnað til smærri mál.
Hesi úrslit eru virðismikil fyri onnur smærri málsamfeløg við líknandi avbjóðingum, sum vit hava her í Føroyum.
Miklamálgrunnurin
Endamálið við verkætlanini Miklamálgrunninum (Faroese MegaWord Corpus) er at gera ein stóran og umboðandi føroyskan tekstagrunn. Í tekstagrunninum fara at vera fjølbroyttir tekstir ymsastaðni frá, umframt at grunnurin fer at vera markaður fyri málsligar upplýsingar.
Tekstirnir verða viðgjørdir, so vit ikki gera okkum inn á upphavsrættindi.

Tekstagrunnurin verður givin út við opnum loyvi undir føroyskum øki, og øll kunnu leita í honum á netinum ella taka hann niður.
Verkætlanin er bæði ein máltøknilig og málfrøðilig verkætlan. Hon fer at hava við sær meir og betri gransking í føroyskum máli og menning í máltøkni, umframt at hon samstundis verður almenninginum at gagni. Stórt virði liggur í at kunna leita eftir orðum og setningum í okkara móðurmáli, bæði hjá vanliga málbrúkaranum, men eisini innan fyri skúla og serliga viðvíkjandi málvarðveitslu.
Miklamálgrunnurin verður ein grundarsúla undir málsligum tilfeingi, tá ið talan er um at menna máltøkni, bæði altjóða og her heima. Stóra støddin á grunninum fer at hava eina jaliga ávirkan á góðskuna í myndlum og amboðum, sum verða ment. Flokkaðu metadáturnar eru virðismiklar í máltøkniligum arbeiði, tí mennarar fara at kunna brúka ymiskar partar av tekstagrunninum til ymisk endamál, umframt at granskast kann í økismálnýtslu.
Verkætlanin er eitt samstarv ímillum Fróðskaparsetur Føroya og Stofnun Árna Magnússonar í íslenskum fræðum. Verkætlanarkarmurin fyri Miklamálgrunnin er samansettur við íblástri og ráðgeving frá íslensku verkætlanini Risamálheild, sum Stofnun Árna Magnússonar í íslenskum fræðum stóð fyri.
Verkætlanin er fíggjað við játtan úr Nordplus Nordic Languages og hevur ein tíðarkarm upp á 2 ár.
Ph.d.-verkætlan í talukenning

Tann 2. apríl 2024 byrjaði Dávid í Lág í nýggjum ph.d.-vísindastarvi á Náttúruvísindadeildini á Fróðskaparsetri Føroya. Hann er útbúgvin teldufrøðingur við sergrein í dátuvísindum og maskinlæring frá IT-Universitetinum í Keypmannahavn.
Ph.d.-verkætlanin granskar í talukenning (automatic speech recognition) fyri smærri mál við støði í føroyskum. Við at brúka nútímans vitlíkistøkni innan fyri maskinlæring og við at brúka talukenningarmálmyndlar, sum innihalda yvir 100 mál, verður í verkætlanini kannað, hvussu er tað nú gjørligt at gera ein føroyskan talukennara, sum klárar seg væl, hóast dátugrundarlagið er í minna lagi.
Verkætlanin fer eisini at kanna møguleikarnar at framleiða nýggjar dátur út frá teimum, sum longu finnast, at framleiða ljóð út frá teksti og at brúka vitanarflyting millum mál.
Høvuðsvegleiðari er Jón Guðnason, professari á Háskólanum í Reykjavík, við Barbaru Scalvini á Náttúruvísindadeildini sum hjávegleiðara. Iben Nyholm Debess á Máltøknideplinum og Annika Simonsen á Háskóla Íslands eru eisini knýttar at verkætlanini sum málfrøðingar.
Føroysk teldutýðing og dátuøking

Barbara Scalvini, sum arbeiðir á Náttúruvísindadeildini og á Máltøknideplinum á Setrinum, er í gongd við at menna teldutýðing millum føroyskt og enskt. Granskingarráðið hevur játtað stuðul til verkætlanina. Aftur at Barbaru er eisini Iben Nyholm Debess, ph.d.-vísindastarvsfólk á Føroyamálsdeildini, við í verkætlanini.
Stórmálmyndlar hava víst seg at duga ymsar uppgávur væl, t.d. teldutýðing. Few shot-førleikarnir hava gjørt tað møguligt at økja munandi um dátumongdirnar, serliga tá ið tað ræður um mál við lítið av tilfeingi. Vit gagnnýta hesar førleikarnar til at skapa eftirgjørdar makasetningar á føroyskum og enskum, sum vit síðani kunnu brúka til at venja ein lættan teldutýðingarmyndil við, sum eisini kann brúkast í vinnuligum høpi.
Í hesum samanhangi kanna vit eisini, hvussu vit kunnu betra um birt og dømi til few shot-læring, so vit fáa sum best burtur úr teldutýðingini.
Ein spennandi táttur í verkætlanini er, at henni tørvar luttøku frá einari fjøld av føroyskum málbrúkarum. Tú og eg kunnu brúka teldutýðaran at týða tekstir millum føroyskt og enskt. Síðani ber til at koma við eini meting av týðingini og at gera møguligar broytingar í týðingartekstinum.
Ein týðandi partur av verkætlanini er, at alt verður opið. Týðingarmyndlar, tvímálslig dátusett av høgari góðsku og metingarkarmar verða atkomulig fyri øllum – granskarum, mennarum, fyritøkum, almenningi – so menningin kann halda fram, eftir at verkætlanin er komin á mál.
Týðingarpallurin verður atkomuligur hjá almenninginum í oktobur 2025, og verkætlanin verður liðug á vári í 2026.
TrustLLM
TrustLLM-verkætlanin er eitt samstarv millum fleiri stovnar og universitet úr ymsum evropeiskum londum, og Máltøknidepilin virkar sum uttanhýsis samstarvspartur í verkætlanini.

TrustLLM-verkætlanin mennir álítandi stórmálmyndlar (LLMs), sum fevna um stór og smá mál. Verkætlanin er miðsavnað um evropeisk mál og viðurskifti. Høvuðsendamálið við TrustLLM er menningin av einum opnum, álítandi og sannførandi stórmálmyndli. Myndilin fevnir í fyrstu atløgu um germonsk mál, eitt nú føroyskt. Leikluturin hjá Máltøknideplinum í verkætlanini verður at savna inn føroyskar máldátur og ráðgeva í føroyskum málviðurskiftum. Úrslitið er, at føroyskt verður partur av endaliga myndlinum, sum gevur okkum her í Føroyum møguleika at nýta myndilin til alskyns endamál á føroyskum.
Eitt av kjarnuvirðunum í TrustLLM er álit. Úti í verðini verða málmyndlar mentir hvønn dag, og tað gongur við rúkandi ferð. Tó er ikki altíð gjøgnumskygt, hvørjar dátur verða nýttar til menning og hvørja helling, dáturnar kunnu geva í nýtslu. Álit er tí avgerandi í menningini av stórmálmyndlum. Tað tryggjar, at brúkarar kunnu líta á myndlarnar at veita neyva, etiskt trygga og óhefta kunning. At skapa álítandi og tryggar stórmálmyndlar fremur trygga og effektiva integratión á ymsu pallunum. Hetta stuðlar víðfevndari nýtslu og hevur jaliga samfelagsliga ávirkan.

Føroyska Annika Simonsen er ph.d.-lesandi á Háskóla Íslands, og verkætlan hennara er partur av TrustLLM. Annika arbeiðir við alignment av dátum, sum merkir at tillaga dátur og myndlar at samsvara betur við menniskjalig virði. Hetta er eitt sera umráðandi arbeiðsøki. Annika arbeiðir við alignment av øllum málunum í verkætlanini, men hevur serliga sjóneykuna á lágtilfeingismálum sum t.d. føroyskum og íslendskum.
Les meira um TrustLLM her og um arbeiðið hjá Anniku her. Á hesari síðuni sært tú allar samstarvspartarnar.
Tillaging av stórmálmyndlum til føroyskt
Vit kunnu laga fleirmæltar stórmálmyndlar til føroyskt upp á ymsar mátar, so sum few shot-birting, low rank-tillaging, fínstilling o.s.fr.
Í hesum sambandi seta vit spurningarnar:
- Hvussu nógv líkjast fjaldu umboðanirnar (orð og setningar umboðað í tølum) í stórmálmyndlum í ymsum líknandi málum?
- Kunnu vit tillaga slíkar fjaldar umboðanir, so vit fáa betri samsvar millum hugtøk í ymsum málum?
- Høvdu slíkar broytingar havt við sær betri úrslit, tá ið stórmálmyndilin viðger føroyskt?
Tað er Barbara Scalvini á Náttúruvísindadeildini á Setrinum, sum í samstarvi við Máltøknidepilin stendur fyri hesi verkætlanini.
