ScandiBERT: Scandinavian Language Model

Resource Type: Tools and tech

A Scandinavian language model created using resources for 5 Nordic languages.

Description
Overview

This is a Scandinavian BERT model trained on a large collection of Danish, Faroese, Icelandic, Norwegian and Swedish text.

The model was trained on the data shown in the table below. Batch size was 8.8k, the model was trained for 72 epochs on 24 V100 cards for about 2 weeks.

Language	Data	Size
Icelandic	See IceBERT paper	16 GB
Danish	Danish Gigaword Corpus (incl Twitter)	4,7 GB
Norwegian	NCC corpus	42 GB
Swedish	Swedish Gigaword Corpus	3,4 GB
Faroese	FC3 + Sosialurinn + Bible	69 MB

Release: 12.03.2023
Contact: vesteinn.snaebjarnarson@gmail.com

Publisher	Vésteinn
Uses	Speech Recognition
Language(s)	Icelandic, Danish, Faroese, Multilingual, Norwegian, Swedish
License	AGPL-3.0

ScandiBERT: Scandinavian Language Model

Open

Resource Type

Uses

Format

License

Language(s)

Publisher

ScandiBERT: Scandinavian Language Model

Related

Resource Type

Uses

Format

License

Language(s)

Publisher

ScandiBERT: Scandinavian Language Model

Related

Related

Faroese G2P Models

ScandiNER: Named Entity Recognition model for Scandinavian Languages

Sprotin.cli