Alla nyheter | Språkbanken Text

Cassandra project at SigTyp lecture series

10 januari 2022

In November 2021, Sasha Berdicevskis gave a talk named "Typology, will you marry sociolinguistics?" asks NLP at SigTyp lecture series, presenting, inter alia, some preliminary results from the Cassandra project. The recording is now available on YouTube.

God Jul with the Swedish Word Family

20 december 2021

Lexical resources for Natural Language Processing (NLP), Second Language Acquisition (SLA) and other applied disciplines differ in the choice of the lexical units they use as their main entry.

Most widely-spread is use of a lemma, i.e. base form of a word, or a lemgram, i.e. base form + its part of speech (POS), cf François et al. (2016) and Kilgarriff et al. (2014). This is possibly due to the ease of creation of such resources using automatic annotation pipelines and the … Fortsätt läsa ”God Jul with the Swedish Word Family”

Ny bok om Svenskt frasnät++ (SweFN++)

29 november 2021

Vi är glada att meddela att vår bok med titeln: "The Swedish FrameNet++ Harmonization, integration, method development and practical language technology applications" finns ute!

Boken "The Swedish FrameNet++ Harmonization, integration, method development and practical language technology applications" är fritt tillgänglig under CC BY-NC-ND licens och kan laddas ner här: <https://www.jbe-platform.com/content/books/9789027258489>.

Svenskt frasnät++ (SweFN++) är en långsiktig satsning med syfte att bygga en omfattande och mångsidig lexikal infrastruktur för svensk språkteknologi. Det initierades 2008 och har tack vore olika forskningsbidrag växt under åren. SweFN++ har genererat över 60 publikationer som har kommit ut över en lång tid och på många olika ställen. I boken har vi samlat ihop en del av dem med syftet av att förmedla ett mer övergripande perspektiv på hela projektet och dess kontext. Med boken hoppas vi nå fram till flera läsare som har bland annat intresse för lexikografi, lexikaltypologi, lexikal semantik, lingvistik och närliggande områden.

Läs mer projektet Svenskt frasnät++ (SweFN++) här.

Ny lista med förändringsord på Zenodo

22 november 2021

Nu finns det en ny lista med förändringsord ute på Zenodo: https://zenodo.org/record/5711030

Vi tar gärna emot fler förändringsord, eller om någon vill fylla i saknade värden i den existerande listan.

Listan innehåller svenska ord vars betydelse har förändrats under de senaste århundradena och finns öppet tillgänglig för nedladdning. Listan är en del av projektet Mot automatiska metoder för att upptäcka språkförändring finansierat av Vetenskapsrådet. Läs mer om projektet här: https://languagechange.org/

Change is key! 6-year RJ Program funded!

18 november 2021

In the RJ-funded program Change is Key!, we will develop tools to turn text into a story of our language, our societies, and our cultures, and how these have changed over time.

The program spans six years (2022-2027) and has 11 participating researchers. Read more here!

Ny forskningsdata med nyhetstexter från SVT möjliggör storskaliga textanalyser

12 november 2021

Forskningsingenjörer på Språkbanken Text vid Göteborgs universitet har för första gången samlat alla nyhetstexter på SVT:s webbplats i ett sökbart format. Textsamlingen, eller korpusen, gör det möjligt att göra större automatiska textanalyser på forskningsdatan. – Det är många som är intresserade av materialet eftersom det gör det möjligt att analysera modernt vårdat språk, säger Anne Schumacher som är huvudansvarig för arbetet.

Behovet av att samla in materialet uppstod i arbetet med Svensk ordbok (SO) och Svenska akademiens ordlista (SAOL) som bedrivs vid institutionen för svenska språket. Redaktionsgruppen ville ha ett referensmaterial för att veta vilka nya ord som uppstår, hur frekventa orden är och hur de används. Då är modern nyhetstext lämplig.

– Korpusen innehåller alla nyhetstexter som finns på SVT:s webbplats sedan 2004 fram till september 2021 och ger ett rikt underlag för modern vårdad svenska. Det här kan man jämföra med att några av våra andra korpusar består av texter från exempelvis Flashback eller Familjeliv där det finns en helt annan språkanvändning – som inte klassificeras som vårdad text – men som är intressant på sitt sätt, säger Anne.

SVT:s nyhetstexter intressanta för många

Eftersom SVT:s texter ligger fritt tillgängliga på internet har arbetet med att samla in materialet varit relativt enkelt.

– Vi tog fram ett script som hämtade ut alla artiklar från SVT:s API, alltså deras nättjänst som hämtar informationen från deras databas. Det var väl den svåraste delen av arbetet eftersom den inte är avsedd att användas av någon annan än deras egna webbsida. Vi fick testa och gissa lite innan vi kom fram till hur vi skulle göra.

Textsamlingen har sedan omarbetats för att kunna bli till en sökbar textsamling i korpusverktyget Korp. Eftersom texterna från SVT är i ett välstrukturerad digitalt format med rik metadata – dvs att man tydligt kan se vad som är en avgränsad artikel, vilken författaren är, när den har skapats och vilket ämne den handlar om – har materialet varit tacksamt att arbeta med.

Korp korpus SVT Nyheter — *Korpusen finns sökbar i sökverktyget Korp men hela materialet, med ordfrekvenser och automatiskt framtagna textanalyser, finns också nedladdningsbart om du vill använda det utanför Korp.*

– Bra metadata gör en textsamling mer värdefull eftersom den delvis styr hur man kan använda resursen. Detta gör också att korpusen inte bara kommer att vara användbar för vår ordboksredaktion, förklarar Anne och fortsätter:

– Det är många som är intresserade av materialet eftersom det gör det möjligt att analysera modernt vårdat språk över tid. Sedan tidigare erbjuder Språkbanken Text Göteborgs-Postens samlade texter men de sträcker sig bara fram till 2013 vilket gör att man inte har kunnat analysera användningen av ord efter det. SVT:s texter blir en fortsättning och ett bra komplement till det materialet.

Uppdateras två gånger per år

Planen är att korpusen nu ska uppdateras två gånger om året. Varje halvår ska man lägga till de texter som tillkommit och dessutom kommer korpusen att delas upp årsvis.

– Just nu ligger allt material samlat i en enda korpus men det är egentligen lite opraktiskt. Med en årsvis uppdelning går den snabbare att uppdatera och det går att göra bättre sökningar i materialet. Exempelvis skulle man med den nya uppdelningen kunna göra sökningar för att se hur ett särskilt ord används ett år i jämförelse med andra år – det tror jag är väldigt värdefullt!

Text: Sven Lindström

Fakta om korpusen
Korpusen SVT Nyheter består av 200 miljoner tokens. En token är ungefär att likställa med ett ord men en token också kan innebära exempelvis skiljetecken. Korpusen finns sökbar i sökverktyget Korp men hela materialet, med ordfrekvenser och automatiskt framtagna textanalyser, finns också nedladdningsbart om du vill använda det utanför Korp. Ladda ner korpusen här.

Korp är Språkbanken Texts korpusverktyg där du kan söka i stora mängder text från bland annat dagstidningar, skönlitteratur och sociala medier. Läs mer och använd verktyget Korp här.

33,5 miljoner till språkteknologiskt forskningsprogram om språkförändring

29 oktober 2021

Riksbankens Jubileumsfond beviljar 33,5 miljoner till ett nytt språkteknologiskt forskningsprogram vid Språkbanken Text, Göteborgs universitet. Under sex år kommer forskare vid Språkbanken Text att studera språkliga förändringar över tid, inom olika grupper och i olika medietyper. – Detta är ett kvitto på att den forskning vi bedriver på Språkbanken Text håller hög internationell kvalité, säger Nina Tahmasebi som är huvudsökande till programmet.

Läs hela nyheten på gu.se

Nina-T-sbtext — Nina Tahmasebi är docent vid Språkbanken Text på institutionen för svenska språket vid Göteborgs universitet.

Ny korpus i Korp: SVT nyheter

27 oktober 2021

Nu finns det en ny korpus i Korp som innehåller nyhetsartiklar från svt.se. Artiklarna är från 2004 till september 2021.
Korpusen innehåller omkring 200 miljoner tokens, vilket är ett ganska stort material, och den är rik på metadata. Det finns bland annat information om publiceringsdatum, kategori, nyckelord och en länk till artikeln på svt.se.

Materialet är efterlängtat då det både är aktuellt och innehåller modernt och vårdat språk. Planen är att korpusen ska uppdateras två gånger per år. Vid nästa uppdatering kommer korpusen att delas upp årsvis, för att förenkla vissa typer av sökningar.

Korpusen heter SVT nyheter och finns här:
https://spraakbanken.gu.se/korp/#?corpus=svt-2004,svt-2005,svt-2006,svt-2007,svt-2008,svt-2009,svt-2010,svt-2011,svt-2012,svt-2013,svt-2014,svt-2015,svt-2016,svt-2017,svt-2018,svt-2019,svt-2020,svt-2021,svt-2022,svt-nodate

Materialet är nedladdningsbart dels som meningsmängder och dels som ordfrekvenser. Dessa hittar man här: https://spraakbanken.gu.se/resurser/corpus?s=svt+nyheter&language=All

Korp är Språkbanken Texts korpusverktyg med vilket man kan söka i stora mängder text från bland annat dagstidningar, skönlitteratur och sociala medier. Läs mer om verktyget Korp här: https://spraakbanken.gu.se/verktyg/korp

CDH del av två nya nationella forskningsinfrastrukturer

14 oktober 2021

Två nya nationella forskningsinfrastrukturer ska hjälpa forskare att hitta och använda digitala resurser samt att visualisera och analysera vetenskapliga data. Läs nyheten på gu.se >>

The release of the Eukalyptus Treebank of Written Swedish, v1.0.0

3 oktober 2021

Eukalyptus contains almost 100 thousand tokens of written, contemporary Swedish of different text types/genres (novels, news texts, Wikipedia articles, blog texts and Europarl proceedings). Texts have been manually annotated with lemmata, word senses, parts of speech, multi-word units, and syntactic structure (constituents with grammatical functions).

The treebank – source texts and annotations – is released under a CC BY-SA 4.0 license, and is currently distributed in the TIGER-XML format.

For download details, please visit:
https://spraakbanken.gu.se/en/resources/eukalyptus

The download archive also contains documentation and publications related to the design of Eukalyptus.

We hope you find Eukalyptus useful in your work.