Stockholm-Umeå Corpus - SUC skapades under 1990-talet och är en samling av texter bestående av 1 miljon ord.
Texterna kommer från olika genrer som reportage, recensioner, biografier, vetenskapliga artiklar mm, och förekommer i genre-ordning. Dessa texter av blivit ordklassmärkt och annoterade med ordklasstillhörighet, morfologisk böjningsform och lemma.
SUC skapades som grund för utveckling, träning och testning av olika analyserare för obegränsad svensk text men får enbart användas för forskningsändamål.
Version 1.0 utvecklades genom projektet Korpusbaserad utveckling av modeller för datoranalys av löpande svensk text som bedrevs i samarbete mellan Gunnel Källgren vid Stockholms Universitet och Eva Ejerhed vid Umeå universitet och gjordes tillgängligt 1997 av institutionen för lingvistik på Stockholms universitet.
Version 2.0 gjordes tillgänglig 2006 av Sofia Gustafson-Capková och Britt Hartmann vid institutionen för lingvistik på Stockholms universitet. Den innehåller samma texter som SUC 1.0 men är utökad med annotering på punkter, citattecken, förkortningar och namngivna enheter annoterade. Dessutom innehåller SUC 2.0, TIGERSUC, en konvertering till TIGERxml samt STORSUC, extra textmaterial.
This article uses material from the Wikipedia Svenska article Stockholm-Umeå Corpus, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). Innehållet är tillgängligt under CC BY-SA 4.0 om ingenting annat anges. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Svenska (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.