SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Förstasida   Anmälning   Postarkiv   Forum   Kalender   Sök
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] sammansatta ord



Quoting Lars Aronsson <sslug@sslug>:

> Finns det något program som kan bryta upp "radio- och telefonteknik" i
> orden "radioteknik" och "telefonteknik", så att "radio- och
> motorcykel" kan få underkänt eftersom "radiocykel" är en felaktig
> (eller åtminstone väldigt ovanlig) sammansättning?

Det första steget, att ur "radio- och telefonteknik" härleda
"radioteknik" och "telefonteknik", är inte särskilt svårt
(även om det krävs ett visst mått av gissning).

Det andra steget består i att avgöra om två givna ord,
exempelvis "radio" och "cykel", får sättas samman.
Det enklaste är om sammansättningen redan finns i ordlistan,
då är svaret ett klart ja. Men annars får man försöka göra en
bedömning av sannolikheten att det är en korrekt sammansättning.
En vägledning är de enskilda ordens ordklasser; om det ena ordet
är ett adverb, så är sammansättningen förmodligen ogiltig.
Om, som i fallet med "radio" och "cykel", båda är av en rimlig
ordklass, så kan sammansättningen inte förkastas på syntaktiska
grunder. Man måste då gå över till semantiken.
I Den Stora Svenska Ordlistan (http://217.215.213.10/)
arbetar vi på två olika system att representera semantiken;
"semantiska markörer" och "klassificeringar". (De ligger inte
ute på nätet ännu. Huvudsyftet med den semantiska klassificeringen
är för övrigt att kunna göra översättning mellan olika språk.)
Genom att lägga in associationer mellan de semantiska kategorierna
kan man få en viss uppfattning om rimligheten av en sammansättning.
Tyvärr är detta extremt komplicerat att genomföra, och dessutom
skulle "radiocykel" troligtvis få en ganska välvillig bedömning av
ett sådant system.

> Om vi vill uppnå detta, hur bör våra ordlistor vara konstruerade?

Syntaktisk information:
1) Ta med så många *rimliga* sammansättningar som möjligt.
2) För svenska språket, lägg in sammansättningsböjningar -
   t.ex. används formen vecko- när substantivet "vecka" förekommer
   (som första ord) i sammansättningar.
3) Markera ord- och böjningsklass för alla ord.

Semantisk information (extremt svårt att utnyttja):
4) Klassificera de olika semantiska enheterna (en "semantisk enhet"
   är en specifik *betydelse* av ett ord) i huvud- och underkategorier.

OK?

--
Göran


 
Förstasida   Anmälning   Postarkiv   Översikt   Kalender   Sök

 
 
Fel och synpunkter angående webb-sidorna skickas till <www_admin>. Senaste ändring 2005-08-10, klockan 20:54
Denna sidan underholds av MHonArc .