-
Notifications
You must be signed in to change notification settings - Fork 11
Open
Description
I'm trying to write a rule which corefers surnames with full instances of those names. The question is, in the entities file is it possible to indicate the lemma of the entity or just the form ?
Однажды Пушкин написал письмо [Person Рабиндранату Тагору] .
" Дорогой далекий друг , — писал он , — я Вас не знаю , и Вы меня не
знаете . Очень хотелось бы познакомиться . Всего хорошего . Саша " . Когда
письмо принесли , [Person Тагор] предавался самосозерцанию .
Relevant parts of the conllu file:
# text = Однажды Пушкин написал письмо Рабиндранату Тагору.
1 Однажды однажды ADV _ Degree=Pos 3 advmod _ _
2 Пушкин Пушкин PROPN _ Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing 3 nsubj _ _
3 написал писать VERB _ Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act 0 root _ _
4 письмо письмо NOUN _ Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing 3 obj _ _
5 Рабиндранату Рабиндранат PROPN _ Animacy=Anim|Case=Dat|Gender=Masc|Number=Sing 3 obl _ _
6 Тагору Тагор PROPN _ Animacy=Anim|Case=Dat|Gender=Masc|Number=Sing 5 flat:name _ SpaceAfter=No
7 . . PUNCT _ _ 6 punct _ SpacesAfter=\s\n
...
# sent_id = 6
# text = Когда письмо принесли, Тагор предавался самосозерцанию.
1 Когда когда ADV _ Degree=Pos 3 mark _ _
2 письмо письмо NOUN _ Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing 3 nsubj _ _
3 принесли приносить VERB _ Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act 6 advcl _ SpaceAfter=No
4 , , PUNCT _ _ 3 punct _ _
5 Тагор Тагор PROPN _ Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing 6 nsubj _ _
6 предавался предаваться VERB _ Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid 0 root _ _
7 самосозерцанию самосозерцание NOUN _ Animacy=Inan|Case=Dat|Gender=Neut|Number=Sing 6 iobj _ SpaceAfter=No
8 . . PUNCT _ _ 7 punct _ SpacesAfter=\s\n
In the entities.tab file I have:
Пушкин person person/male
Рабиндранат Тагор person person/male
Рабиндранат person person/male
Тагор person person/male
Саша person person/male
Саша person person/female
And in the entity_heads.tab file I have:
Пушкин person person/male
Рабиндранат person person/male
Тагор person person/male
Саша person person/male
Саша person person/female
письмо object object
друг друг person
And then in the coref_rules.tab file I have:
form="proper";form="proper"&lemma=$1;100;nopropagate
Which I think says "if the antecedent is a proper noun and the anaphor is a proper noun and the lemma is the same, reading backwards in the document, corefer them up to 100 sentences back and don't propagate any agreement features".
In the config.ini I have:
# Parts of speech for proper nouns
proper_pos=/PROPN/
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels