Skip to content

noun "média" incorrectly lemmatized as "médio" #409

@leoalenc

Description

@leoalenc

@arademaker, naquela comparação entre MorphoBr e Bosque, surgiu uma discrepância em relação ao lema do substantivo média:

awk '$2 ~ /^média$/ && $3 ~ /médio/ && $4 ~ /NOUN/' *.conllu
2	média	médio	NOUN	_	Gender=Fem|Number=Sing	14	nsubj	_	_
2	média	médio	NOUN	_	Gender=Fem|Number=Sing	10	nsubj	_	_
3	média	médio	NOUN	_	Gender=Fem|Number=Sing	10	nsubj	_	_

Vejamos um caso:

grep -PhC 10 "média\tmédio\tNOUN" *.conllu
47-48	da	_	_	_	_	_	_	_	_
47	de	de	ADP	_	_	49	case	_	_
48	a	o	DET	_	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	49	det	_	_
49	entidade	entidade	NOUN	_	Gender=Fem|Number=Sing	46	nmod	_	SpaceAfter=No
50	.	.	PUNCT	_	_	15	punct	_	_

# text = A média diária de negócios com o metal em maio foi de 2,43 toneladas.
# sent_id = CF518-3
# source = CETENFolha n=518 cad=Dinheiro sec=eco sem=94b
1	A	o	DET	_	Definite=Def|Gender=Fem|Number=Sing|PronType=Art	2	det	_	_
2	média	médio	NOUN	_	Gender=Fem|Number=Sing	14	nsubj	_	_

O lema deveria ser média, certo?

Metadata

Metadata

Assignees

Labels

manualcorreção manual necessáriareviewaguardando revisão de sugestão

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions