Соревнование морфологических парсеров

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Соревнование морфологических парсеров » Работа экспертов » Проект инструкции для разметки "золотого стандарта"


Проект инструкции для разметки "золотого стандарта"

Сообщений 1 страница 4 из 4

1

Все слова размечаются через табуляцию в формате:
слово-табуляция-лемма-табуляция-часть_речи-табуляция-грамматические_признаки-конец_строки
например:
привык привыкнуть V m,sg,past

Разметке подлежат все орфографические слова, то есть, грубо говоря, все что пишется русскими буквами.
Несловарные элементы (знаки препинания, слова, записанные латинскими буквами, другая
псевдографика, html-теги) разметке не подлежит - эти строки имеют формат
несловарное_слово-конец_строки
например:
.
<p>

Вы вправе определять самостоятельно, считать или не считать слово орфографическим в трудных случаях (например, "Смирноff" или "IT-технологии").
Слова, которые записываются через дефис, вы вправе считать одним словом или двумя (в частности, "из-за", "какой-то", "плащ-палатка" обычно входят в
словари и считаются одним словом, а "полуземлянки-полухаты" - нет). В связи с этим вы вправе менять разделение текста на строчки (определять границы слов), склеивать или разбивать слова. Составные предлоги и союзы (в которых слова разделены пробелами: "в течение", "потому что") трактуются как два отдельных слова.

Каждому орфографическому слову приписывается один разбор. Если словоформа может иметь несколько возможных разборов, выбирается тот, который соответствует смыслу данного слова в контексте. Если контекст не позволяет вам разрешить неоднозначность, вы должны дать один из возможных разборов по своему выбору. Вы вправе оставить слово без разбора в случае, если совершенно не понимаете, как его разбирать, или пропустить одну из позиций (табуляция сохраняется).
В сложных случаях рекомендуется обращаться к Грамматическому словарю А.А.Зализняка или к Национальному корпусу русского языка ruscorpora.ru (подкорпус со снятой грамматической омонимией).

Лемма - это исходная форма слова, например, инфинитив у глагола, именительный падеж единственное число мужской род у имени прилагательного. Леммой имен пар или наборов предметов (например, "сапоги", "зубы") считается форма единственного числа. Лемма существительного соответствует форме множественного числа, если оно pluralia tantum или претерпевает серьезный сдвиг значения в форме мн. числа по сравнению с единственным (ср. "осадок" и "осадки").

Часть речи. В данной разметке используется упрощенная система частей речи:
S — существительное (яблоня, лошадь, корпус, вечность)
A — прилагательное (коричневый, таинственный, морской)
V — глагол (пользоваться, обрабатывать)
PR — предлог (под, напротив)
CONJ — союз (и, чтобы)
ADV — прочие несклоняемые слова (наречие + предикатив + вводное слово + частица + междометие, здесь же местоимения-наречия и предикативы-наречия: "где-то")
Местоимения и числительные не рассматриваются в оценке и тем самым, неважно, как вы их обозначите, однако рекомендуется система НКРЯ:
SPRO - местоимения-существительные (я, всё)
APRO - местоимения-прилагательные (мой, какой)
NUM - количественные и собирательные числительные (два, двое)
ANUM - порядковые числительные (первый, десятый, один).

Морфология (грамматические_признаки).
В категориях ADV,PR,CONJ поле остается пустым. Морфология указывается только для S,A,V,SPRO,APRO,NUM,ANUM.
Здесь также используется сокращенный набор признаков:
род - m, f, n
падеж - nom, gen, dat, acc, ins, loc
число - sg, pl
время/наклонение/причастие/деепричастие - pres, past, imper, inf, partcp, ger
залог - act, pass (указываются только в формах причастий: причастия на -ущ-/-ющ-/-ащ-/-ящ- и -вш-/-ш- имеют помету act, на -ем-/-ом-/-им- и -енн-/-анн-/-янн-/-т- имеют помету pass)
лицо - 1p, 2p, 3p
NB формы типа "пишу" и формы типа "напишу" объединяются в форму непрош. времени (pres), формы типа "пойдемте" считаются формами imper, формы имен из серии "пойти в солдаты" считаются nom, "в году" (второй предложный, местный) - loc
счетная форма (два шар/а) - gen
слова общего рода (врач) - указывается mf (в зачет не входит)
формы "второго родительного" типа "попить чаю" - указывается gen2 (в зачет не входит)
звательный падеж - указывается voc (в зачет не входит)
сравнительные степени на ПО- (попроще) - не входят в оценку, рекомендуется лемматизировать без по-

Список категорий, по которым НЕ БУДЕТ оценки (преимущественно классифицирующие категории): в разметке не указывается
переходность глагола
вид глагола
одушевленность имен
переходный/непереходный глагол
краткая/полная/сравнительная/превосходная форма прилагательного и наречия
возвратность глагола
залог: указывается только в формах причастий и деепричастий.

0

2

Каждому орфографическому слову приписывается один разбор. Если словоформа может иметь несколько возможных разборов, выбирается тот, который соответствует смыслу данного слова в контексте. Если контекст не позволяет вам разрешить неоднозначность, вы должны дать один из возможных разборов по своему выбору. Вы вправе оставить слово без разбора в случае, если совершенно не понимаете, как его разбирать, или пропустить одну из позиций (табуляция сохраняется).
В сложных случаях рекомендуется обращаться к Грамматическому словарю А.А.Зализняка или к Национальному корпусу русского языка ruscorpora.ru (подкорпус со снятой грамматической омонимией).

А чем тогда дорожка ЛЕММАТИЗАЦИЯ будет отличаться от ДИЗАМБИГУАЦИЯ: ЛЕММЫ
и, соответственно POS  от ДИЗАМБИГУАЦИЯ: POS   
а также МОРФОЛОГИЯ от ДИЗАМБИГУАЦИЯ:МОРФОЛОГИЯ (если бы такая категория была)?

0

3

На дорожке ЛЕММАТИЗАЦИЯ правильным ответом для словоформы будет, если вариант Стандарта совпадает с одним из предлагаемых парсером разборов (вхождение)
Стандарт    Парсер
банк           1) банк 2) банка  - правильно
свысока      1) свысок 2) свысокий - неправильно
На дорожке "ДИЗАМБИГУАЦИЯ: ЛЕММЫ" этот вариант Стандарта должен однозначно соотноситься с тем, который дает парсер.

0

4

olesar написал(а):

На дорожке ЛЕММАТИЗАЦИЯ правильным ответом для словоформы будет, если вариант Стандарта совпадает с одним из предлагаемых парсером разборов (вхождение)
Стандарт    Парсер
банк           1) банк 2) банка  - правильно
свысока      1) свысок 2) свысокий - неправильно
На дорожке "ДИЗАМБИГУАЦИЯ: ЛЕММЫ" этот вариант Стандарта должен однозначно соотноситься с тем, который дает парсер

А как же полнота?
Ведь по заявленной формуле оценки - это :"Отношение числа найденных релевантных документов, к общему числу релевантных документов в базе", а в описанном Вами случае "общее число релевантных документов в базе" равно 1 (одна данная экспертом расшифровка)

0


Вы здесь » Соревнование морфологических парсеров » Работа экспертов » Проект инструкции для разметки "золотого стандарта"


Рейтинг форумов | Создать форум бесплатно © 2007–2017 «QuadroSystems» LLC