20 августа 2019, вторник, 08:54
VK.comFacebookTwitterTelegramInstagramYouTubeЯндекс.Дзен

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Конференция «Диалог»: новые лингвистические проекты

Конференция «Диалог»: новые лингвистические проекты
Конференция «Диалог»: новые лингвистические проекты

С 29 мая по 2 июня в Москве проходила конференция «Диалог 2013» - крупнейшая регулярная конференция по компьютерной лингвистике в России, которая проводится уже в девятнадцатый раз. Ее тематика включает в себя как теоретические лингвистические исследования, так и прикладные вопросы, относящиеся к автоматической обработке языка, корпусной лингвистике, автоматическому переводу, извлечению информации. В этом году участники «Диалога» представили коллегам немало новых проектов, о некоторых из которых мы кратко расскажем в нашем обзоре.

О работе над типологической базой данных «Языки мира» рассказали В. Д. Соловьев и В. Н. Поляков. Для языков, представленных в базе данных есть возможность получить информацию по более чем трем тысячам параметров: фонетических, грамматических, синтаксических свойств. Есть возможность сравнивать два языка по выбранным критериям. В докладе рассказывалось о научных исследованиях, сделанных при помощи этой базы данных.

В докладе Д. О. Добровольского сообщалось о разработке немецко-русского фразеологического словаря он-лайн, основанного на корпусных данных. Фрагменты этого словаря доступны на сайте Института иностранных языков в Мангейме. Традиционно фразеологические словари содержали ограниченное число случайно набранных примеров или вообще не содержали примеров употребления идиом. Есть проблемы и при составлении двуязычных словарей. Например, немецкое выражение jmdn. an der Nase herumführen обычно переводят русским водить за нос, однако при анализе реальных примеров употребления этого выражения оказывается, что во многих случаях более удачным переводом было бы надуть, одурачить или обвести вокруг пальца. В частности, это вызывается тем, что выражение водить за нос крайне редко используется в форме совершенного вида. В результате в словаре, основанном на корпусных данных, приводятся все возможные эквиваленты идиомы с указаниями, в каких условиях каждый из них предпочтительнее использовать.

О. Н. Ляшевская представила проект «Частотного лексико-грамматического словаря». В отличие от обычного частотного словаря, где указывается частота встречаемости слов, в этом словаре должны содержаться данные о частоте каждой из форм слова, например, падежных форм существительного. Словарь ответит на вопрос, что встречается чаще: дом, дома, дому, домом... или говорю, говоришь, говорил, говорила, говорите...

У слова шепот формы творительного падежа составляют более 70 процентов употреблений, у слова поза более половины употреблений — в предложном падеже, у слова тропинка — в дательном

Лингвисты довольно давно заметили, что частота грамматических форм отдельных слов или групп слов может значительно отличаться от частоты этих форм в языке в целом. В среднем распределение частот падежей русских существительных, по данным Национального корпуса русского языка, таково: именительный — 27,06%, родительный — 29,23%, дательный — 5,98%, винительный — 18,66%, творительный — 8,44%, предложный — 10,63%. Однако, например, у слова шепот формы творительного падежа составляют более 70 процентов употреблений, у слова поза более половины употреблений — в предложном падеже, у слова тропинка — в дательном. Канадские лингвисты Салли Райс и Джон Ньюман заметили, что английские слова think, mean, know, довольно близкие по смыслу, имеют разное частотное распределение форм времени, лица и числа. Обнаруживать такие явления в русском языке исследователям поможет частотно-грамматический словарь.

Есть у такого словаря и прикладное значение. С помощью него можно при разработке программ обучению русскому языку как иностранному определять последовательно учебных тем, например, в каком порядке знакомить студентов с русскими падежами. Также преподаватели смогут, разбирая со студентами новую грамматическую категорию, подбирать для примеров и упражнений те слова, в которых она наиболее часто встречается в русских текстах.

Компьютерный словарь русских паронимов был создан Е. И. Большаковой и И. А. Большаковым. Необычность этого словаря в том, что он сделан не путем отбора паронимов вручную, а с помощью автоматического выбора слов компьютером. Напомним, что паронимы — это слова одного корня, созвучные друг другу, но различающиеся по смыслу: невежаневежда, двигательдвижитель, экономическийэкономичныйэкономный, одетьнадеть. Ученые разработали алгоритм, позволяющий автоматически выбрать из словаря русского языка пары и группы паронимических слов. В результате работы программы были выделены 21802 паронимических ряда, объединяющие 192024 слова. Компьютерный словарь может использоваться для автоматического анализа правильности употребления паронимов в тексте.

Латинскому прилагательному altus может соответствовать русское высокий, когда речь идет о горе или здании, или глубокий, когда речь идет о реке.

В поле зрения лексической типологии чаще всего попадают существительные (названия частей тела, степеней родства) или глаголы, а вот имена прилагательные, за исключением цветообозначений, куда реже удостаиваются внимание исследователей. Восполнить этот пробел призвана «Типологическая база данных адъективной лексики», о которой рассказали М. В. Кюсева, Т. И. Резникова и Д. А. Рыжова. Напомним, что одним из основных вопросов лексической типологии является то, какими способами разные языки «упаковывают семантический материал в слова». Обратившись к прилагательным, мы видим, что русскому слову острый в коми-зырянском языке соответствуют два — лэчыд и ёсь. Первое обозначает признак режущих инструментов — ножей, пил, кос, а второе — колющих инструментов или объектов с зауженным кончиком — стрел, копий, колов, а также носов, подбородков. Во французском прилагательных, обозначающих остроту, целых три: tranchant (ножи и пр.), aigu (иглы и пр.) и pointu (объекты типа подбородка). В русском языке есть слово тонкий, а в хантыйском, говоря о плоских тонких объектах (книгах, матрасах, стенах) надо употребить слово uoxəł, говоря о цилиндрических предметах (стеблях, веревках столбах) — слово vas’. При этом слово vas’ употребляется и в тех  случаях, когда в русском используется слово узкий (например, «узкая дорога»). Латинскому прилагательному altus может соответствовать русское высокий, когда речь идет о горе или здании, или глубокий, когда речь идет о реке. База данных, которую планирует создать группа ученых, будет способна отвечать на вопросы типа: «в каких языках значения ‘высокий по размеру’ и ‘расположенный высоко’ передаются разными словами?», «всегда ли слово со значением ‘тяжелый по весу’ означает также и ‘трудный’?» и так далее.

О первых результатах работы над грамматическим словарем и программой морфологического анализа для русских текстов XVIII–XIX веков речь шла в докладе А. Е. Полякова, С. О. Савчук и Д. В. Сичинавы. Программа должна автоматически определять грамматические характеристики слов и используется при работе над корпусом среднерусских текстов в составе Национального корпуса русского языка.

П. И. Браславский с коллегами рассказали о проекте большого открытого тезауруса русского языка YARN (Yet Another RussNet). Подобные тезаурусы, первый из которых начал разрабатываться в Принстоне в 1986 году (Princeton Wordnet), представляют собой семантические сети, узлами которых служат не отдельные слова, а синонимические ряды (синсеты, synset от synonym set). Синсеты связаны между собой различными отношениями (часть-целое, род-вид, антонимия и так далее). Подобная семантическая сеть может использоваться для разнообразных задач компьютерной обработки текстов. Такие словари тезаурусы, получившие название «ворднеты», сейчас, по данным всемирной WordNet-ассоциации, разработаны для 73 языков, в том числе для латыни и санскрита.

О. А. Казакевич и М. И. Воронцова представили проект многофункционального интернет‑ресурса «Малые языки Cибири: наше культурное наследие». В рамках проекта планируется собрать материалы материалы по малым языкам бассейна Среднего Енисея и Среднего и Верхнего Таза — селькупскому, кетскому и эвенкийскому. Обследовав в лингвистических экспедициях поселки, где живут носители этих языков, исследователи формируют социолингвистическую базу данных, показывающую, в насколько сохранился язык в каждом населенном пункте: число говорящих, их возраст, степень владения языком и так далее. Также во время экспедиций ученые создают озвученные словари каждого языка. Заранее подготовив тематический словарь на русском языке, они предлагают информанту для каждого русского слова четко произнести эквивалент на родном языке, а также перевести на родной язык предложение, в котором есть это слово. Будут также опубликованы тексты на разных диалектах изучаемых языков, как записанные в экспедициях, так и взятые из архивов. Тексты снабжаются транскрипцией, переводом, а записанные в недавних экспедиция также аудио и видеозаписями. На сайте будут присутствовать грамматические очерки языков, обучающие программы, документальные фильмы и фотографии.

Обсудите в соцсетях

Система Orphus
«Ангара» Африка Византия Вселенная Гренландия ДНК Иерусалим КГИ Луна МГУ Марс Металлургия Монголия НАСА РБК РВК РГГУ РадиоАстрон Роскосмос Роспатент Росприроднадзор Русал СМИ Сингапур Солнце Юпитер акустика антибиотики античность археология архитектура астероиды астрофизика бактерии бедность библиотеки биомедицина биомеханика бионика биоразнообразие биотехнологии блогосфера викинги вирусы воспитание вулканология гаджеты генетика география геология геофизика геохимия гравитация грибы дельфины демография демократия дети динозавры животные здоровье землетрясение змеи зоопарк зрение изобретения иммунология импорт инновации интернет инфекции ислам исламизм исследования история карикатура картография католицизм кельты кибернетика киты климатология комета кометы компаративистика космос культура лазер лексика лженаука лингвистика льготы мамонты математика материаловедение медицина метеориты микробиология микроорганизмы мифология млекопитающие мозг моллюски музеи насекомые наука нацпроекты неандертальцы нейробиология неолит обезьяны общество онкология открытия палеолит палеонтология память папирусы паразиты перевод питание планетология погода политика право приматы психиатрия психоанализ психология психофизиология птицы ракета растения религиоведение рептилии робототехника рыбы сердце смертность сон социология спутники старение старообрядцы стартапы статистика такси технологии тигры топливо торнадо транспорт ураган урбанистика фармакология физика физиология фольклор химия христианство школа экология эпидемии эпидемиология этология язык Александр Беглов Древний Египет Западная Африка Латинская Америка НПО «Энергомаш» Нобелевская премия РКК «Энергия» Российская империя Сергиев Посад альтернативная энергетика аутизм биология бозон Хиггса глобальное потепление грипп информационные технологии искусственный интеллект история искусства история цивилизаций исчезающие языки квантовая физика квантовые технологии компьютерная безопасность компьютерные технологии космический мусор криминалистика культурная антропология междисциплинарные исследования местное самоуправление мобильные приложения научный юмор облачные технологии обучение одаренные дети педагогика персональные данные подготовка космонавтов преподавание истории продолжительность жизни происхождение человека русский язык сланцевая революция финансовый рынок черные дыры эволюция эмбриональное развитие этнические конфликты ядерная физика Вольное историческое общество жизнь вне Земли естественные и точные науки НПО им.Лавочкина Центр им.Хруничева История человека. История институтов дело Baring Vostok Протон-М 3D Apple Big data Dragon Facebook Google GPS IBM MERS PRO SCIENCE видео ProScience Театр SpaceX Tesla Motors Wi-Fi

Редакция

Электронная почта: polit@polit.ru
Телефон: +7 929 588 33 89
Яндекс.Метрика
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2019.