Автоматическая расстановка ударений в тексте - Русский язык. Правила написания

Поставить ударение в слове

Ударение — один из главных составляющих русского языка. Оно применяется при фонетическом разборе слова. Также, ударение служит методом различения слов.

Особенно это важно при написании омографов. Омографы — это такие слова, которые пишутся одинаково, но имеют разное произношение и, соответственно, значение.

Например, мУка — мукА; плАчу-плачУ.

Чёткого правила постановки ударения в русском языке нет.

Наш сервис обозначает все возможные варианты расстановки ударений в зависимости от

смысла слова. Для этого над каждым словом указываются некоторые морфологические признаки.

Например, слово «замок».

замОк — (сущ.) дверной замОк.

ЗАмок — (сущ.) княжеский зАмок.

замОк — (глагол) замОк до дрожи.

ЗамОк — (сущ.) приём в разных видах спорта.

Программа отдаёт предпочтение литературной постановке ударений.

Учтите, что берег и берёг — абсолютно разные слова, где е и ё — две совершенно разные буквы русского алфавита.

Пройдёт много времени, сменится несколько поколений, только грамотные ораторы будут востребованы всегда и везде. Если вы хотите стать перспективным человеком, имеющим правильное произношение, которого приятно слушать — пользуйтесь нашими сервисами.

Появление и широкое распространение цифровых технологий с автоматическим исправлением орфографических ошибок, Т9, умными клавиатурами привело к обесцениванию грамотности среди молодёжи. Всё больше детей, начиная учиться в школе, задаются вопросом: «А зачем мне знать эти правила, если компьютер исправляет ошибки?».

Но, образованные люди ценились всегда. А в нынешних условиях грамотность будет являться преимуществом человека.

Правильно произносить слова очень важно (и здесь не поможет гаджет). То же «звОнит» может запросто поставить крест на карьере. Грамотная же устная речь открывает многие двери.

Знать куда падает ударение нужно не только для красивой речи, но и для грамотного письма. К примеру, чтобы узнать как правильно пишется безударная гласная в корне, необходимо подобрать однокоренное слово, имеющее гласную под ударением.

Наш сервис поможет правильно поставить ударение в слове.

Программа создана в помощь учащимся школ и ВУЗов, преподавателям, работникам СМИ и всем остальным желающим правильно говорить по-русски.

Запоминайте и блистайте правильной и красивой речью!

Ударение в русском языке — это выделение слога в слове силой голоса. На письме ударение выделяется знаком ` над ударным звуком.

Содержание

Расставляем ударения с помощью Natasha и Spacy
Мой опыт
Данные
Spacy
Инициализация
Токенизация и морфологический анализ
Совместимость морфологических показателей
Обрабатываем все токены
Результаты
Литературный текст
Некоторые сложные случаи
Расстановка ударений в тексте на русском языке
Ударение в русском языке

Расставляем ударения с помощью Natasha и Spacy

Представьте себя на месте изучающего русский язык иностранца. Ударение станет одним из ваших самых страшных ночных кошмаров. Во-первых, оно не описывается каким-то простым набором правил, и чаще всего правильное произношение приходится просто запоминать. Во-вторых, оно обычно не обозначается в текстах, что практически сводит на нет относительную близость русской орфографии к произношению — без ударений правильно прочитать текст с незнакомыми словами иностранец все равно не сможет. В-третьих, неправильное ударение сильно меняет фонетический образ слова для русского человека, и из-за одной ошибки вас могут просто не понять.

Мой опыт

Я знаком с одной девушкой, которая изучает русский язык в университете Лейдена. Однажды я написал приложение для изучения русского, одной из функций которого была расстановка ударений. Я просто проверял каждое слово по словарю. Однако, это часто приводило к ситуации неоднозначности, когда ударение зависит от контекста. Например: «два сло́ва», но «длинные слова́». В подобных ситуациях мне ничего не оставалось делать, кроме как оставлять слово без ударения.

Но ведь неоднозначность возникает из-за того, что ударение зависит от того, в какой форме употреблено слово, от его морфологических показателей. Если мы сможем найти словарь ударений в зависимости от формы слова + научимся определять форму слова по контексту, то мы сможем разрешить неоднозначность. Морфологический анализ — одна из стандартных задач NLP, для ее решения воспользуемся библиотекой Spacy.

Данные

Где же нам найти подходящий словарь ударений? Интересующая нас информация есть в wiktionary.

Wiktionary

Для парсинга wiktionary существует либа wiktionaryparser. Впрочем, для наших целей подойдёт уже готовый результат её работы. Json-файл содержит набор словоформ, для каждой из которых доступно ее написание с ударением, набор определений, а также маркер части речи. Кроме того, я распарсил словарь Зализняка и добавил те формы оттуда, которых не нашлось в wiktionary.

Для одного токена может быть несколько объектов-словоформ, которые отличаются частью речи (военный как прилагательное и военный как существительное) или смыслом (писа́ть и пи́сать).

Новый формат словаря

Я перевел словарь в новый формат: каждому токену соответствует массив словоформ, для каждой словоформы определены поля accentuated (вид словоформы с ударением), form (морфологические показатели) и lemma (ссылка на лемму). Словарь сериализован с помощью pickle в wordforms.dat.

Словарь лемм

Кроме этого, я создал словарь лемм. Леммы содержат массив возможных частей речи + частотный ранг. Словарь лемм также сериализован с помощью pickle, в lemmas.dat.

Spacy

Spacy — это библиотека для NLP. Она умеет делать такие вещи как токенизация, морфологический анализ, синтаксический анализ, Named Entity Recognition. Нас интересуют первые две функции.

Мы будем использовать natasha-spacy, реализацию русского языка для spacy на основе natasha, поскольку она поддерживает более сложный морфологический анализ (падежи, времена), чем стандартная версия. Инструкция по настройке находится здесь.

Инициализация

Сначала загрузим наши словари, затем модифицируем токенизатор: добавим нестандартные (содержащие дефис или пробел) токены из нашего словаря. Это нужно из-за случаев наподобие «по-моему»: иначе слово будет разделено на «по», «-» и «моему», с неправильным ударением в «моему».

Токенизация и морфологический анализ

Делаем одновременно токенизацию и морфологический анализ.

Каждое слово представляем в виде словаря со значениями:

token — собственно запись словоформы (в нижнем регистре)

interpretations — набор объектов из словаря (возможно, с различными ударениями), которыми может быть наш токен

lemma — исходная лемма токена с точки зрения spacy

is_punctuation — признак принимает значение True не только для знаков пунктуации, но и для «специальных случаев» (см. предыдущий раздел про инициализацию spacy).

starts_with_a_capital_letter — мы переводим все токены в нижний регистр, и отдельно запоминаем, а было ли слово изначально написано с большой буквы

uppercase — написано ли слово полностью в верхнем регистре

whitespace — содержит пробел, если после токена идёт пробел. Нужно для восстановления результата

Совместимость морфологических показателей

Для каждой возможной «интерпретации» токена мы будем проверять, совместима ли она с морфологическими тегами, которые выдал spacy.

interpretation — строка с морфологическими показателями из словаря wordforms. Пример: «genitive plural»

lemma — лемма токена по версии natasha-spacy

tag — морфологический тег от spacy. Пример: «NOUN__Animacy=Inan|Case=Gen|Gender=Masc|Number=Plur»

lemmas — словарь лемм

Сначала проверим, что лемма lemma вообще может быть частью речи, указанной в tag. Это позволяет отфильтровать случаи вроде «потом» как наречие, чтобы не интерпретировать его как форму слова «пот».

Далее, проверяем различные несовместимые условия (только если interpretation не ‘canonical’):

В interpretation написано и в tag явно указано разное грамматическое число

В tag указан падеж, а в interpretation соответствующего падежа нет

Явное противоречие во времени глагола

Обрабатываем все токены

В accentuate_word сначала проверяем, не является ли слово именем собственным. Если является, ничего с ним не делаем. Если этого не делать, могут возникнуть случаи вроде интерпретации «Же́не» как «жене́».

derive_single_interpretation проверяет, существует ли единственный способ постановки ударения. Если да, она возвращает этот способ, иначе возвращается None.

Постановка ударения происходит в 3 этапа

Если у нас сразу получилось так, что можно однозначно поставить ударение, то мы ничего дальше не делаем. Большинство слов в реальных текстах будут попадать в эту категорию.

Если есть различные варианты ударения, отфильтруем interpretations, оставив только те, которые проходят процедуру compatible. После данного этапа снова проверяем, остался ли у нас лишь один вариант ударения.

Если даже это не помогло, оставим только те interpretations, у которых лемма совпадает с той, которую дает natasha-spacy (в определении леммы spacy нередко ошибается).

Возвращаем просто сырой токен без ударения, если даже после этого у нас не образовалось единственного варианта.

Результаты

Замечание: алгоритм не делает ёфикацию, поэтому текст следует предварительно пропустить через ёфикатор.

Литературный текст

Жил на опу́шке дрему́чего ле́са бе́дный дровосе́к со свое́й жено́й и двумя́ детьми́; ма́льчика зва́ли Гензель, а де́вочку — Гретель. Жил дровосе́к впроголодь; вот наступи́ла одна́жды в той земле́ така́я дорогови́зна, что не на что бы́ло ему́ купи́ть да́же хлеба на пропита́ние. И вот, под ве́чер, лёжа в посте́ли, стал он разду́мывать, и всё одолева́ли его́ ра́зные мы́сли и забо́ты; повздыхал он и говори́т жене́:

— Что же тепе́рь бу́дет с на́ми? Как нам прокорми́ть бе́дных дете́й, нам-то ведь и сами́м есть не́чего!

— А зна́ешь что, — отвеча́ла жена́, — дава́й-ка пораньше у́тром, то́лько начнёт света́ть, заведём дете́й в лес, в са́мую глуху́ю ча́щу; разведём им костёр, дади́м ка́ждому по куску́ хлеба, а са́ми уйдём на рабо́ту и оста́вим их одни́х. Доро́ги домо́й они́ не найду́т, вот мы от них и изба́вимся.

Ошибок нет. Однако, слова «впроголодь», «повздыхал» и «пораньше» не были найдены в словаре, и для них ударения не проставлены. Кроме того, не поставлено ударение в слове «хлеба»: в словаре не записано, что «хлеба́» — множественное число, а «хле́ба» — родительный падеж (парсер немного запутался из-за того, что нормальная форма множественного числа — «хлебы»). Проблемы подобного рода со словарем есть, но они довольно редки.

Некоторые сложные случаи

Я стою у окна́. В до́ме больши́е о́кна.

Ну, «стоить у окна» в теории тоже возможно. Слово «большие» иногда получает ударение на и (работа spacy стохастическая), иногда остается без него.

Я куплю́ немно́жко земли́. Не смей претендова́ть на мои́ зе́мли.

Нам нужны́ учителя́. Я процити́ровал своего́ учи́теля.

Мы зале́зли на строи́тельные леса́.

Самолёт жда́ли два дире́ктора. Дире́ктора бы́ли пожило́го во́зраста.

Увы, ошибка natasha-spacy со словом «директора»

Ключ снача́ла находи́лся в двери, а пото́м лежа́л на полу́.

Не разрешена неоднозначность со словом «двери»

К сожалению, слово «каре» не нашлось в словаре.

По-мо́ему, Маше стоит купи́ть маши́ну.

Не разрешена неоднозначность со словом «стоит»

По ле́су броди́л медве́дь. Мы наткну́лись на него́, когда́ гуля́ли в лесу́.

Расстановка ударений в тексте на русском языке

Приветствие от создателя сайта Тимура:

Узнайте, как активировать мозг и учиться быстрее (4 мин.)

Ваш браузер не поддерживает HTML5 видео!

Ударение в русском языке

Освоение русского произношения может оказаться сложной задачей для людей, которые только начинают изучать русский язык. Как вы знаете, русские гласные произносятся по-разному в зависимости от того, ударные они или безударные.

В отличие от некоторых других языков, в русском нет строгих правил постановки ударения – оно может падать на любой по счету слог в слове (сравните с французским, где ударение практически всегда падает на последний слог). Предсказать, на какой именно слог падает ударение в данном слове, практически невозможно, особенно иностранцу, который только начал изучать русский язык.

Этот онлайн-инструмент автоматически расставляет ударения в русских словах, а также восстанавливает букву «ё» в русском тексте. Это позволит сэкономить вам время, т.к. вам не придется искать в словаре информацию об ударении в слове.

Некоторые русские слова, которые пишутся одинаково, имеют разное значение в зависимости от того, куда падает ударение. Сравните:

замо́к ↔ за́мок
больша́я ↔ бо́льшая

Такие слова называют омографами. Онлайн-инструмент покажет все возможные положения ударения в подобных словах. Словарь содержит информацию о 23 376 омографах (16 609 уникальных написаний слов).

В русском языке существует также группа слов, которые можно назвать «ложные» омографы. Это слова с буквой «ё», которые становятся омографами, если их записать с буквой «е». К примеру, слово «берёг», будучи записанным как «берег», может читаться и как «бе́рег», и как «берёг». Онлайн-инструмент показывает оба возможных ударения в подобных словах. Другие примеры:

колеса́ ↔ колёса
о́зера ↔ озёра

Существует еще одна группа слов, которые также могут писаться с буквой «е» или «ё». Положение ударения в таких словах одинаковое, но значение у них разное. Например: