Извлечение ключевых слов и словосочетаний может считаться частным методом

Содержание
  1. Методы и алгоритмы извлечения ключевых слов Текст научной статьи по специальности « Компьютерные и информационные науки»
  2. Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ванюшкин А.С., Гращенко Л.А.
  3. Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ванюшкин А.С., Гращенко Л.А.
  4. Текст научной работы на тему «Методы и алгоритмы извлечения ключевых слов»
  5. Задача: извлечь ключевые выражения из текста на русском языке. NLP на Python
  6. Качество
  7. Как читать результаты
  8. Методика тестирования
  9. Инструменты
  10. Зачем понадобились describe к словам и ключам
  11. Для чего всё это написано
  12. Что такое ключевое слово в тексте, и как его найти?
  13. Определение понятия
  14. Опорные слова в сказке «Курочка Ряба»
  15. Как находить ключевые слова
  16. Находим ключевые слова на примере текста
  17. Составление опорного конспекта
  18. Ключевые слова – помощники поисковых систем
  19. 💥 Видео

Видео:3 СЕКРЕТА КАК ПРАВИЛЬНО ПРОПИСАТЬ КЛЮЧЕВЫЕ СЛОВА В SEOСкачать

3 СЕКРЕТА КАК ПРАВИЛЬНО ПРОПИСАТЬ КЛЮЧЕВЫЕ СЛОВА В SEO

Методы и алгоритмы извлечения ключевых слов Текст научной статьи по специальности « Компьютерные и информационные науки»

Видео:Сбор ключевых слов с помощью Chat GPTСкачать

Сбор ключевых слов с помощью Chat GPT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ванюшкин А.С., Гращенко Л.А.

В работе выполнен систематизированный обзор методов и алгоритмов извлечения ключевых слов из текстов, приводится их классификация и хронология. Показано наличие небольшого числа перспективных подходов к выделению ключевых слов из русскоязычных текстов, несмотря на значительное количество публикаций в данной предметной области.

Видео:Русский язык 6 класс (Урок№11 - Ключевые слова. Сочинение-рассказ.)Скачать

Русский язык 6 класс (Урок№11 - Ключевые слова. Сочинение-рассказ.)

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ванюшкин А.С., Гращенко Л.А.

Видео:Группировка ключевых слов для рекламыСкачать

Группировка ключевых слов для рекламы

Текст научной работы на тему «Методы и алгоритмы извлечения ключевых слов»

Методы и алгоритмы извлечения ключевых слов

Ванюшкин А.С., войсковая часть 49911

alexmandr@mail.ru Гращенко Л.А., Академия ФСО России graschenko@mail.ru

В работе выполнен систематизированный обзор методов и алгоритмов извлечения ключевых слов из текстов, приводится их классификация и хронология. Показано наличие небольшого числа перспективных подходов к выделению ключевых слов из русскоязычных текстов, несмотря на значительное количество публикаций в данной предметной области.

Объемы циркулирующей в мировых телекоммуникационных сетях и хранящейся на серверах информации демонстрируют динамику взрывного роста. По оценкам компании Cisco Systems, с 2010 по 2015 год ежемесячный объем передаваемого в сети Интернет трафика, включающий тексты и веб-данные, возрос с 2,4 до 8,6 экзабайт. А к 2018 году прогнозируется удвоение этого числа. Пропорционально растут показатели рынка текстовой аналитики, емкость которого по данным International Data Corporation (IDC.com) в 2015 году составила 2,65 млрд. долл., а прогноз на 2020 год — 5,9 млрд. долл. При этом в настоящее время анализируется менее 1% текстов, а рост рынка происходит в основном за счет анализа данных социальных сетей.

Все указанное обуславливает увеличение состава и сложности программных решений в области обработки текстов на естественных языках, в основе которых лежит ряд базовых алгоритмов, в том числе — алгоритмы выделения или извлечения из текстов ключевых слов (Keyword Extraction). В общем представлении ключевыми называются важные слова или фразы, дающие высокоуровневое описание содержания текстового документа, позволяющие выявить его тематику. Выделенный из текста список ключевых слов (КС) может выступать в качестве мета-информации, представляя текстовый документ при решении задач информационного поиска, классификации, кластеризации, анно-

тирования и реферирования [Manning, 1999]. При разработке автоматизированных систем, реализующих перечисленные задачи, необходимо опираться на эффективные алгоритмы, относительно которых имеется точная и проверенная информация о показателях их функционирования и границах применения. С позиций настоящей статьи, прежде всего, речь идет о русском языке, обладающим рядом особенностей по отношению к английскому, для которого разрабатывалась основная масса доступных открыто алгоритмов. Зачастую, авторы утверждают о высоких показателях работы своих алгоритмов извлечения КС, не приводя данных ни об их применении в тех или иных продуктах, ни об испытаниях на произвольном наборе иноязычных текстов.

В связи с указанными противоречиями, в данной работе предпринята попытка систематизировать имеющиеся сведения о проблемной области извлечения ключевых слов, разработанных методах и реализующих их алгоритмах, а также обосновать выбор направлений перспективных исследований.

2 Проблематика выделения ключевых слов

Анализ предметной области показывает наличие различных подходов к определению понятия «ключевое слово». Помимо общенаучного понимания ключевых слов как определяющих содержание текста и передающих его основной смысл, данный феномен рассматривается такими научными и прикладными дисциплинами как психолингвистика, теория коммуникации, компьютерная и когнитивная лингвистика, информатика [Моск-витина, 2009]. Задача извлечения КС, именуемых также различными авторами «словами-концептами», «лексическими доминантами» и «смысловыми вехами», является одной из труднейших задач лингвистики текста [По-пуша, 2008].

Обзор доступных публикаций показывает, что приводимые различными авторами с позиций разнообразных подходов определения

КС зачастую однотипны, при этом недостаточно формализованы. Обобщая многочисленные взгляды можно заключить, что ключевыми словами называют особо важные, общепонятные, ёмкие и показательные для отдельно взятой культуры слова в тексте, набор которых может дать высокоуровневое описание его содержания для читателя, обеспечив компактное представление и хранение его смысла в памяти [Стожок, 2009; Москвитина, 2009; Гринева, Гринев, 2009; Rose, 2010]. Вследствие этого, КС используются в информационном поиске, упрощая описание того или иного информационного ресурса, снижая объём необходимых для этого данных.

Понятия «ключевое слово» и «ключевое словосочетание» (фраза) рассматриваются большинством ученых как синонимы. Но отдельные исследователи не приемлют такой подход, указывая на существенные различия в содержании данных понятий. Ключевые фразы представляют собой сочетание двух или более слов, которые как могут следовать друг за другом в тексте, так и быть разделенными другими языковыми единицами [Tumey, 2000]. Действительно, не все входящие в состав ключевых фраз слова при отдельном рассмотрении являются ключевыми. Но также вполне очевидно, что выделением отдельных КС затруднительно выразить основной смысл содержимого. Поэтому на практике востребовано выделение именно ключевых фраз, что близко к задаче создания списка терминов и ссылок на них (back-of-book indexes). Указанные вопросы рассматривалась в работах [Астраханцев, 2014; Захаров, Хохлова, 2014; Лукашевич, Логачев, 2010]. Основное отличие — длина списка на выходе алгоритма. Документу обычно соответствуют единицы ключевых фраз, длина же списка терминов, основой которых также являются КС [Стожок, 2009] колеблется от десятков до сотен. Составление перечня ключевых словосочетаний является одной из трудностей в рассматриваемой предметной области.

В результате систематизации данных различных исследователей нами выделен перечень существенных свойств и функций ключевых слов в текстах, значимых в контексте моделирования и алгоритмизации процесса их извлечения. Итак, ключевые слова характеризуются тем, что:

• являются наиболее употребительными (частотными) наименованиями [Стожок,

2009], обозначают признак предмета, состояние или действие [Попуша, 2008];

• представлены значимой лексикой, достаточно обобщены по своей семантике (средней степени абстракции), стилистически нейтральны, не оценочны [Стожок, 2009];

• связаны друг с другом сетью семантических связей, пересечения значений [Москвитина, 2009];

• более половины слов ядра тематического компонента состоит из ключевых слов, а минимальный набор КС приближается к инварианту содержания при их логическом упорядочивании;

• набор КС состоит из 5-15 [Тштеу, 2000] или 8-10 слов, что соответствует объему оперативной памяти человека [Москвитина, 2009], в тексте содержится 25-30% ключевых слов [Попуша, 2008];

• набор КС определяет контексты слов, обладающих максимальной предсказуемостью.

В процессе восприятия текста ключевые слова выделяют по синтаксической позиции (заголовок или первое предложение), по частотности употребления, лексическим паттернам, необычным сочетаниям, отношениям синонимии, антонимии, морфологической и семантической производности [Попуша, 2008], рис. 1.

Рис. 1. Основные признаки ключевых слов

Несмотря на большое число специализированных и междисциплинарных работ, посвященных ключевым словам, до настоящего времени не разработана последовательная методика обнаружения ключевых слов человеком. Экспериментально подтверждено, что эта операция выполняется людьми интуитивно, и является личностно и даже гендерно обусловленной [Ноздрина, 2015]. Отсюда вытекает и сложность разработки методов и алгоритмов извлечения КС для вычислительной техники. Отсутствие четких формализованных моделей, чрезвычайно размытые определения с точки зрения компьютерной лингвистики и других инженерных дисциплин за-

трудняют создание и верификацию соответствующего инструментария.

Так как приведенные характеристики ключевых слов проявляются на нескольких уровнях рассмотрения текста — морфологическом, лексическом, синтаксическом и, прежде всего, прагматическом, то их распознавание подразумевает относительную сложность используемых методов и многоэтапность реализующих их алгоритмов. Действительно, библиографический обзор показывает, что в современных алгоритмах извлечения КС можно выделить три последовательных этапа, рис. 2.

Рис 2. Типовая последовательность этапов извлечения ключевых слов

На первом этапе выполняется предварительная обработка текста, осуществляемая на графемном, морфемном и лексическом уровнях, призванная представить текст в формате, удобном для последующего распознавания. Здесь могут быть реализованы такие вспомогательные процедуры как графематический анализ (токенизация текста, удаление разметки), морфологический разбор, лексическая нормализация (в том числе согласование синонимов), лемматизация (стемминг), частере-чевая разметка (POS-tagging), удаление стоп-слов (служебной лексики) и т.д. [Надеждин, 2015]. Все эти процедуры требуют использования специфических лингвистических баз и словарей, формирование которых зачастую не является тривиальной задачей [Усталов, 2012; Litvak, Last, Kandel, 2013]. Поэтому данный этап — языкозависимый, что означает различие в содержании предварительной обработки для разных языков. Поэтому большинство имеющихся алгоритмов выделения КС требуют адаптации для русского языка. На данном этапе может осуществляться первичный отбор кандидатов в КС с формированием списка слов или словосочетаний.

Существенные различия в содержании основных современных алгоритмов извлечения КС проявляются при реализации второго этапа — собственно распознавания ключевых слов (или фильтрации предварительного

списка кандидатов). После установления значений ансамбля признаков в зависимости от выбранного подхода производится их сравнение с эталонами (порогом) и принятие решения о принадлежности того или иного слова-кандидата к множеству КС. В зависимости от базового метода извлечения КС в алгоритме могут использоваться различные лингвистические ресурсы — словари, корпуса, онтологии, поэтому данный блок может быть как языкозависимым, так и языконезависимым.

На заключительном этапе постобработки выходные данные — список КС — представляется в соответствии с пользовательскими или программными настройками в том или ином формате. Здесь может осуществляться усечение списка, его ранжирование и упорядочивание, визуализация методами когнитивной графики т.д. [Воронина, 2010].

Таким образом, ядром любого алгоритма извлечения КС является блок распознавания, основанный на конкретном методе в рамках того или иного подхода, классификация и диахроническое рассмотрение которых описывает содержание предметной области.

3 Технологические аспекты автоматического извлечения ключевых слов

3.1 Классификация методов извлечения ключевых слов

Доступные публикации описывают классификации методов автоматического извлечения КС разной степени полноты и детализации. В самом простом случае исследователи выделяют статистические и основанные на машинном обучении методы [Chen, Lin, 2010]. Схожая классификация приводится в работе отечественных авторов, которые рассматривают статистические и гибридные модели КС, на основе которых рассматриваются конкретные методы [Шереметьева, Осьми-нин, 2015]. Более развернутая классификация подразумевает выделение четырех страт: не требующих обучения простых статистических методов; лингвистических методов; основанных на машинном обучении методов и их комбинации [Zhang, 2008].

Последний из доступных отечественных обзоров предметной области извлечения ключевых слов приводит классификацию на основе типа системы распознавания, которая подразумевает выделение лингвистических, статистических и гибридных (лингво-

статистических) методов [Виноградова, Иванов, 2015]. Однако и эта, и прочие классификации, на наш взгляд, не отражают весь спектр и специфику существующих решений.

Так как любой алгоритм извлечения КС, по сути, реализует одну или несколько систем распознавания образов, разбивающих входное множество слов на два класса (ключевые и прочие), то предлагается использовать не иерархическую, а фасетную классификацию соответствующих методов и выбрать следующую совокупность признаков, рис. 3:

• наличие элементов обучения и подходы к его реализации;

• тип математического аппарата системы распознавания, обусловленного формой информации представления признаков ключевых слов;

• тип используемых для реализации метода лингвистических ресурсов.

^ Необучаемые ^ ^Самообучаемые^ ^ Обучаемые ^

По лингвистическим ресурсам

По матаппарату распознавания

На основе корпусов^

Рис. 3. Классификация методов извлечения ключевых слов

По наличию элементов обучения выделяют необучаемые, обучаемые и самообучаемые методы извлечения КС. Более простые необу-чаемые методы подразумевают контекстно-независимое выделение КС из отдельного текста на основе априорно составленных моделей и правил. Они подходят для гомогенных по функциональному стилю корпусов текстов, увеличивающихся со временем в объемах, например научных работ или нормативных актов. Обучаемые методы предполагают использование разнообразных лингвистических ресурсов для настройки критериев принятия решений при распознавании

ключевых слов. Здесь большое значение имеет корректное выделение КС в выборке, используемой для обучения. Среди методов с обучением можно выделить подкласс самообучаемых, если обучение ведется без учителя или с подкреплением (на основе пассивной адаптации).

По второму признаку классификации (рис. 3), прежде всего, следует выделить статистические и структурные методы извлечения КС. Статистические методы учитывают относительные частоты встречаемости морфологических, лексических, синтаксических единиц и их комбинаций. Это делает создаваемые на их основе алгоритмы довольно простыми, но недостаточно точными, т.к. признак частотности ключевых слов не является превалирующим [Salton, Yang, 1973]. Одним из классических методов в данном классе является расчет для каждого слова меры TF-IDF (Term Frequency-Inverse Document Frequency) [Jones, 1972], отражающей его важность в тексте, рассматриваемого как элемент коллекции документов.

В основе структурных методов лежит представление о тексте, как системе семантически и грамматически взаимосвязанных элементов-слов, которые в свою очередь характеризуются набором лингвистических признаков. Поэтому многие исследователи называют этот класс методов лингвистическим. Здесь в первом приближении могут быть выделены два подкласса — графовые и синтаксические (шаблонные) методы.

Графовые (граф-ориентированные) методы представляют текст множеством слов-вершин (или вершин-словосочетаний) и ребер-отношений между ними. Эти отношения могут выражать для каждой пары слов факты последовательного появления в тексте, наличия в окне заданного размера и семантическую близость. Для вершин полученного графа вычисляются меры центральности и по пороговому критерию отбираются ключевые слова. Различия между данными методами состоят в особенностях учета значимости каждой вершины и вычисления отношений между ними.

В основе синтаксических (шаблонных методов) лежит представление о регулярных синтаксических конструкциях, содержащих на определенных позициях ключевые слова. В чистом виде такие методы слабо применимы к рассматриваемой задаче, но могут использоваться в сочетании с другими.

Нейросетевые методы к задаче извлечения КС стали применяться сравнительно недавно и основаны на свойстве искусственных нейронных сетей к обобщению и выделению скрытых зависимостей между входными и выходными данными. Однако для формирования наборов данных для обучения и функционирования нейросетей требуется выделение структурных и статистических признаков, поэтому на практике методы выделения КС являются гибридными, т.е. сочетающими в себе элементы основных рассмотренных классов.

Наконец, алгоритмы извлечения КС, реализующие означенные методы могут не использовать какие-либо лингвистические ресурсы, или использовать разного рода словари, онтологии и тезаурусы, а также корпуса текстов (без разметки или с разметкой).

Стоит отметить, что приведенная классификация достаточно условна и не претендует на полноту при описании реально существующих разработок в рассматриваемой предметной области.

3.2 Обзор основных алгоритмов извлечения ключевых слов

Подходы к автоматическому извлечению КС менялись по мере развития моделей ключевых слов и теории распознавания образов. Графически представленная динамика исследований позволяет заключить, что фактор совершенствования средств вычислительной техники обусловил всплеск интереса и количества программных решений в рассматриваемой предметной области в последние годы, рис. 4.

( Salton, 1973 ) (lurney, 200р)

( Jones, 1972 ) (Witten, 1999) ( Hulth, 2003 ) (Uzun,2005)

(Wan, 2008) (Tsatsaroms, 201() (Лрсирий, 2013 )

(Mihalcea, 2007)(jiang, 2009) (коршунов, 2011)

(zhang, 2008) (Sarkar, 20lp) (Bellaachia, 201^

1950 1960 1970 1980 1990 1995 2000

(Mihalcea, 2004) (Girish, 2007) (Воронина, 2009)

Видео:Что такое словосочетаниеСкачать

Что такое словосочетание

Задача: извлечь ключевые выражения из текста на русском языке. NLP на Python

Что было нужно в самом начале:

  • программа, «выуживающая» из сырого текста на русском языке уникальные названия продукции по определенной отрасли. Сырой текст — текст, который писал человек, просто излагая свои мысли и не заботясь о формировании или выделении какого-либо списка слов;
  • автоматически получаемый список слов;
  • минимальная ручная или автоматизированная обработка для преобразования списка в набор хештегов или ключевых слов к тексту.

Полагаю, что неявно с проблемой многие сталкиваются ежедневно, после написания или анализа статьи, поста, комментария, заметки, отчета и т.д. Вот и мне по роду деятельности приходилось сталкиваться с данной проблемой по многу раз в день. Поэтому, можно сказать, к идее автоматизации меня привела «лень», в хорошем смысле этого слова.

Сейчас, когда я пишу эту статью, сохранилась идея, но набор данных конечного результата сильно изменился:

  • выбираются не слова, а ключевые выражения и в том числе слова;
  • список ключевых выражений размечен 16-ю различными маркерами;
  • все слова текста (в том числе и не ключевые) лемматизированы – приведены в начальную форму или унифицированы под выведенный формат;
  • каждое слово в тексте имеет дополнительную аналитику, относящуюся к положению по тексту и числу повторений.

Результаты работы ПО nrlpk (Natural Russian Language Processing by the Keys) подготавливают данные для:

  • анализа текстов неограниченного круга тематик и отраслей (разработка и тестирование проводилось по материалам тематики промышленности и ВПК — Военно-Промышленного Комплекса);
  • автоматической рубрикации, классификации, каталогизации, предметизации материалов (online площадки);
  • контроля и фильтрации по содержимому с настройками реакции системы (службам и системам безопасности в замкнутых контурах или online);
  • многослойной разметки текстов (ИИ).

Качество

Чтобы не тянуть через всю статью тех, кто верит только цифрам, а не словам и тем, кто ожидает стопроцентного качества и другого не приемлет…

Качество выборки находится в интервале 95–100% при тестировании на статьях, размером не превышающих 3500 слов. Разброс связан с качеством и сложностью изложения. Вот пример одной из статей, участвовавших в тестировании, а вот результат её автоматического анализа.

Из полученного интервала качества необходимо убрать порядка 7-10%, т.е. фактический уровень качества, скорее будет 85-93%. Это связано с тем, что:

  • в процессе тестирования меняются требования к выбираемым данным, которых я ранее не замечал и полагаю, что далеко не всё замечаю и сейчас;
  • при ручной сверке присутствует мое субъективное мнение, что именно в статье можно признать ключом, а что нет – и оно с большой долей вероятности не совпадает ключ к ключу с мнением авторов статей.

С полным списком статей, на которых шло тестирование, и развернутой статистикой результатов можно ознакомиться на GitHub.

Что конкретно повлияло на качество результата в каждой статье, можно посмотреть в файле Reasons на GitHub.

Как читать результаты

В каждой папке для конкретной анализируемой статьи лежит 5 файлов с набором данных в юникоде:

  1. words.csv — список релевантных слов, включая список неидентифицированных;
  2. keys.csv — список ключевых слов, сейчас содержит, кроме маркированных выражений ещё и слова, которые повторяются по тексту не менее заданного числа раз – в данном случае не менее 4 раз;
  3. garbage.csv — список неидентифицированных слов;
  4. descr_words.csv — описание (статистика) к списку всех слов текста;
  5. descr_keys.csv — описание (статистика) к списку ключевых слов;

И reasons_quality.txt – (необязательный) список выражений из статьи, отобранных вручную и не попавших в ключи, или попавших некорректно (по мнению автора nrlpk).

nrlpk позволяет получить любой набор данных в одном из следующих форматов:

  • Pandas Dataframe (по умолчанию);
  • Python Dictionary;
  • JSON;
  • CSV файл.

Методика тестирования

Инструменты

nrlpk написан на Python 3.7.0. Уже в процессе проработки будущего ПО nrlpk появились два обязательных требования:

  • выбираем выражения, а не слова – слова в том числе;
  • наличие словаря специализированных отраслевых терминов.

Эти требования поставили под сомнение использование NLTK и pymorphy2, которые могли бы решить часть стоящих задач.

Для снятия сомнений была проведена ручная маркировка выборки текстов из СМИ, взятых с крупнейшего русскоязычного агрегатора новостей по тематике ВПК – ВПК.Name. Анализ маркировки выявил:

  • целый слой данных, которые не должны подвергаться пословной токенизации и лемматизации;
  • невозможность во многих случаях токенизации по предложениям до серьезной трансформации текста для исправления грамматических неточностей, которые допускают авторы более чем в 80% статей. Эти неточности никак не влияют на восприятие текста человеком, но очень существенно влияют на восприятие и интерпретацию такого текста машиной.

Кроме того, уже на данном этапе стала очевидной необходимость сбора и хранения разнообразной статистической информации об обрабатываемых объектах.

С учетом этих факторов, в качестве базового пакета работы с данными был выбран Pandas, который помимо описанных выше задач позволил проводить пакетную лемматизацию.

После анализа доступных для работы словарей русского языка за основу был взят OpenCorpora, к слову использующийся и в pymorphy2.
Он подвергся трансформации в форму удобную для работы с Pandas, после чего из него выделены следующие словари:

  • большой – вся база слов;
  • плохие слова – слова, исключаемые из анализа текста в связи с отсутствием значимости;
  • специальный – словарь специализированных (отраслевых) слов. В словарь не включены имена собственные: названия, имена, фамилии, адреса, продукция, изделия, компании, персоны и т.д. Это принципиальное и осознанное решение, поскольку в любой живой отрасли/направлении, такой подход потребовал бы постоянного контроля и ручного дополнения словарей, что губит идею облегчения труда через автоматизацию;

Словари сохранены юникоде, в простом текстовом формате для управления из любой внешней программы.

Поскольку основа для словарей в nrlpk и pymorphy2 идентична, то и обозначение частей речи (граммем) является идентичным. Число маркеров (нестандартных граммем) на данный момент составляет 16 и большинство из них, если маркированные выражения не состоят из нескольких слов, помимо маркера, имеют ещё и обозначение части речи базовой граммемы. Обозначение совпадающих маркеров (нестандартных граммем) с pymorphy2 идентично, в частности:

  • NUMB – число;
  • ROMN — римское число;
  • UNKN — токен не удалось разобрать.

К слову, для выражений, содержащих числовые данные, в nrlpk, помимо NUMB и ROMN дополнительно используются следующие маркеры:

  • NUSR – выражение содержит одно или несколько числовых данных;
  • MATH – выражение содержит математическую формулу.

Что такое ключевое выражение, состоящее из нескольких слов? На примере NUSR:

  • если в тексте стоит 25 февраля 2020 года, то и ключевое выражение будет 25 февраля 2020 года, с леммой «25.02.2020», граммемой «NUSR» и маркером NUSR;
  • однако, если в тексте стоит «25 февраля 2020 года», то ключевое выражение будет «25 февраля 2020 года», с леммой «2ф2г», граммемой «WIQM» и маркером WIQM;
  • если в тексте будет 25 тонн, то и в ключе мы увидим «25 тонн», с леммой «2т», где в качестве в качестве граммемы и маркера также будет «NUSR».

Зачем понадобились describe к словам и ключам

Сначала это было нужно для проверки работы алгоритмов nrlpk – не потерялись ли слова, не прошло ли лишнего объединения, какова доля ключей в тексте и т.д.

Но по мере отладки ПО стали проявляться некоторые «закономерности», выявление которых, как задача, перед nrlpk не ставилась:

  • выявление слов, написанных с орфографическими ошибками;
  • выявление текстов с плохой стилистикой, bad-% > 35% (практические наблюдения в результате тестирования);
  • выявление целевых (узконаправленных, четко позиционирующих) текстов — skeys-% 45% при ukeys-% стремящемуся к keys-%.

Для чего всё это написано

nrlpk находится в состоянии готовности к работе с текущими показателями качества обработки русских текстов, но не предоставляется как сервис. Автор имеет четкие и понятные направления развития в сторону повышения процента качества и стабилизации этого процента. Для развития этой задачи требуется стратегический инвестор и/или новый правообладатель готовый к дальнейшему развитию проекта к обозначенным целям.

Метки к этому (начальному — на Хабре чуть изменен) тексту (приведены ниже) автоматически сгенерированы nrlpk со следующими параметрами:

  • не признавать ключами выражений с числовыми данными;
  • признавать ключами слова, повторяющиеся по тексту не менее 8 раз.

С детальными данными результата обработки nrlpk этой статьи, можно познакомиться на GitHub.

Видео:ЧТО ТАКОЕ КЛЮЧЕВЫЕ СЛОВАСкачать

ЧТО ТАКОЕ КЛЮЧЕВЫЕ СЛОВА

Что такое ключевое слово в тексте, и как его найти?

Для тех, кто работает с текстом, очень важно находить в нём ключевые слова. Что такое ключевое слово в тексте? Давайте разбираться.

Извлечение ключевых слов и словосочетаний может считаться частным методом

Видео:Словоеб. Парсинг ключевых слов Яндекс Директ.Скачать

Словоеб. Парсинг ключевых слов Яндекс Директ.

Определение понятия

Если правильно найти в тексте ключевые слова, то не составит никакого труда восстановить весь текст. Александр Блок говорил об этом примерно так: текст – это покрывало растянутое на нескольких колышках. Ключевые слова – это опорные фрагменты текста, которые несут на себе содержательную нагрузку всего высказывания и располагаются в определённом порядке.

Если они найдены и расположены правильно, то смысл текста будет ясен и понятен.

Видео:Парсинг ключевых слов через словоебСкачать

Парсинг ключевых слов через словоеб

Опорные слова в сказке «Курочка Ряба»

Возьмём в качестве примера самый известный текст – сказку «Курочка Ряба». В каждом предложении присутствуют ключевые слова:

  1. дед и баба;
  2. курочка Ряба;
  3. яичко;
  4. золотое
  5. не разбили;
  6. мышка;
  7. разбилось;
  8. плачут;
  9. снесу простое.

Извлечение ключевых слов и словосочетаний может считаться частным методом

По этим опорным фрагментам легко восстанавливается весь текст.

Видео:Сбор ключевых слов с низкой конкуренцией - Анализ Ключевых слов в СемрашСкачать

Сбор ключевых слов с низкой конкуренцией - Анализ Ключевых слов в Семраш

Как находить ключевые слова

Что такое ключевое слово в тексте? Обычно оно является главным членом предложения, ну хотя бы одно из них. Если выбирать ключевое слово из основы, то выбрать рекомендуется то, которое связано с последующим контекстом. Обычно и второстепенные члены избираются в роли опорных по этому принципу – по связи со следующим предложением.

Видео:Как определить ключевые слова в тексте?Скачать

Как определить ключевые слова в тексте?

Находим ключевые слова на примере текста

Обратимся к конкретному примеру и найдём в нём опорные слова:

1) Совесть вдруг пропала. 2) Ещё недавно она мелькала там или сям, и вдруг исчезла. 3) Улеглись внутренняя смута и некое вечное беспокойство души, которые вечно бередила и тревожила совесть одним только своим присутствием. 3) Стало свободнее и как-то раздольнее. 4) Люди, выбравшись от ига совести, вздохнули с облегчением, поспешили воспользоваться плодами безнадзорности. 5) Они остервенились: начались грабежи и разбои, обман и мошенничество. 6) В итоге воцарилось всеобщий хаос и разорение. (По М.Е.Салтыкову-Щедрину)

Извлечение ключевых слов и словосочетаний может считаться частным методом

Итак, нам предстоит поиск ключевых слов в тексте, и мы выпишем части основ предложений или целиком основы:

3) улеглись смута и беспокойство;

4) стало свободнее;

5) люди поспешили воспользоваться;

7) хаос и разорение.

Чтобы проверить правильность выполненной работы, нужно попробовать по этим словам восстановить текст. Попробуйте это сделать, если вам удастся, значит, с задачей мы справились успешно.

Видео:Гугл планировщик ключевых слов: что это такое и зачем он нужен | SEMANTICAСкачать

Гугл планировщик ключевых слов: что это такое и зачем он нужен | SEMANTICA

Составление опорного конспекта

Когда нам известно, что такое ключевое слово в тексте, можно использовать это знание в процессе составления опорного конспекта. Возьмём для тренировки лёгкий текст-описание:

Ночь накинула своё покрывало над осенним лесом. В нём воцарились тишина и покой. Примолкли в тишине деревья. Они кажутся напуганными. Изредка с тихим шелестом падает одинокий листок. Молочно-белый туман оторвался от озера и поплыл на край леса.

Извлечение ключевых слов и словосочетаний может считаться частным методом

И вдруг налетел ветерок. Он ободряюще потрепал верхушки деревьев и разогнал туман. А потом умчался озорник навстречу рассвету.

На небе блистают звёздочки, придавая картине ночи таинственность и великолепие.

Вот и рассвет! Пробудился мир от сна. Лес зашевелился, встрепенулся и потянулся навстречу солнцу с радостью и восторгом.

Составить опорный конспект – найти в тексте ключевые слова

Яркие выражения текста, которые необходимо сохранить при пересказе текста, но они не являются ключевыми.

  1. Ночь.
  2. Тишина и покой.
  3. Деревья примолкли.
  4. Напуганными.
  5. Падает листок.
  6. Туман поплыл.
  1. Рассвет.
  2. Лес с радостью.

Если перед нами стоит задача – написать изложение, то, записав при первом чтении левую часть листа (опорный конспект), а при повторном – правую часть (яркие выражения), легко с этой задачей можем справиться.

Видео:Все способы словообразованияСкачать

Все способы словообразования

Ключевые слова – помощники поисковых систем

В наше время понятие «ключевые слова» имеют ещё одно значение – это то, что является содержанием сайта и что ищут поисковики. Например, я продавец сковородок, и у меня есть интернет-магазин. На своей странице размещаю текст, в котором несколько раз употребляю это слово. Человек, который хочет купить сковороду, введёт в строку поиска название этого предмета, и выйдет мой сайт.

При этом нужно учитывать плотность ключевых слов в тексте. Если она слишком большая, почти в каждом предложении, поисковая система сочтёт сайт заспамленным и не выведет его в числе первых результатов.

Давайте проведём практическое занятие и попробуем найти ключевые слова в статье из какого-нибудь сайта, например, в таком:

Это путешествие изменило мою жизнь! Алтай – это поистине сказочное место! Оно раскрывает в человеке скрытые возможности, о которых он сам даже не догадывался! Каждый день пребывания здесь насыщен событиями: что ни день, то новые впечатления. Приезжаешь на новое место и думаешь: вот оно, самое прекрасное место Алтая! А через полчаса ты в другой точке, которая ещё краше, ещё великолепнее!

Извлечение ключевых слов и словосочетаний может считаться частным методом

Отдельно хочется поблагодарить Александра, нашего гида, проводника и просто специалиста с большой буквы. Он смог заразить нас любовью к Алтаю, и теперь мы словно все родственники, объединённые одной связью – привязанностью к этому волшебному месту. Хотя уже все далеко друг от друга, но переписываемся и общаемся, вспоминая эту прекрасную сказку, имя которой Алтай!

Вот мы и разобрались, что такое ключевое слово в тексте. Без него невозможно представить себе связное высказывание, как видите.

💥 Видео

Сколько ключевых слов должно быть на странице сайтаСкачать

Сколько ключевых слов должно быть на странице сайта

Что такое ключевые словаСкачать

Что такое ключевые слова

Группировка ключевых слов для контекстной рекламы Google Ads (HD)Скачать

Группировка ключевых слов для контекстной рекламы Google Ads (HD)

Типы соответствия ключевых слов и их использование в AdWordsСкачать

Типы соответствия ключевых слов и их использование в AdWords

Как сейчас собирать ключевые слова под Яндекс?Скачать

Как сейчас собирать ключевые слова под Яндекс?

Сколько ключевых слов должно быть в Яндекс Директ?Скачать

Сколько ключевых слов должно быть в Яндекс Директ?
Поделиться или сохранить к себе: