По способам выделения из исходных текстов ключевых словосочетаний

Видео:Русский язык 9 класс (Урок№10 - Способы сжатия текста.)Скачать

Русский язык 9 класс (Урок№10 - Способы сжатия текста.)

Исследование и решение задачи автоматического реферирования текстов

Автор: Стуликова Н.В.
Источник: Будет опубликовано в сборнике тезисов X Всеукраинской научно-методической конференции студентов и молодых ученых «Прикладна лінгвістика – 2014: проблеми та рішення – Николаев, 2014.

Аннотация

В данной работе излагаются основные положения по исследованию и решению задачи автоматического реферирования текста, позволяющих улучшить смысловое качество реферата и повысить эффективность процессов обработки данных.

Постановка задачи. На современном этапе развития общества время является самым критическим ресурсом для человека. Человеку постоянно приходиться иметь дело с большим количеством различной информации, которую необходимо своевременно обрабатывать. Значительная часть такой информации представлена текстами на естественном языке. В случае, когда документов оказывается слишком много и человек не способен внимательно прочитать их в отведенное для этого время, на помощь приходят системы автоматического реферирования текстовых документов. Таким образом, разработка алгоритмов автоматического реферирования текстов не только не теряет своей актуальности, а напротив, становится все более необходимым в связи с постоянно возрастающим объемом текстовых данных.

Целью работы является исследование и решение задачи автоматического реферирования текста с применением технологий на основе нечеткой логики, которые позволят улучшить смысловое качество реферата и повысить эффективность процессов обработки данных и знаний в компьютерных системах и сетях.

Основные результаты исследований. Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки [1, с. 436]. Рефераты обычно составляют к научно-техническим документам (научным книгам, статьям, патентам на изобретение и т.п.). Реферат акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию. Процесс составления реферата называется реферированием. Составление реферата текста с помощью компьютера называется автоматическим реферирование.

По способам выделения из исходных текстов ключевых словосочетаний и предложений различают несколько методов автоматического реферирования текстов. Наиболее известны следующие три группы методов: статистические; позиционные; логико-семантические [2, с. 28-37].

Суть статистической группы методов заключается в том, что ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз; ключевым предложением считается предложение текста, которое имеет несколько ключевых слов и содержит ключевые слова на небольшом расстоянии друг от друга. В позиционных методах автоматического реферирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна – выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложении специальных семантически значимых слов, связи этого предложения с другими предложениями текста, синтаксического типа самого предложения и т.д.

Процесс реферирования распадается на несколько этапов: начальный анализ исходного текста, определение его характерных фрагментов, семантический разбор текста, анализ содержания документа и формирование реферата. Большинство современных работ концентрируются вокруг разработанной технологии реферирования одного документа.

Настраиваемый алгоритм предполагает реферирование текста с любым коэффициентом сокращения исходного текста и возможностью изменения параметров алгоритма, что позволит улучшить смысловое качество реферата и повысить эффективность процесса обработки.

Выводы. В работе проведено исследование существующих подходов к автоматическому реферированию текстов, и выявлена потребность в применение современных технологий в данной области, предложен настраиваемый алгоритм реферирования текстов на русском языке.

Видео:Задание 1 — как писать изложение на ОГЭ по русскому языку? | Алгоритм и лайфхакиСкачать

Задание 1 — как писать изложение на ОГЭ по русскому языку? | Алгоритм и лайфхаки

Системы автоматического аннотирования и реферирования текста

Реферат – связный текст, кратко выражающий не только центральную тему документа, но и цель, методы, основные результаты описанного исследования или разработки.

Аннотация – краткое изложение содержания документа с общим представлением о его теме.

Машинный реферат – последовательность предложений исходного текста либо таблица, в ячейках которой ключевые слова или словосочетания (первый машинный реферат был сделан в 1958 году).

Этапы построения реферата человеком:

1. 1)Подготовительный (чтение текста и осмысление документа в целом);

2. Аналитический (референт выделяет основные смысловые единицы (предложения, слова, словосочетания), строит план реферата);

3. Этап непосредственного построения реферата (выделенные ранее единицы располагаются в единый вторичный текст в соответствии с планом).

В качестве смысловых единиц реферата могут быть:

1) Полное (без изменений) ключевое предложение исходного текста;

2) Перефразированное ключевое предложение;

3) Предложение из ключевых слов и словосочетаний;

4) Предложение, обобщающее несколько предложений исходного текста.

Смысловые единицы аннотации:

1) Ключевые слова или словосочетания исходного текста с предшествующими им специальными словами – реляторами – заранее заготовленная фраза («тема состоит в том, что» и проч.);

2) Специальные предложения исходного текста, содержащие элементы («рассматривается важная проблема» и проч.)

ПК должен уметь:

1) Находить в тексте ключевые слова, словосочетания, предложения;

2) Находить в тексте менее значимые единицы;

3) Составлять из текстовых единиц смысловые единицы рефератааннотации.

Методы автоматического реферирования:

2. Позиционные: основным критерием этих методов является место или позиция предложения в тексте:

a. Метод заглавия (основное содержание текста выражается текстом заголовка) – составляет словарь ключевых слов на основе заголовковподзаголовков;

b. Метод локализации (работает на текстах узкой тематики) – идея в том, что в таких текстах предложения о цели и результатах занимают фиксированное место.

3. Логико-семантические: исследуют структуру и семантику текста.

a. Ключевое предложение – предложение с наибольшей функцией весомости влияют различные факторы:

b. Связь с левым и правым окружением;

c. Наличие в предложении семантически значимых слов;

d. Выделение текста шрифтом и т.д.

Каждый метод имеет достоинства и недостатки, используются комбинированно.

Данные методы относятся к направлению квазиреферирования, основаны на выделении из текстов наиболее информативных предложений, передающих основной смысл документа. Текст, полученный путём соединения отрывочных фрагментов, лишён гладкости.

Сегодня появились методы второго направления на выделение из текстов наиболее информативной информации и создания с помощью неё новых текстов. Такое реферирование приближается к интеллектуальному реферированию. Данные системы работают сразу с несколькими источниками, а также способны работать с видео.

Методы автоматического реферирования:

1) Статистический: в данном методе ключевое слово – это знаменательное слово текста, которое с учётом синонимов встретилось в тексте наибольшее число раз.

а) Задача: по формуле По способам выделения из исходных текстов ключевых словосочетанийгде
F – число повторений слова в тексте,
m – число абзацев, где есть это слово,
N – количество слов в тексте,
n – количество абзацев в тексте
составить алгоритм, позволяющий получить:

— аннотацию текста в виде слов-реляторов со следующими за ними ключевыми словосочетаниями текста – ключевыми существительными со стоящими перед ними определениями, выраженными прилагательными или причастиями;

— словесный реферат текста в виде последовательной цепочки ключевых предложений – предложений, содержащих три и более ключевых слова.

— Словоупотребление – цепочка символов, заключённых между двумя пробелами.

— Словоформа – словоупотребление вне текста. Несколько словоформ, имеющих одно и то же лексическое значение, образуют слово.

б) Алгоритм решения задачи:

— ПК по каждому абзацу составляет алфавитно-частотный словарь словоформ;

— Все словари объединяются в единый распределительный алфавитно-частотный словарь всего текста;

— Система «чистит» словарь, сжимая его до словаря потенциальных ключевых слов:

a. Удаляется служебная и общепринятая лексика;

b. Объединяются грамматические формы одного и того же слова;

c. Объединяются синонимы;

d. Удаляются слова, встреченные только в одном абзаце;

— Словарь потенциальных опорных слов делится (с помощью Кважн) на

a. Словарь главных опорных слов;

b. Словарь второстепенных опорных слов;

— Строится аннотация, составленная из слов-реляторов со следующими за ними ключевыми словосочетаниями, состоящими из главного опорного слова и определения.

Статьи к прочтению:

WIHA. Автоматический съёмник изоляции.

Похожие статьи:

Методы: 1)Кодирование (запись в двоичной системе речевых сигналов с их последующим восстановлением) а)По существу ПК здесь служит устройством для записи…

Почти все применяемые на практике шифры характеризуется как условно надёжные, поскольку они могут быть в принципе раскрыты при наличии неограниченных…

Видео:Как определить ключевые слова в тексте?Скачать

Как определить ключевые слова в тексте?

Автоматическое реферирование и аннотирование текста

По способам выделения из исходных текстов ключевых словосочетаний

Видео:Секреты выделения текста в WordСкачать

Секреты выделения текста в Word

Автоматическое реферирование и аннотирование текста

Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результа­ты описанного исследования или разработки. Рефераты обычно составляют к научно-техническим документам (науч­ным книгам, статьям, патентам на изобретение и т. п.) Реферат ак­центирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. Он помо­гает человеку ориентироваться в информационных потоках, опе­ративно отбирать для себя наиболее ценную и полезную информа­цию. Процесс составления реферата называется реферированием.

Аннотацией называют краткое изложение содержания докумен­та, дающее общее представление о его теме. Таким обра­зом, если реферат в краткой форме знакомит читателя с сутью излагаемого в документе содержания (фактами, методикой, экс­периментами и т. п.), то аннотация выполняет лишь сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему. Процесс составления аннотации называется аннотированием.

Рефераты и аннотации представляют собой вторичные доку­менты (первичные, или исходные, документы — это книги, статьи, патенты и т. п.) В каждом вторичном до­кументе можно выделить два компонента информации:содержательный и документографический. Первый компонент содержит информацию первоисточника (о чем книга, статья). Второй компонент — это сведения о самом первичном документе (тип документа: книга, статья и т. п.; вид: печатный, рукописный; год издания; место издания и т. д.). В даль­нейшем речь пойдет только о первом компоненте вторичного до­кумента.

Научно-технический прогресс привел к появлению большого числа публикаций (книг, статей и т. п.) по самым разным проб­лемам науки, техники, образования, и специалисты не успевают следить за новейшей литературой по своей области знания. Для этого, как установлено, человек должен был бы прочитывать еже­дневно 1500 страниц текста на разных языках, что явно превыша­ет его физические возможности. Поэтому для оперативного «по­верхностного» знакомства с новейшими публикациями использу­ются рефераты и аннотации книг и статей, которые составляются в специальных организациях и публикуются в реферативных жур­налах (РЖ) и реферативных сборниках (PC).

Реферирование и аннотирование текста являются сложными видами интеллектуальной деятельности. Составление человеком рефератов или аннотаций занимает много времени. Это приводит к тому, что до ученых, педагогов, инжене­ров и других специалистов новейшая информация (особенно зару­бежная) доходит очень медленно, что, в свою очередь, ведет к повторению в разных странах и в пределах одной страны одних и тех же исследований, более позднему применению новейших ме­тодик, технологий, процессов. Чтобы как-то избежать этого, для составления рефератов и аннотаций применяют современные ком­пьютеры.

Составление реферата или аннотации текста с помощью компьютера называется автоматическим реферированием или ан­нотированием.

При выполнении работы по составлению реферата или аннотации человеком (референтом) обычно выделяют три этапа:

1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом;

2) аналитический — референт делит текст на некоторые фраг­менты (абзацы, аспекты и т. п.). Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (пред­ложения, словосочетания, слова). Данный этап заканчивается со­ставлением плана будущих реферата или аннотации;

3) этап непосредственного построения реферата или аннота­ции — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с планом реферата или аннотации.

В качестве основных смысловых единиц, выделяемых из исходного текста на 2-м этапе, могут выступать: 1) целые клю­чевые предложения; 2) ключевые словосочетания и слова.

Ключевое (опорное) слово — это термин, относящийся к основ­ному содержанию текста и повторяющийся в нем несколько раз (с учетом всех возможных синонимов).

Ключевое словосочетание — это сочетание слов, среди которых есть одно или несколько ключевых.

Ключевым предложением считается предложение, содержащее два и более ключевых слова или ключевых словосочетания.

Составление плана будущих реферата или аннотации заключа­ется в выделении некоторых смысловых ориентиров, которые на 3-м этапе будут развернуты более подробно. В качестве таких ориентиров выступают:

1) основные темы и подтемы исходного текста;

2) основные аспекты исследования;

3) основные ключевые предложения, словосочетания и слова.

Создаваемый на 3-м этапе реферат или аннотация содержат выделенные ранее смысловые единицы. В качестве смысловых еди­ниц реферата могут выступать:

1) полные (без изменения) ключевые предложения исходного текста;

2) перефразированные ключевые предложения исходного текста;

3) предложения, составленные из ключевых слов или словосочетаний исходного текста с помощью специальных связующих элементов;

4) предложения, обобщающие несколько предложений исходного текста (не обязательно ключевых).

При перефразировании применяются различные лексико-грамматические явления: использование синонимов, конверсивов, замен по принципу «вид — род», «часть — целое» и т. п.

При получении новых предложений из ключевых слов и слово­сочетаний исходного текста чаще всего используют различные логико-смысловые скрепы, например, потому что, в то время как, поэтому, вследствие и т. п.

В обобщающих предложениях исходный текст передается со­вершенно другими словами. В них то же самое содержание излага­ется в более кратком виде.

Смысловыми единицами аннотации могут быть:

1) ключевые слова или словосочетания исходного текста с предшествующими им специальными фразами — реляторами типа: «В статье рассматриваются следующие вопросы. », «Книга посвящена следующим проблемам: . » и т. п.;

2) специальные предложения, содержащие оценочные элемен­ты: «Рассматривается важная проблема. », «Статья посвящена актуальной теме. » и т. д.;

3) специальные предложения, содержащие клише, т. е. специ­ализированные словесные штампы, фиксирующие внимание чи­тателя на определенных аспектах содержания: «Недостаток. за­ключается», «Цель публикации. », «Ставится задача. », «Делает­ся попытка. » и т. д.

Следующий важный вопрос, который необходимо рассмотреть, связан с тем, как человек выбирает из текста ключевые предло­жения, словосочетания и слова. Это делается, как уже отмеча­лось, на 2-м этапе общего процесса составления вторичного до­кумента. Читая текст повторно (первый раз он читается на подго­товительном этапе) или в третий раз, человек мысленно выделяет в нем три типа единиц (предложений, словосочетаний, слов):

1) единицы, которые обязательно должны быть включены в реферат или аннотацию. Такие единицы отражают новые идеи, гипотезы, новые методы, явления, процессы, новые результаты, т. е. все новое и оригинальное, что есть в исходном документе. Это, по существу, и есть основные смысловые единицы текста (ключе­вые предложения, словосочетания и слова);

2) единицы, которые отражают фактические данные: параметры изделий, процессов, методов и т. д. Такие единицы не являются принципиально новыми;

3) единицы, которые аргументируют и иллюстрируют едини­цы первых двух типов.

Единицы первого уровня обязательно используются при со­ставлении реферата. Из единиц второго уровня использу­ются лишь некоторые (в зависимости от типа реферата или его потребителя). Третья группа единиц изредка переносится в рефе­рат в обобщенном виде.

Если поручить составление реферата или аннотации компью­теру, то, очевидно, его надо научить выполнять те же действия, которые осуществляет человек. Компьютер должен уметь:

1) находить в тексте ключевые слова, словосочетания и пред­ложения;

2) находить в тексте менее значимые единицы;

3) составлять из текстовых единиц двух первых типов смысло­вые единицы реферата или аннотации;

4) составлять из таких единиц текст реферата или аннотации. Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматиче­ского реферирования в качестве основных смысловых единиц ре­ферата выступают ключевые предложения или ключевые слово­сочетания и слова исходного текста. Первые в их последователь­ной совокупности (в том порядке, в котором они идут в исходном тексте) образуют текст (квазитекст) реферата. Второй тип смыс­ловых единиц (ключевые словосочетания и слова) используется компьютером для построения так называемых табличных рефе­ратов.

При составлении с помощью компьютера аннотации также используются как ключевые предложения (в том виде, что и при составлении реферата), так и ключевые слова и словосочетания. Последние перечисляются вслед за реляторами вида: «В статье рассматриваются следующие вопросы. », «Книга посвящена сле­дующим проблемам: . », «Статья раскрывает следующие понятия: . » и т. д.

По способам выделения из исходных текстов ключевых слово­сочетаний и предложений (первые два «умения» компьютера) различают несколько методов автоматического реферирования и аннотирования текстов. Наиболее известны следующие три груп­пы методов:

Суть статистической группы методов заключается в том, что:

1) ключевыми словами считаются такие знаменательные слова текста, которые с учетом всех синонимов встречаются в тексте наибольшее число раз;

2) ключевым предложением считается предложение текста, которое:

а) имеет несколько ключевых слов;

б) содержит ключевые слова на небольшом расстоянии друг от друга.

Принадлежность слова, словосочетания или предложения к числу ключевых определяется специальными статистическими коэффициентами.

В позиционных методах автоматического реферирования и ан­нотирования ключевым предложением считается предложение, входящее в заголовок, подзаголовок, начало или конец какой-то части текста или всего текста. Такие предложения, как правило, содержат информацию о целях, методах, выводах и результатах исследования, описанного в первичном документе. Важность тех или иных предложений с указанной точки зрения определяется экспертами путем изучения семантической структуры первичных документов определенного типа.

Логико-семантические методы опираются на исследование структуры и семантики текстов. Существует несколько вариантов этих методов, но цель их одна — выделить из конкретного текста предложения с наибольшим функциональным весом. Величина эта зависит от многих факторов: наличия в исследуемом предложе­нии специальных семантически значимых слов, связи этого пред­ложения с другими предложениями текста, синтаксического типа самого предложения и т. д.

💥 Видео

ТОП-5 секретов ИЗЛОЖЕНИЯ на ОГЭ по русскому языку | Русский язык ОГЭ 2023Скачать

ТОП-5 секретов ИЗЛОЖЕНИЯ на ОГЭ по русскому языку | Русский язык ОГЭ 2023

Поиск ключевых слов в тексте (формулами и в Power Query)Скачать

Поиск ключевых слов в тексте (формулами и в Power Query)

Способы сжатия текстаСкачать

Способы сжатия текста

Русский язык 6 класс (Урок№20 - Сжатое изложение.)Скачать

Русский язык 6 класс (Урок№20 - Сжатое изложение.)

Извлечение ключевых слов, практика в Python, часть 1Скачать

Извлечение ключевых слов, практика в Python, часть 1

Русский язык 5 класс (Урок№39 - Типы речи.Повествование. Обучающее изложение с элементами описания.)Скачать

Русский язык 5 класс (Урок№39 - Типы речи.Повествование. Обучающее изложение с элементами описания.)

Сжатое изложениеСкачать

Сжатое изложение

Как писать изложение на ОГЭ по русскому языкуСкачать

Как писать изложение на ОГЭ по русскому языку

Как написать изложение по русскому языку без ошибокСкачать

Как написать изложение по русскому языку без ошибок

Рассчитываем контекстную близость слов с помощью библиотеки Word2vecСкачать

Рассчитываем контекстную близость слов с помощью библиотеки Word2vec

Русский 11 класс. Основные виды переработки текста: реферат, аннотация, рецензия.Скачать

Русский 11 класс. Основные виды переработки текста: реферат,  аннотация, рецензия.

Склейка текста по условиюСкачать

Склейка текста по условию

Простые приемы эффективной работы в Word ➤ Выделение текста в ВордСкачать

Простые приемы эффективной работы в Word ➤ Выделение текста в Ворд

ПИШЕМ СЖАТОЕ ИЗЛОЖЕНИЕ!Скачать

ПИШЕМ СЖАТОЕ ИЗЛОЖЕНИЕ!

Девятиклассники впервые прошли собеседованиеСкачать

Девятиклассники впервые прошли собеседование

Как выделить текст - три способа, две горячие клавиши и один очень классный лайфхакСкачать

Как выделить текст - три способа, две горячие клавиши и один очень классный лайфхак
Поделиться или сохранить к себе: