Суммаризация или автоматическое реферирование текста

Одной из самых востребованных задач анализа текста является суммаризация. Иногда ее называют резюмированием или автореферированием.

Поддерживаемые языки: английский, французский, немецкий, португальский, итальянский, испанский, японский, китайский, греческий.

Если мы возьмем любую статью, то без труда увидим, что в ее основе лежит некая простая базовая мысль. Весь смысл любого текста на естественном языке содержится в нескольких предложениях. А весь остальной текст лишь уточняет и объясняет основной смысл. Автоматическая суммаризация позволяет проанализировать текст и найти одно или несколько предложений, раскрывающих ключевую мысль текста. Такие алгоритмы используются на многих новостных сайтах. На главной странице или в списке статей необходимо выводить краткий анонс каждого текста чтобы пользователю было проще принять решение – читать или не читать статью. API суммаризации текста позволяет любому сайту или мобильному приложению делать это автоматически.

Рассмотрим более подробно возможности API по автореферированию.

Определение самых важных предложений

Система автоматически определяет основную тему текста и ключевые тезисы. Дальше из всего текста выбираются предложения, которые содержат больше всего наиболее важных заявлений. При запросе к API вы можете указывать количество самых важных предложений, которые вам нужны. Если вам нужен заголовок текста, укажите требуемое количество предложений равное 1.

Извлечение ключевых слов текста

Извлечение ключевых слов является обязательным этапом в процессе суммаризации. Система не ищет самые распространенные слова текста, как это можно подумать. А именно определяет самые важные слова, выстраивая иерархию связей и смыслов между ними. Именно список ключевых слов ложится в основу определения самых важных предложений.

Извлечение самой важной части

В процессе суммаризации найденные предложения скорее всего будут из разных частей текста. Так как важные тезисы могут быть свободно раскиданы по статье. Что-то в начале, а что-то – ближе к концу. Извлечение самой важно части находит несколько предложений, идущих друг за другом, которые при этом наиболее полно передают смысл текста. На практике такой подход встречается чуть реже, чем обычное автореферирование. Тем не менее, для многих такая возможность важна. Если вы не знаете, какой вариант вам подойдет лучше, советуем попробовать и выбрать наиболее подходящий для вашего контента вариант.