Требования к утилитам для работы с текстом

Материал из DvoWiki
Перейти к: навигация, поиск

Введение

Данные утилиты представляют из себя набор классов для проведения операций над текстом. На данном этапе эти классы должны обеспечивать следующую функциональность:

  1. разбор текста на предложения,
  2. разбор на слова,
  3. вычисление векторного представления текста,
  4. вычисление матричного представления текста.

Основная часть

Модуль разбиения на прридложения и слова

На вход данного модуля подаётся текст в (предположительно в форме сроки) на выходе должен получится вложенный массив/список (Array или ArrayList). Выходной массив имеет следующую структуру.

{предложение1
(слово1)(слово2)(слово3)...(словоN)
}
{предложение2
(слово1)(слово2)(слово3)...(словоN)
}
...

В реализации на языке Java это примет вид:

ArrayList<ArrayList> Sequenses = new  ArrayList<ArrayList>();
ArrayList<String> Words = new ArrayList<String>();