Краткое описание пакета nd.semanticcore
=========================================
Пакет **nd.semanticcore** предоставляет скрипт semanticcore,
предназначенный для помощи в поиске семантического ядра по выборке текстов
предметной области. 


Способ использования
--------------------
Поиск семантического ядра осуществляется сравнением выборки текстов
предметной области и контрольной выборки текстов, не относящихся к
предметной области. Рекомендуется, что бы контрольная выборка была
компактной, т.е. содержала тексты сходной тематики. Рекомендуемый объем
выборки - 50-250 текстов, средней длиной 15KB. Обе выборки должны иметь
близкие параметры.

Запуск скрипта
--------------
Скрипт запускается командой::

    semanticcore [<ОПЦИИ>] <ВЫБОРКА> <РАЗДЕЛИТЕЛЬ> <КОНТРОЛЬНАЯ ВЫБОРКА>
    
Каждая выборка (<ВЫБОРКА> и <КОНТРОЛЬНАЯ ВЫБОРКА>) это перечисление списка
файлов, каждый из которых содержит тексты выборки. Разделитель - это строка
символов, которая отделяет имена файлов одной выборки от имен файлов другой. 
Удобно разместить каждую выборку файлов в отдельной директории, тогда
команда может иметь такой вид (с использованием **bash**)::

    semanticcore  -v ~/sample/gf/* ::: ~/sample/en/*

Пользователям, не имеющим нормального шелла, придется перечислять файлы
самостоятельно.
    
Опции:

    -d  <STRING>        
        Разделитель (по умолчанию  ":::");
    
    -w  <INT>:<INT>     
        Интервал, в который должен попадать относительно количество документов (в процентах).
        в которых встретилось слово, которое будет включено в результаты;

    -c  <INT>           
        Нижняя граница встречаемости слова в документе, при которой это
        слово будет использовано для поиска (по умолчанию 10);

В результате работы скрипта отображаются список слов в две колонки: слово и
вес слова, отсортированные по убыванию весов.

Интерпретация результатов
-------------------------

Начало списка (вес больше нуля) содержит преимущественно слова, характерные
для предметной области, середина (вес около нуля) - ничего не значащие
слова, конец (вес меньше нуля) - слова, нехарактерные для предметной области
(например, характерные для контрольной выборки).

Слов с весом меньше нуля должно быть незначительное, но заметное количество,
в противном случае, можно предположить некорректное формирование контрольной
выборки.

Из начала списка можно отобрать слова, подходящие для формирования
семантического ядра предметной области. Помните, эта программа предоставляет
выборку слов *обогащенную* характерными словами предметной области, а не
состоящую исключительно из них. Это удобный вспомогательный инструмент, но
не замена труду человека.



Заключение
----------
Этот скрипт предназначен только для демонстрационных и иллюстративных целей,
хотя ряд добровольцев смогли найти применение результатам, полученным с его
помощью.

Скорее всего, структура пакета будет изменена в ближайшем будущем, хотя
сам скрипт останется.
