Интеллектуальный анализ данных

Интеллектуальный анализ данных ИАД (Data Mining) — это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

В общем случае процесс ИАД состоит из трех стадий (рис. 5.16):

• выявление закономерностей (свободный поиск);

• использование выявленных закономерно­стей для предсказания неизвестных значений (прогности­ческое моделирование);

• анализ исключений, предназначенный для выявле­ния и толкования аномалий в найденных закономерностях. В качестве примера может быть приведен статистический анализ рядов динамики. Чаще, однако, этот тип анализа относят к области закономерностей.

Кроме того, могут быть сформулированы следующие задачи:

• выделение в массивах данных групп записей, сходных по некоторым признакам (кластерный анализ);

• проверка достоверности найденных закономерно­стей между их нахождением и использованием (стадия валидации).

Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными:

• в первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу;

• во втором случае информация извлекается из пер­вичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Соглас­но предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результа­ты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструк­ции могут быть либо «прозрачными» (интерпретируемыми), либо «черными ящиками» (нетрактуемыми).

Две эти группы и примеры входящих в них методов пред­ставлены на рис. 5.17.


5556308687761589.html
5556339937296043.html
    PR.RU™