Базы данных Oracle - статьи



             

Комментарии к статье Ч.Бергера «» - часть 2


ODM поддерживает все этапы технологии извлечения знаний из данных, включая постановку задачи, подготовку данных, автоматическое построение моделей, анализ и тестирование результатов, использование моделей в реальных приложениях. ODM состоит из двух компонентов: Oracle Data Mining Server – процедуры, реализующие различные алгоритмы извлечения данных и Oracle Data Mining API – API для разработки. Существенно, что модели строятся автоматически в процессе анализа имеющейся информации об объектах, наблюдениях и ситуациях с помощью специальных алгоритмов, основанных на различных математических и статистических подходах. Важными техническими характеристиками ODM являются: работа в архитектуре клиент-сервер, широкое использование техники параллельных вычислений, высокая степень масштабируемости.

На данный момент в состав Oracle Data Mining реализованы алгоритмы для следующих моделей:

  • Классификационные модели
  • Деревья решений
  • Наивный Байесовский классификатор
  • Адаптивная Байесовская сеть
  • Метод опорных векторов
  • Регрессионные модели

    • Метод опорных векторов
    • Поиск существенных атрибутов

      • Метод минимальной длины описания
      • Кластеризация

        • Иерархический алгоритм k-средних
        • Иерархический алгоритм с неизвестным число кластеров
        • Поиск ассоциаций

          • Априорный алгоритм
          • Выделение признаков

            • Алгоритм сингулярной декомпозиции
            • Выделение аномальных выбросов

              Таким образом, за 7 лет Oracle серьезно развил математическую составляющую опции Data Mining. Появились новые алгоритмы и методы, были переписаны и оптимизированы старые алгоритмы. Кроме того, появились совсем новые подходы к анализу данных, в частности, Text Mining - анализ структурированных и неструктурированных текстовых данных. Text Mining позволяет вместе с опцией Oracle Text производить глубокий анализ текстовых документов для того, чтобы затем их классифицировать по атрибутам и кластеризовать. Еще одним нововведением стало появление BLAST-алгоритма, позволяющего искать закономерности в последовательностях букв и цифр. Технологии BLAST-анализа нашли широкое применение в естественных науках, особенно в медицине для анализа последовательностей генов и в химии для анализа химических соединений. Кроме математической составляющей, очень широкое развитие получили интерфейсы взаимодействия пользователей и разработчиков с ODM. На программном уровне с ODM можно взаимодействовать с помощью Java API или PL/SQL API, а на графическом - с помощью клиентского Java-приложения Oracle Data Miner или c помощью специального расширения для Microsoft Excel – Oracle Spreadsheet Add-In for Predictive Analytics. Oracle Java Data Mining API соответствует международным стандартам JSR-73, JSR-247 и PMML. Таким образом функционал Oracle Data Mining можно легко и просто встраивать в любые приложения, поддерживающие эти стандарты.




              Содержание  Назад  Вперед