Ниже приводится ряд раскрасок карты Кохонена Российских банков по некоторым статьям баланса. Как видно из карт Итого доходов и Итого расходов, наиболее активные банки (банки, у которых отношение доходов и расходов к их размеру наибольшее) располагаются в левом верхнем углу карты. Карта размеров говорит нам о том, что эти банки относительно невелики по своим размерам.
Очень показательны карты Всего обязательств и Прибыль/убыток. Из карты Прибыль/убыток ясно видно, что наиболее убыточной является группа банков-банкротов (правый верхний угол). Эта же группа банков имеет больше всего обязательств.
Интересно отметить, что меньше всего обязательств имеют обе группы малых банков. Эти группы банков сходны по многим параметрам (на карте Уставной фонд видно, что у малых банков отношение уставного фонда к размеру выше, чем у остальных). Однако, как видно из карты Прибыль/убыток, в отличие от группы малых банков слева, которая является самой прибыльной, группа справа имеет прибыль ниже среднего. Это говорит о том, что скорее всего деятельность этих групп имеет разные цели. Малая прибыль в совокупности с большим уставным фондом и малыми обязательствами говорит о том, что банки из группы справа скорее всего служат для расчетных операций различных организаций, а не для получения прибыли.
Для иллюстрации описываемого подхода далее в этой
лекции 1) будут использованы данные Центрального Банка России о годовых балансах и отчетах о прибылях/убытках примерно 1800 российских банков за 1994, 1995 годы, предоставленные информационным агентством "Прайм". Каждый банк при этом описывается 30 финансовыми показателями - отношением балансовых статей к общей сумме активов банка. Подобная нормализация приводит все статьи к единому масштабу, сглаживая различия между крупными и мелкими банками, составляющие несколько порядков величин. Из этих 30 параметров нам предстоит оптимальным образом сконструировать две обобщенные координаты.
Пионерская работа Альтмана в этом направлении датируется 1968 годом (Altman, 1968). Используя метод линейного дискриминантного анализа он выявил пять наиболее значимых финансовых индикаторов, влияющих на предсказание банкротств:
(Оборотные средства / Общий размер активов) - характеризует денежные активы фирмы, т.е. ее способность мобилизовать ресурсы для немедленной уплаты долгов. (Нераспределенная прибыль / Общий размер активов) - прибыль после уплаты налогов и выплат акционерам, которая остается в распоряжении корпорации, например, для реинвестирования, характеризует источник погашения долгов. (Прибыль до выплаты налогов и процентов по вкладам / Общий размер активов) - характеризует общую эффективность управления капиталом. (Рыночная капитализация / Общий размер долгов) - характеризует отношение собственного капитала к заемному, т.е. эффективный размер долга. (Объем продаж / Общий размер активов) - характеризует активность использования фирмой своих ресурсов.
В последующих работах разные авторы дополняли или видоизменяли список ключевых финансовых индикаторов по своему усмотрению. Наиболее общий подход, видимо, состоит в использовании в качестве входов логарифмов укрупненных статей балансов и отчетов о прибылях/убытках. Нейросеть в этом случае сама выберет наиболее значимые линейные комбинации входов, которым будут соответствовать наиболее значимые отношения различных статей в нужных пропорциях. Использование индикаторов, с другой стороны, помогает в интерпретации результатов нейро-моделирования если воспользоваться, например, техникой прореживания связей и извлечения правил, описанной в предыдущей лекции. Заметим, что использование описанных выше индикаторов лежит также в основе общепринятой методики рейтингования банков CAMEL.
Рассмотрим, например как располагаются на построенной карте банки разных размеров (см. рисунок 10.10
). 1)
Размеры банков берутся в логарифмической шкале, причем клетки, отличающиеся на одну цветовую градацию, содержат банки с пятикратным отношением активов. Напомним, что величин активов банков была изначально выведена из набора параметров, т.к. она использовалась для нормировки остальных статей. Несмотря на это, банки разных размеров располагаются не хаотично, а регулярным образом, что свидетельствует о значимости размера банка при выборе им своей финансовой стратегии. Визуально на карте можно выделить следующие большие группы банков: большие банки (низ карты), малые банки (группа слева и группа справа) и средние банки. Раскраска, отражающая относительный размер Уставного фонда показывает, что между двумя группами малых банков имеются существенные различия: Банкив нижнем правом углу карты практически не растут ( рисунок 10.11).
Сравнение с расположением банков-банкротов, показывает, что вероятность банкротства как больших так и малых банков в 1994 году была невелика.
Более общий подход - использовать не две отдельные компоненты, а две линейные комбинации всех 30 исходных параметров, наилучшим образом представляющие имеющиеся данные (см. рисунок 10.3).
Каждый банк представлен точкой в 30-мерном пространстве и задача состоит в проведении двумерной плоскости в этом пространстве, обеспечивающей минимальное среднеквадратичное отклонение имеющихся точек от этой плоскости:
Как мы знаем подобное линейное приближение дается методом главных компонент. Если действительное расположение точек не сильно отклоняется от плоскости, этот метод может дать неплохое начальное приближение. Однако, оказывается, что в даном случае это не так. Среднеквадратичное отклонение для случая двух главных компонент оказалось равным почти половине от общей дисперсии:
.Таким образом, даже оптимальный вариант линейного сжатия не дает возможности визуализировать финансовое положение банков. Оно может, тем не менее, оказаться полезным, в частности, для анализа значимости балансовых статей. Так, увеличение числа главных компонент постепенно дает все лучшее и лучшее приближение имеющегося массива данных (см. Ошибка! Источник ссылки не найден.).
Например, 10 главных компонент обеспечивают вполне приемлемую общую точность 94% (т.е.
). При общем числе входов равном 30, это означает 3-кратное сжатие информации. Такое сжатие оказывается возможным из-за существенных корреляций между отдельными статьями в балансовой отчетности. При этом те статьи, которые дают наибольший вклад в главные компоненты, восстанавливаются по ним с наибольшей точностью.Степень восстановления исходных данных по ограниченному числу главных компонент свидетельствует о том, насколько согласованны данные в этих статьях между собой во всем массиве имеющейся информации, т.е. насколько содержащаяся в них информация значима для выявления индивидуальных отличий. Ошибка! Источник ссылки не найден. показывает, что около 20 статей восстанавливаются по 10 главным компонентам с относительно высокой точностью. Это как раз те статьи, кторые дают основной вклад в главные компоненты. Остальные статьи гораздо менее значимы для сравнительного финансового анализа, в частности, в силу незначительности совокупной доли активов в этих статьях балансов.
Обобщая опыт сравнительного анализа предсказаний банкротств различными методиками (Trippi, Turban, 1993), отметим:
Нейросетевое моделирование обеспечивает наилучшую точность предсказания банкротств: порядка 90%, по сравнению с 80%-85% точностью для других статистических методик (дискриминантный анализ, логистический анализ, ID3, kNN). При желании можно повысить "подозрительность" нейросети, обеспечив точность выявления банкротов вплоть до 99% - за счет снижения требований к ошибкам второго рода (класификации нормальной фирмы как банкрота). Это достигается путем увеличения веса ошибки первого рода (класификации банкрота как нормальной фирмы). В зависимости от конкретной практической задачи "подозрительность" сети можно произвольно регулировать. Банкротства можно уверенно предсказывать за несколько лет до их фактического наступления, причем точность предсказания за два года практически не отличается от точности предсказания за год. Таким образом, неявные сигналы неблагополучия присутствуют в финансовой отчетности фирмы задолго до ее краха.
Итак, линейная статистическая обработка данных не способна выделить два ведущих параметра, описывающих финансовое состояние российских банков с приемлемой точностью. В этой ситуации естественно обратиться к нелинейному статистическому анализу, т.е. к нейросетевому моделированию.
Напомним, что методом, дающим оптимальное представление информации в виде координат двумерной сетки, является построение топографических карт (карт Кохонена), о которых шла речь в лекции 4. Напомним в двух словах суть этой методики. В многомерное пространство данных погружается двумерная сетка. Эта сетка изменяет свою форму таким образом, чтобы по возможности точнее аппроксимировать облако данных. Каждой точке данных ставится в соответствие ближайший к ней узел сетки. Таким образом каждая точка данных получает некоторую координату на сетке. Такое отображение локально непрерывно: близким точкам на карте соответствуют близкие точки в исходном пространстве (обратное, вообще говоря, не верно: близким точкам в исходном пространстве могут соответствовать далекие точки на карте - такова цена понижения размерности). Таким образом, распределение данных на двумерной карте позволяет судить о локальной структуре многомерных данных.
Синаптические веса нейрона в сети Кохонена являются его координатами в исходном многомерном пространстве. Обучение сети, т.е. нахождение положения узлов карты в многомерном пространстве происходит в режиме "победитель забирает все". Данные по очереди подаются на входы всех нейронов и для каждого входа определяется ближайший к нему нейрон. Обучение состоит в подгонке весов нейрона-победителя и его ближайших соседей минимизурующих отклонение данных от нейронов-победителей. Постепенно сеть находит равновесное положение, оптимально аппроксимирующее данные (см. рисунок 10.6).
Если линейный статистический анализ пытается аппроксимировать данные плоскостью, то нелинейный - использует для этих целей двумерную поверхность, что позволяет, в принципе, добиться гораздо более высокой точности аппроксимации.
Так, в нашем случае, суммарное расстояние от данных до ближайших к ним узлов топографической сетки
Полезность обучения сети на примерах обанкротившихся фирм состоит также в том, что такая сеть вырабатывает дискриминантную функцию - численный показатель финансового здоровья фирмы, меру ее устойчивости. Однако, устойчивость не является единственным возможным критерием оценки деятельности
фирмы. 1) Акционеры, например, заинтересованы не только в бесконечно долгом существовании фирмы, но и в получении достаточно весомой прибыли. Важно, кроме того, не только состояние фирмы на настоящий момент, но и характеристики существующих тенденций. Здесь значимым может оказаться другой набор факторов, дающий другую оценочную функцию. Так, высокая доходность может обеспечить повышение надежности в будущем. Между тем, неясно каким образом можно обучать нейросеть на "будущий успех" при отсутствии такого же четкого критерия успеха, каким является банкротство для неудачи.
Эти объективные трудности можно преодолеть, если вспомнить, что фирма существует не сама по себе, а в сообществе подобных ей фирм-конкурентов. И именно в сопоставлении с этим сообществом можно говорить о сильных и слабых сторонах ее деятельности. Эти рассуждения подводят нас к другой постановке задачи: комплексной оценки финансового состояния фирмы путем систематического сравнения ее показателей с показателями остальных участников данного рынка. Такой подход, рассмотренный в следующем разделе, не требует знания готовых ответов, т.к. основан на обучении без учителя.
Полезность обучения сети на примерах обанкротившихся фирм состоит также в том, что такая сеть вырабатывает дискриминантную функцию - численный показатель финансового здоровья фирмы, меру ее устойчивости. Однако, устойчивость не является единственным возможным критерием оценки деятельности
фирмы. 4) Акционеры, например, заинтересованы не только в бесконечно долгом существовании фирмы, но и в получении достаточно весомой прибыли. Важно, кроме того, не только состояние фирмы на настоящий момент, но и характеристики существующих тенденций. Здесь значимым может оказаться другой набор факторов, дающий другую оценочную функцию. Так, высокая доходность может обеспечить повышение надежности в будущем. Между тем, неясно каким образом можно обучать нейросеть на "будущий успех" при отсутствии такого же четкого критерия успеха, каким является банкротство для неудачи.
Эти объективные трудности можно преодолеть, если вспомнить, что фирма существует не сама по себе, а в сообществе подобных ей фирм-конкурентов. И именно в сопоставлении с этим сообществом можно говорить о сильных и слабых сторонах ее деятельности. Эти рассуждения подводят нас к другой постановке задачи: комплексной оценки финансового состояния фирмы путем систематического сравнения ее показателей с показателями остальных участников данного рынка. Такой подход, рассмотренный в следующем разделе, не требует знания готовых ответов, т.к. основан на обучении без учителя.
Приведенные выше раскраски в совокупности образуют атлас, отражающий финансовое состояние банков или других фирм, занимающихся сходными видами бизнеса. Этот атлас дает графическое отображение положения любой конкретной фирмы среди конкурентов и может использоваться как удобное средство финансового анализа. В частности, можно рассматривать эволюцию финансового положения отдельной фирмы во времени, выявлять существующие тенденции и циклы. С точки зрения макроэкономики удобство такого рода карт состоит в том, что площади на этой карте примерно пропорциональны доле фирм в силу более-менее равномерного заполнения ячеек. Таким образом можно зримо представлять себе, например, долю крупных банков или банков, испытывающих трудности с возвратом кредитов.
В отличае от облигаций, являющихся своего рода долговыми расписками, акции корпораций не гарантируют возврата процентов и основной суммы долга. Однако, оценка перспективности различных активов в пакетах акций является одной из главных задач любого инвестора. Ранее мы описывали возможности предсказания котировок акций в будущем, основанные на анализе прошлого поведения временного ряда котировок. Альтернативный подход представляет собой рейтингование акций, основанное на более широком круге финансовых показателей компаний, доступных из их финансовых отчетов.
Результативность подобного подхода иллюстрируют рейтинги ведущего консультационного агентства США по инвестициям в акции - Value Line. Раз в неделю это агентство разбивает акции около 1700 компаний по 5 рейтинговым категориям (алгоритм, естественно, широкой публике неизвестен). Статистические исследования подтверждают значимость рейтинга Value Line. А именно, пакеты, составленные из акций более высокой рейтинговой категории, систематически дают большую прибыль в течении ближайшего квартала (в следующем квартале эффект уже заметно меньше).
Есть основания предполагать, что квартальные отчеты корпораций влияют на курс акций. В частности, неожиданно высокие прибыли (убытки) статистически значимо коррелируют с повышением (понижением) курсов
акций. 3)
Причем, эта корреляция существует достаточно долго - в течении по крайней мере двух месяцев со дня публикации отчета. Следовательно, инвестор имеет возможность извлечь определенную выгоду из финансовой отчетности корпораций. Справедливости ради следует отметить, что такая же корреляция имеется и на протяжении двух месяцев до объявления о прибылях/убытках (Шарп, и др. 1997). Это означает, что информация о состоянии фирмы просачивается на рынок раньше официальной публикации, так что временной ряд уже содержит эту информацию в неявном виде. Однако, интерпретация финансовых показателей отчета может дать гораздо более содержательную информацию, чем динамика временного ряда, зашумленная многими внешними факторами.
В более общей постановке речь идет о прогнозировании финансового "здоровья" корпорации на основании ее финансовой о тчетности. Нетривиальным моментом здесь является количественное определение финансового благополучия. Можно, как и в случае с облигациями, воспользоваться для обучения сети рейтингами, например, упомянутого выше агентства Value Line для воспроизведения этой, в общем-то субъективной оценки компании. Можно попытаться использовать в качестве индикатора благополучия более объективный критерий - рыночный курс акций в ближайшем или более отдаленном будущем (Бэстенс и др., 1997). Однако, рыночный курс может быть подвержен сильным флуктуациям чисто спекулятивного характера. Наконец, можно воспользоваться указаниями самого сурового учителя, исследуя крайнюю форму проявления финансового "недомогания" - банкротство. Анализ банкротств, таким образом, может служить источником объективных оценок устойчивости финансового положения фирм.
С математической точки зрения эта задача сводится к оптимальному сжатию информации о финансовом состоянии фирмы, т.е. отображении информации минимальным числом параметров при заданном уровне огрубления или минимизации потерь информации при заданном числе обобщенных координат. Для целей визуализации, выгодно ограничиться двухпараметрическим представлением. Это уже существенный шаг вперед по сравнению с однопараметрическим рейтингом.
Сначала приведем несколько цифр, иллюстрирующих "цену вопроса". Мировой рынок только межбанковских кредитов оценивается в $38 трлн. Это почти в два раза превышает мировой объем ценных бумаг. Естественно, что оценка риска невозврата кредитов имеет для банков первостепенное значение. (В случае страховки, этот риск, перекладывается на страховщика. Общий объем страховых премий в этой индустрии риска составляет $2.5 трлн.)
Количество банкротств в США на протяжении 80-х годов возрастало ежегодно примерно на 14%. В банковском секторе США число банкротств возросло с 50 в 1984 г. до 400 в 1991 г. Это, однако, составляет менее 3% от примерно 14000 действующих в США банков. В России же, например, только в 1996 г. лицензии были отозваны более чем у 10% из около 2000 зарегистрированных банков. Таким образом, предсказание банкротств, особенно в кризисных экономических условиях, является насущной задачей экономического анализа.
Если в проблеме рейтингования задачей нейросети было воспроизвести мнения экспертов о надежности корпорации, то нейросетевое предсказание банкротств основано на статистической обработке конкретных примеров банкротств. В такой постановке задача нейросети - самой стать экспертом, определяющим финансовую стабильность корпорации, основываясь исключительно на объективной информации - показателях финансовой отчетности. Обычно от нейросети требуется оценить вероятность банкротства через определенный промежуток времени (например, через год или через два года) по доступной на данный момент финансовой отчетности. В качестве входов используют финансовые индикаторы - отношения балансовых статей, наиболее полно отражающие определенные стороны финансового положения фирмы.
Различные раскраски топографической карты являются удобным средством для выявления взаимосвязей различных факторов. В принципе, любая финансовая характеристика порождает свою раскраску карты, как это иллюстрирует рисунок 10.9.
Вместе подобные раскраски дают исчерпывающую и наглядную картину. Здесь имеется полная аналогия с географическими картами различных типов на одной и той же географической сетке, которые в совокупности дают полное представление о данной местности.
Достоинства карты Кохонена начинают проявляться после нанесения на нее какой-либо графической информации. рисунок 10.8 показывает как выглядит карта Кохонена, на которой отмечены ячейки, содержащие банки с отозванными по результатам 1994 года лицензиями. Видно, что банки с отозванными лицензиями группируются в правом верхнем углу карты - "зоне риска". Мы увидим, что эта зона имеет и другие признаки неблагополучия.
Отметим, что в отличие от анализа банкротств, описанного в первой части лекции, здесь информация о банкротствах не участвовала в обучении сети. Она изображена на уже готовой карте, являсь лишь индикатором области параметров с повышенным риском банкротства. Эта особенность описываемой методики позволяет выявить область риска по относительно небольшому числу примеров (как в нашем случае).
Существенную часть рынка ценных бумаг составляют корпоративные облигации - займы корпораций под фиксированный процент. Только на Нью-Йоркской Фондовой бирже в 1992 г. обращались облигации около 1500 компаний с общей номинальной стоимостью свыше $260 млрд. Для оценки риска невыплаты процентов или невозврата денег по облигации практически для всех таких корпораций существуют и периодически обновляются рейтинги, составляемые независимыми рейтинговыми агентствами.
В рейтинговом бизнесе доминируют две компании: Standard & Poor's и Moody's. Свыше 2000 долговых эмитентов поставляют свои финансовые отчеты этим двум организациям. Рейтинги этих агентств чрезвычайно авторитетны, от них напрямую зависят процентные ставки по облигациям: чем ниже рейтинг эмитента - тем дороже обходится эмитенту обслуживание своего долга, т.к. инвесторы желают получить плату за дополнительный риск. Более того, в США некоторым категориям инвесторов, таким, как банки и страховые компании, законодательно запрещено покупать облигации с рейтингом Standard & Poor's и Moody's ниже определенного уровня. Так, в классификации Standard & Poor's (таблица 10.1) бумаги с рейтингом ниже BBB считаются в основном спекулятивными. Их характеризует большая степень неопределенности в возможности выплаты процентов и возвращения основного долга (рейтинг России также принадлежит пока к этой
категории. 1)
AAA | Самая высокая вероятность выплаты процентов и возврата долга | 0.00% |
AA | Высокая вероятность выплаты процентов и возврата долга | 1.70% |
A | Высокая вероятность выплаты процентов и возврата долга, но несколько большая зависимость от экономической коньюнктуры | 0.65% |
BBB | Адекватная вероятность выплаты процентов и возврата долга, еще большая зависимость от неблагоприятных факторов | 1.54% |
BB | Долговые обязательства, хотя и имеют защитные характеристики, но характеризуются огромной неопределенностью невыплаты процентов | 5.93% |
B | 20.87% | |
CCC | 38.08% |
Главный вопрос теперь - как выбирать эти обобщенные координаты. Можно, например, воспользоваться сечениями имеющихся многомерных данных, иными словами - просто выбрать два "наиболее важных" с точки зрения экспертов параметра балансов и таким образом отобразить на двумерной карте положение всех фирм. Для российских банков подобное представление информации практикует журнал "Эксперт" (см рисунок 10.2).
Согласно такому подходу надежность банка характеризуется одним финансовым показателем - отношением собственного капитала к привлеченному. В первой половине этой лекции мы видели, однако, что анализ банкротств выявляет как минимум пять (а то и восемь) значимых финансовых показателей, влияющих на надежность.
Сравнительный анализ, в отличае от рейтингования, предполагает введение не одной, а нескольких оценочных координат. Это позволяет лучше использовать имеющуюся информацию, более точно позиционировать фирму среди остальных. С другой стороны, для обозримости результатов сравнительного анализа, количество параметров сравнения должно быть по возможности минимальным. В узком смысле "обозримость" требует введения не более двух координат - чтобы относительная позиция фирмы могла быть представлена точкой на двумерной карте, а различные финансовые показатели могли быть визуализированы в виде двумерных поверхностей.
Существуют две базовые инвестиционные стратегии: активная, основанная на предсказаниях доходности тех или иных активов, и пассивная, в которой рынок полагают непредсказуемым, и главной целью ставят минимизацию рисков. Оценка инвестиционного риска, таким образом, является одним из краеугольных камней финансового анализа. В этой лекции рассмотрены основные нейросетевые методики оценки рисков и составления рейтингов.
Эти методики используют два основных подхода: обучение с учителем - на примерах экспертных оценок или обанкротившихся фирм, и обучение без учителя - путем категоризации имеющихся данных. Сначала рассмотрим первый, более прямолинейный подход.
В лекции, посвященной извлечению знаний из обученных нейронных сетей, мы познакомились с методами интерпретации отображения сетью входной информации в выходную с помощью правил типа неравенств, правил m-of-n и других. В теория нечетких множеств соответствующие нечеткие правила уже изначально имеют наглядный смысл. Например,
если разрыв между бедными и богатыми высок, то уровень преступности повышен.Конечно заманчиво иметь возможность получения не только качественного, но и количественного правила, связывающего уровень разрыва в доходах с преступностью. Мы знаем, что нейронные сети типа персептрона являются универсальными аппроксиматорами и могут реализовать любое количественное отображение. Хорошо бы поэтому построить нейронную сеть так, чтобы она, во-первых, воспроизводила указанное нечеткое качественное правило (чтобы изначально знать интерпретацию работы сети) и, во-вторых, давала хорошие количественные предсказания для соответствующего параметра (уровня преступности). Очевидно, что добиться этого можно подбором соответствующих функций принадлежности. А именно, задача состоит в том, чтобы так определить понятия "высокий разрыв в доходах" и "повышенный уровень преступности", чтобы выполнялись и качественные и количественные соотношения. Нужно, чтобы и сами эти определения не оказалось дикими - иначе придется усомниться в используемом нами нечетком правиле. Если такая задача успешно решается, то это означает успешный симбиоз теории нечетких множеств и нейронных сетей, в которых "играют" наглядность первых и универсальность последних.
Заметим, что использованные нами ранее функции принадлежности носили достаточно специфический характер (так называемую треугольную форму). Успех же сочетания нечетких моделей существенно зависит от разумного нечеткого разбиения пространств входов и выходов. Вследствие этого, задача адаптации функций принадлежности может быть поставлена как задача оптимизации, для решения которой и могут использоваться нейронные сети.
Наиболее простой путь для этого заключается в выборе некоторого вида функции принадлежности, форма которой управляется рядом параметров, точное значение которых находится при обучении нейронной сети.
Рассмотрим соответствующую методику на следующем примере.Обозначим
Лучшим ответом на этот сугубо практический для прикладника вопрос является "It depends". По-русски это означает "Все зависит от ситуации". Иногда, особенно если априорная информация о данных отсутствует, разумнее использовать нейронные сети. Такой выбор часто дает быстрое и качественное решение задачи, как правило не худшее, чем получаемое статистическими методами после тщательного изучения структуры данных.
Иногда высказывается такое мнение, что статистические методы предназначены для профессионалов, поскольку их использование требует основательной теоретической подготовки. В то же время, нейронные сети - это инструмент любителей, который можно быстро освоить и применять. Как бы то ни было, разработка нейросетевой системы анализа данных действительно может быть осуществлена за значительно более короткое время (порядка нескольких месяцев) нежели создание аналогичной системы статистического анализа (требующее годы). Например, бизнес-стратег Дэниэл Баррас, автор "Technotrands: How to Use Technology to Go Beyond Your Competition" утверждает, что для того, чтобы остаться конкурентноспособным, деловой человек должен не только использовать инструменты будущего, но и использовать их по-новому. В частности, нейросетевые технологии снабжают людей экспертизой, которая прежде могла быть получена лишь в течении многих лет обучения и опыта.
При наличии дополнительных знаний о характере задачи статистические данные могут оказаться предпочтительнее. При сравнительном анализе возможностей нейронных сетей и статистических методов надо быть достаточно осторожными, поскольку иногда весьма сложные нейросетевые подходы сопоставляются с простыми статистическими моделями или наоборот. Существует мнение, что одинаково мощные статистические и нейросетевые подходы дают результаты одинаковые по точности и по затратам. Тем не менее, примеры решения действительно важных прикладных задач могут дать представление о возможностях того или иного подхода.
Очень важной является проблема диагностирования инфаркта миокарда в приемном покое.
Опытные врачи правильно определяют это заболевание в 88% случаев и в 29% случаев дают ложную тревогу. Разнообразные статистические методы, включая дискриминантный анализ, логистическую регрессию, рекурсивный анализ распределений и пр. смогли лишь незначительно снизить число ложных тревог (до 26%). А вот Вильям Бакст, работающий на медицинском факультете университета в Сан-Диего, использовал для диагностики многослойный персептрон и повысил число правильно диагностированных инфарктов до 92%. Но более впечатляющим его результатом было снижение числа ложных тревог до 4%(!). Заметим, что такое значительное уменьшение ложно-положительных реакций является достаточно типичным преимуществом использования нейронных сетей. Эта особенность стимулирует в настоящее время разработку нейросетевых систем диагностики рака молочной железы, для которой ложные диагнозы являются настоящим бичом.
Дэвид Эшби и Нед Кумар из Школы Бизнеса в Арканзасе сравнили результаты применения нейросетевой технологии и классического дискриминантного анализа к предсказанию невыполнения обязательств по высокодоходным облигациям ("junk-bonds"). Такие облигации являются в настоящее время основным источником внешнего финансирования американских корпораций. Невыполнение обязательств означает либо потерю интереса к компании, либо потерю финансирования. Поскольку операции с такими облигациями носят ярко выраженный спекулятивный характер, то предсказание выхода их из игры представляет интерес для ее участников. Задача состоит в классификации облигаций на два класса: выполнят - не выполнят. Первичный набор признаков, характеризовавших каждую облигацию, включал 29 финансовых и рыночных показатели фирм, из которых после корреляционного анализа было отобрано 16. Линейный дискриминантный анализ позволил провести классификацию с точностью 87.5%, в то время как двухслойный персептрон (16 нейронов в скрытом слое) дал несколько лучший результат - 89.3% правильных ответов.
Нейронные сети помогают выявить связи между данными в тех случаях, когда статистические методы не справляются с задачей.Например, статистика не позволяет найти корреляцию в последовательностях ДНК двух бактериофагов PHIX174 и MIG4XX, хотя было известно, что они являются ближайшими родственниками. Использование сетей Хопфилда для поиска в этих последовательностях скрытых повторов (периодичностей), обеспечившее учет корреляций между нуклеотидными парами, не только показало несомненную близость геномов этих фагов, но и продемонстрировало, что они представляют собой гены, "сбежавшие" с комплементарных цепей ДНК-предшестенницы.
На простом примере можно убедиться, что свойства сети критическим образом зависят от температуры
. Действительно, если величины всех синаптических связей положительны и равны между собой: (такая система эквивалентна ферромагнетику), то все уравнения системы сводятся к одномуРешение этого уравнения зависит от крутизны наклона функции гиперболического тангенса в начале координат (см. рисунок 11.5). При высокой температуре
уравнение имеет только тривиальное решение . Это означает, что состояния всех нейронов беспорядочно флуктуируют, принимая с равной вероятностью значения .Однако, при снижении температуры ниже точки Кюри
в системе происходит фазовый переход, при котором тривиальное решение становится неустойчивым, а у уравнения среднего поля появляется еще два устойчивых нетривиальных решения .Такое поведение характерно и для общего случая. Мы увидим далее, что в модели Хопфилда свойства ассоциативного запоминания и вызова образов проявляются в некоторой области температуры и дополнительного параметра - степени загрузки памяти. Вне этой области система переходит в неупорядоченное состояние.
В лекции, посвященной извлечению знаний, мы уже познакомились с нейросетевыми методами извлечения правил из данных. Настало время узнать, как можно извлечь с их помощью нечеткие правила.
Рассмотрим набор нечетких правил
Если
есть , то есть ,Каждое из них может интерпретироваться как обучающая пара для многослойного персептрона. При этом, условие (x есть
) определяет значение входа, а следствие (y есть ) - значение выхода сети. Полное обучающее множество имеет вид . Заметим, что каждому лингвистическому значению соответствует своя функция принадлежности, так что каждое нечеткое правило определяет связь двух функций.Если же правила имеют более сложный вид, типа "два входа - один выход":
Если
есть и есть , то есть то обучающая выборка принимает форму , Существует два основных подхода к реализации нечетких правил типа if-then с помощью многослойных персептронов.В методе Умано и Изавы нечеткое множество представляется конечным числом значений совместимости. Пусть
включает носители всех , входящих в обучающую выборку а также носители всех , которые могут быть входами в сети. Предположим также, что включает носители всех , входящих в обучающую выборку, а также носители всех , которые могут быть входами в сети. ПоложимДискретный аналог обучающего множества правил (заменяющее функциональное) имеет вид:
Если теперь ввести обозначения
, то можно представить нечеткую нейронную сеть с входными и выходными нейронами ( рисунок 11.3).Пример 1. Предположим, что обучающая выборка включает три правила:
Если город мал, то доход от продажи бриллиантов отрицателен, Если город средний, то доход от продажи бриллиантов близок к нулю, Если город велик, то доход от продажи бриллиантов положителен.Функции принадлежности определим как
(Здесь предполагается, что доход не превышает 100% или 1.0 в относительных величинах)
Как уже отмечалось, некоторые статистики утверждают, что нейросетевые подходы к обработке данных являются просто заново переоткрытыми и переформулированными, но хорошо известными статистическими методами анализа. Иными словами, нейрокомпьютинг просто пользуется новым языком для описания старого знания. В качестве примера приведем цитату из Уоррена Сэрла:
Многие исследователи нейронных сетей являются инженерами, физиками, нейрофизиологами, психологами или специалистами по компьютерам, которые мало знают о статистике и нелинейной оптимизации. Исследователи нейронных сетей постоянно переоткрывают методы, которые известны в математической и статистической литературе десятилетиями и столетиями, но часто оказываются неспособными понять как работают эти методы
Подобная точка зрения, на первый взгляд, может показаться обоснованной. Формализм нейронных сетей действительно способен претендовать на роль универсального языка. Не случайно уже в пионерской работе МакКаллока и Питтса было показано, что нейросетевое описание эквивалентно описанию логики высказываний.
Я в действительности обнаружил, что с помощью с помощью техники, которую я разработал в работе1961 года (…), я мог бы легко ответить на все вопросы, которые мне задают специалисты по мозгу (...) или компьютерщики. Как физик, однако, я хорошо знал, что теория, которая объясняет все, на самом деле не объясняет ничего: в лучшем случае она является языком. Эдуардо Каянелло
Не удивительно поэтому, что статистики часто обнаруживают, что привычные им понятия имеют свои аналоги в теории нейронных сетей. Уоррен Сэрл составил небольшой словарик терминов, использующихся в этих двух областях.
Признаки | переменные |
входы | независимые переменные |
выходы | предсказанные значения |
целевые значения | зависимые переменные |
ошибка | невязка |
обучение, адаптация, самоорганизация | оценка |
функция ошибки, функция Ляпунова | критерий оценки |
обучающие образы (пары) | наблюдения |
параметры сети: веса, пороги. | Оценочные параметры |
нейроны высокого порядка | взаимодействия |
функциональные связи | трансформации |
обучение с учителем или гетероассоциация | регрессия и дискриминантный анализ |
обучение без учителя или автоассоциация | сжатие данных |
соревновательное обучение, адаптивная векторная квантизация | кластерный анализ |
обобщение | интерполяция и экстраполяция |
Центральным понятием нечеткой логики является понятие лингвистической переменной. Согласно Лотфи Заде лингвистической называется переменная, значениями которой являются слова или предложения естественного или искусственного языка. Примером лингвистической переменной является, например, падение производства, если она принимает не числовые, а лингвистические значения, такие как, например, незначительное, заметное, существенное, и катастрофическое. Очевидно, что лингвистические значения нечетко характеризуют имеющуюся ситуацию. Например, падение производства на 3% можно рассматривать и как в какой-то мере незначительное, и как в какой-то мере заметное. Интуитивно ясно, что мера того, что данное падение является катастрофическим должна быть весьма мала.
Смысл лингвистического значения X и характеризуется выбранной мерой - так называемой функций принадлежности (membership function)
, которая каждому элементу u универсального множества U ставит в соответствие значение совместимости этого элемента с X . В нашем случае универсальным множеством является множество всех возможных величин падения производства (от 0 до 100%).Нечеткое правило связывает значения лингвистических переменных. Примером такого правила может быть, например, следующее.
Если (падение производства - катастрофическое), то (доходы от экспорта энергоресурсов - значительные).
Нечеткое подмножество универсального множества U характеризуется функцией принадлежности
, которая ставит в соответствие каждому элементу число из интервала [0, 1], характеризующее степень принадлежности элемента u подмножеству A.Носителем множества A называется множество таких точек в U, для которых величина
положительна.Преобразование, осуществляемое типичным нейроном с двумя входами, имеет вид
, где -сигмоидная функция. Для того, чтобы обобщить его, нужно представить себе, что вес нейрона не обязательно должен умножаться на значение соответственного входа, а здесь может быть применена какая-либо другая операция. Далее, суммирование воздействий также может быть заменено неким другим действием. Наконец, вместо сигмоидной функции потенциал нейрона может быть преобразован каким-либо новым способом. В нечеткой логике операция умножения заменяется для булевых переменных операцией И, а для числовых - операцией взятия минимума (min). Операция суммирования заменяется соответственно операциями ИЛИ и взятием максимума (max).Если осуществить соответствующие замены в преобразовании, осуществляемом знакомым нам нейроном, и положить в нем
(линейный выход), то мы получим так называемый нечеткий ИЛИ-нейрон:Для нечетких нейронов полагается, что значения входов и весов заключены в интервале [0, 1], поэтому и выход нейрона ИЛИ будет принадлежать этому же интервалу.
Используя противоположную подстановку (умножение max), (сложение min ) получим преобразование, характерное для нечеткого И-нейрона:
Рассмотрим теперь отношения нейрокомпьютинга и экспертных систем. Обе эти технологии иногда относят к направлению Искусственный Интеллект, хотя строго говоря, термин искусственный интеллект появился в 70-е годы в связи с экспертными системами, как направления альтернативного нейронным сетям.
Первая конференция по проблемам искусственного интеллекта состоялась в США в 1969 году - в этом же году и была опубликована критическая книга Минского и Пейперта "Персептроны".
Его основатели - Марвин Минский и Эдвард Фейгенбаум посчитали излишней апелляцию к архитектуре мозга, его нейронным структурам, и декларировали необходимость моделирования работы человека со знаниями. Тем самым, поставив в центр внимания операции с формально-логическими языковыми структурами, они заведомо выбрали ориентацию на имитацию обработки информации левым полушарием мозга человека. Системы обработки таких формализованных знаний были названы экспертными, поскольку они должны были воспроизводить ход логических рассуждений эксперта (высокопрофессионального специалиста) в конкретной предметной области. Эти рассуждения проводятся с использованием правил вывода, которые инженер знаний должен извлечь у эксперта.
Заметим, что в настоящее время распространено более широкое толкование систем искусственного интеллекта. К ним относят не только экспертные , но и нечеткие системы, нейронные сети и всевозможные комбинации, такие как нечеткие экспертные системы или нечеткие нейронные системы. Отдельным направлениями, выделяются также эвристический поиск, в рамках которого в 80-е годы Ньюэллом и Саймоном был разработан Общий Решатель Задач (GPS - General Problem Solver), а также обучающиеся машины (Ленат, Холланд). И если GPS не мог решать практические задачи, то машинная обучающаяся система EURISCO внесла значительный вклад в создание СБИС, изобретя трехмерный узел типа И/ИЛИ.
Однако, экспертные системы претендовали именно на решение важных прикладных задач прежде всего в таких областях, как медицина и геология.
При этом соответствующая технология в сочетании с нечеткими системами была в 1978 году положена японцами в основу программы создания компьютеров 5-го поколения.
Парадокс искусственного интеллекта заключается в том, что как только некоторая, кажущаяся интеллектуальной, деятельность оказывается искусственно реализованной, она перестает считаться интеллектуальной. В этом смысле наибольшие шансы остаться интелелктуальными имеют как раз нейронные сети, из которых еще не извлечены артикулированные знания.
Сопоставление экспертных систем и нейрокомпьютинга выявляет различия, многие из которых характерны для уже отмечавшихся в первой лекции различий обычных компьютеров (а экспертные системы реализуются именно на традиционных машинах, главным образом на языке ЛИСП и Пролог) и нейрокомпьютеров
Аналогия | правое полушарие | левое полушарие |
Объект | данные | знания |
Вывод | отображение сетью | правила вывода |
Системы нечеткой логики (fuzzy logics systems) могут оперировать с неточной качественной информацией и объяснять принятые решения, но не способны автоматически усваивать правила их вывода. Вследствие этого, весьма желательна их кооперация с другими системами обработки информации для преодоления этого недостатка. Подобные системы сейчас активно используются в различных областях, таких как контроль технологических процессов, конструирование, финансовые операции, оценка кредитоспособности, медицинская диагностика и др. Нейронные сети используются здесь для настройки функций принадлежности нечетких систем принятия решений. Такая их способность особенно важна при решении экономических и финансовых задач, поскольку вследствие их динамической природы функции принадлежности неизбежно должны адаптироваться к изменяющимся условиям.
Хотя нечеткая логика может явно использоваться для представления знаний эксперта с помощью правил для лингвистических переменных, обычно требуется очень много времени для конструирования и настройки функций принадлежности, которые количественно определяют эти переменные. Нейросетевые методы обучения автоматизируют этот процесс и существенно сокращают время разработки и затраты на нее, улучшая при этом параметры системы. Системы, использующие нейронные сети для определения параметров нечетких моделей, называются нейронными нечеткими системами. Важнейшим свойством этих систем является их интерпретируемость в терминах нечетких правил if-then.
Подобные системы именуются также кооперативными нейронными нечеткими системами и противопоставляются конкурентным нейронным нечетким системам, в которых нейронные сети и нечеткие системы работают вместе над решением одной и той же задачи, не взаимодействуя друг с другом. При этом нейронная сеть обычно используется для предобработки входов или же для постобработки выходов нечеткой системы.
Кроме них имеются также нечеткие нейронные системы. Так называются нейронные сети, использующие методы нечеткости для ускорения обучения и улучшения своих характеристик.
Это может достигаться, например, использованием нечетких правил для изменения темпа обучения или же рассмотрением нейронных сетей с нечеткими значениями входов.
Существует два основных подхода к управлению темпом обучения персептрона методом обратного распространения ошибки. При первом этот темп одновременно и равномерно уменьшается для всех нейронов сети в зависимости от одного глобального критерия - достигнутой среднеквадратичной погрешности на выходном слое. При этом сеть быстро учится на начальном этапе обучения и избегает осцилляций ошибки на позднем. Во втором случае оцениваются изменения отдельных межнейронных связей. Если на двух последующих шагах обучения инкременты связей имеют противоположный знак, то разумно уменьшить соответствующий локальный темп - впротивном случае его следует увеличить. Использование нечетких правил может обеспечить более аккуратное управление локальными темпами модификации связей. В чаcтности это может быть достигнуто, если в качестве входных параметров этих правил использовать последовательные значения градиентов ошибки. Таблица соответствующих правил может иметь, например следующий вид:
NB | NS | Z | PS | PB | |
NB | PB | PS | Z | NS | NB |
NS | NS | PS | Z | NS | NB |
Z | NB | NS | Z | NS | NB |
PS | NB | NS | Z | PS | NS |
PB | NB | NS | Z | PS | PB |
Данная тема заслуживает не одной книги и ей действительно посвящена обширнейшая литература. В настоящем курсе лекций мы не можем хоть сколько-нибудь подробно остановится на ней. Рассмотрим кратко лишь применение соответствующих идей к анализу сети Хопфилда. Демонстрация тесной аналогии, существующей между спиновыми стеклами и нейронными сетями, определила массированное и плодотворное вторжение методов статистической физики в теорию нейронных сетей в начале восьмидесятых годов. Сеть Хопфилда со стохастическими нейронами и явилась главной моделью, в которой применение этих методов оказалось наиболее значительным. Это чрезвычайно плодотворное обобщение модели, в некотором смысле эквивалентное переходу к сетям с градуальными нейронами. В нем нейроны являются стохастическими элементами и это обстоятельство открывает путь использованию методов статистической физики для анализа свойств ассоциативной памяти.
Поскольку в настоящее время нейронные сети с успехом используются для анализа данных, уместно сопоставить их со старыми хорошо разработанными статистическими методами. В литературе по статистике иногда можно встретить утверждение, что наиболее часто применяемые нейросетевые подходы являются ни чем иным, как неэффективными регрессионными и дискриминантными моделями. Мы уже отмечали прежде, что многослойные нейронные сети действительно могут решать задачи типа регрессии и классификации. Однако, во-первых, обработка данных нейронными сетями носит значительно более многообразный характер - вспомним, например, активную классификацию сетями Хопфилда или карты признаков Кохонена, не имеющие статистических аналогов. Во-вторых, многие исследования, касающиеся применения нейросетей в финансах и бизнесе, выявили их преимущества перед ранее разработанными статистическими методами. Рассмотрим подробнее результаты сравнения методов нейросетей и математической статистики.
Конструктивный взгляд на взаимоотношение нейронных сетей и статистических методов заключается в том, что в общем случае они должны помогать друг другу и обогащать друг друга. Кристоф и Пьер Кувре назвали такой процесс перекрестным опылением.
Например, было показано, что нейросетевые классификаторы оценивают апостериорную Байесовскую вероятность и поэтому аппроксимируют оптимальный статистический классификатор с минимальной ошибкой. Подобная статистическая интерпретация значений выходов нейронной сети позволяет, в частности, компенсировать обычно существующие диспропорции в объемах примеров, представляющих в обучающей выборке различные классы.
Среди так или иначе конкурирующих методологий (а нейронные сети и статистика имеют общую часть "электората" - анализ данных) как правило побеждает не более обоснованная и надежная, а та, что ставит новые задачи для исследования (Имре Лакатош). Нейрокомпьютинг гораздо более молодая отрасль знания нежели статистика. Он бросает многочисленные вызовы специалистам различных профессий: биологам, физикам, психологам, математикам и другим. Кроме того, сфера теории нейронных сетей гораздо шире анализа данных. Она включает в себя и моделирование мозга и разработку нейрокомпьютеров. Статистики не могут претендовать на соревнование в этих областях и ревностно следят за претензиями нейрокомпьютинга на их экологическую нишу.
Джон Такер провел тщательное сравнительное исследование использования логистической регрессии и нейронных сетей и определил следующее их принципиальное различие, которое сохраняет свое значение и при общем сопоставления статистики и нейрокомпьютинга. В то время как статистические методы фокусируются на оптимальном методе выбора переменных, нейрокомпьютинг ставит во главу угла предобработку этих переменных. Если нейронная сеть представляет собой многослойный персептрон, то функцией скрытых слоев и является такая последовательная предобработка данных. Вследствие этого нейронные сети занимают уникальное место среди методов обработки данных, превосходя их в универсальности и сложности, оставаясь при этом data-driven методом мало чувствительным к форме данных как таковых.
Главный практический вывод, который может сделать читатель, сводится к фразе, уже ставшей афоризмом:
Если ничего не помогает, попробуйте нейронные сети.
Поскольку динамика состояний стохастических нейронов является вероятностной, можно интересоваться только средней активностью, или же ожидаемыми значениями их состояний
В силу нелинейности функции Ферми усреднение ее затруднительно, но в приближении среднего поля
можно получить следующую замкнутую систему уравнений.Рассмотрим интересующий нас случай сети, в которой связи вычислены по Хеббовскому правилу, исходя из вида запоминаемых векторов. В этом случае уравнения среднего поля принимают вид
Если сеть работает как ассоциативная память, то разумно предположить, что каждому запоминаемому вектору
должно соответствовать некоторое решение системы, совпадающего с ним с точностью до постоянного множителяПодставляя это выражение в уравнения среднего поля и используя предположение, что все векторы памяти не коррелированы и значения их компонент с равной вероятностью принимают значения , получим:
В пределе
, получаем знакомое уравнение для множителя m:Вновь при высокой температуре
это уравнение имеет только тривиальное решение и усредненная по времени конфигурация состояний нейронов не имеет ничего общего с запоминаемыми образами. При уравнение имеет два решения , для которых средняя конфигурация активностей указывает на одно из запоминаемых состояний , или на его "зеркального двойника" -. Из этих состояний однозначно восстанавливаются образы памяти. Однако, если сделать моментальный снимок состояния сети, то в силу флуктуаций она практически никогда не находится ни в одном из состояний памяти, всегда воспроизводя их с некоторой ошибкой. Теоретически было показано, что загрузка памяти, , оказывает на поведение системы такое же влияние, как температурный параметр в распределении Ферми. Когда этот параметр мал, каждому из запоминаемых некоррелированных образов соответствует стационарное состояние сети. Однако, при приближении его к критической емкости , сеть внезапно теряет все свойства памяти. В плоскости координат области памяти и неупорядоченного поведения сети разделены границей, при пересечении которой происходит соответствующий фазовый переход. Более детальный анализ выявляет на фазовой диаграмме следующие 4 области: парамагнитную (P) фазу, в которой любой порядок разрушается высокой температурой; фазу спинового стекла (SG), в которой состояние сети не может эволюционировать к запомненным образам; смешанную (F+SG) - в ней запомненные образы метастабильны; и ферромагнитную (F) - в ней всем запоминаемым образам соответствуют глобальные минимумы энергии.Наличие тепловых флуктуаций снижает вероятность попадания сети в состояние ложных минимумов. Критическая температура, при которых множество таких минимумов становится неустойчивыми, равна
. Таким образом тепловой шум улучшает свойства памяти и наиболее благоприятным температурным интервалом работы сети является .Ситуация, в которой некоторые данные не известны или не точны, встречается достаточно часто. Например, при оценке возможностей той или иной фирмы, можно учитывать ее официально декларируемый капитал, скажем в 100 миллионов, но лучше всего считать, что в действительности его величина является несколько большей и меняется в интервале от 100 до 300 млн. Удобно ввести в данном случае специальные нейроны, состояния которых кодируют не бинарные или непрерывные значения, а интервалы значений. В случае, если нижняя и верхняя граница интервала совпадают, то состояния таких нейронов становятся аналогичными состояниям обычных нейронов.
Для интервального нейрона
на каждый его вход подается не одно , а пара значений, определяющая границы интервала, в котором лежит величина воздействия -го нейрона. Воздействие, оказываемое на -й нейрон со стороны всех связанных с ним нейронов само лежит в интервале , где - обратная температура.Интервальное значение, которое принимает
-й нейрон при данном воздействии, равногде
Передаточная функция интервального нейрона приблизительно отражает идею монотонности по отношению к операции интервального включения. Это означает, что при
, если вход -го нейрона лежит в интервале , то выход - го нейрона, определенный по классической функции Ферми, обязательно попадет в интервал . Интервальные нейроны могут являться элементами многослойных персептронов. В этом случае их состояния вычисляются последовательно, начиная от входного слоя к выходному. Для сетей интервальных нейронов может быть построено обобщение метода обратного распространения ошибки, описание которого выходит за рамки нашего курса.Стохастический нейрон, как и в оригинальной модели Хопфилда, является бинарным - его состояние
принимает значения . Однако то, в какое состояние перейдет нейрон, связано со значением потенциала не однозначно, а случайным образом. Именно, вероятность перехода нейрона в состояния: , , или иначегде
- распределение Ферми:, удовлетворяющее необходимым условиям , и - обратная температура. В низкотемпературном пределе распределение Ферми переходит в пороговую функцию, и поведение сети из стохастических нейронов становится аналогичным поведению сети Хопфилда, составленной из обычных бинарных нейронов.В чем же заключается сходство и различие языков нейрокомпьютинга и статистики в анализе данных. Рассмотрим простейший пример.
Предположим, что мы провели наблюдения и экспериментально измерили N пар точек, представляющих функциональную зависимость
Если попытаться провести через эти точки наилучшую прямую, что на языке статистики будет означать использование для описания неизвестной зависимости линейной модели , (где обозначает шум при проведении наблюдения), то решение соответствующей проблемы линейной регрессии сведется к нахождению оценочных значений параметров , минимизирующих сумму квадратичных невязок.Если параметры
и найдены, то можно оценить значение y для любого значения x, то есть осуществить интерполяцию и экстраполяцию данных.Та же самая задача может быть решена с использованием однослойной сети с единственным входным и единственным линейным выходным нейроном. Вес связи a и порог b могут быть получены путем минимизации той же величины невязки (которая в данном случае будет называться среднеквадратичной ошибкой) в ходе обучения сети, например методом backpropagation. Свойство нейронной сети к обобщению будет при этом использоваться для предсказания выходной величины по значению входа.
При сравнении этих двух подходов сразу бросается в глаза то, что при описании своих методов статистика апеллирует к формулам и уравнениям, а нейрокомпьютинг к графическому описанию нейронных архитектур.
Если вспомнить, что с формулами и уравнениями оперирует левое полушарие, а с графическими образами правое, то можно понять, что в сопоставлении со статистикой вновь проявляется "правополушарность" нейросетевого подхода.
Еще одним существенным различием является то, что для методов статистики не имеет значения, каким образом будет минимизироваться невязка - в любом случае модель остается той же самой, в то время как для нейрокомпьютинга главную роль играет именно метод обучения.
В чем же заключается сходство и различие языков нейрокомпьютинга и статистики в анализе данных. Рассмотрим простейший пример.
Предположим, что мы провели наблюдения и экспериментально измерили N пар точек, представляющих функциональную зависимость
Если попытаться провести через эти точки наилучшую прямую, что на языке статистики будет означать использование для описания неизвестной зависимости линейной модели , (где обозначает шум при проведении наблюдения), то решение соответствующей проблемы линейной регрессии сведется к нахождению оценочных значений параметров , минимизирующих сумму квадратичных невязок.Если параметры
и найдены, то можно оценить значение y для любого значения x, то есть осуществить интерполяцию и экстраполяцию данных.Та же самая задача может быть решена с использованием однослойной сети с единственным входным и единственным линейным выходным нейроном. Вес связи a и порог b могут быть получены путем минимизации той же величины невязки (которая в данном случае будет называться среднеквадратичной ошибкой) в ходе обучения сети, например методом backpropagation. Свойство нейронной сети к обобщению будет при этом использоваться для предсказания выходной величины по значению входа.
При сравнении этих двух подходов сразу бросается в глаза то, что при описании своих методов статистика апеллирует к формулам и уравнениям, а нейрокомпьютинг к графическому описанию нейронных архитектур.
Если вспомнить, что с формулами и уравнениями оперирует левое полушарие, а с графическими образами правое, то можно понять, что в сопоставлении со статистикой вновь проявляется "правополушарность" нейросетевого подхода.
Еще одним существенным различием является то, что для методов статистики не имеет значения, каким образом будет минимизироваться невязка - в любом случае модель остается той же самой, в то время как для нейрокомпьютинга главную роль играет именно метод обучения.
Иными словами, в отличие от нейросетевого подхода, оценка параметров модели для статистических методов не зависит от метода минимизации. В то же время статистики будут рассматривать изменения вида невязки, скажем на
Многослойный персептрон | Нелинейная (в т.ч. логистическая) регрессия, Дискриминантные модели |
Автоассоциативный персептрон | Анализ главных компонент |
Векторная квантизация | Кластеризация с k-средними |
Сети нейронов высоких порядков | Полиномиальная регрессия |
Многослойный персептрон | Нелинейная (в т.ч. логистическая) регрессия, Дискриминантные модели |
Автоассоциативный персептрон | Анализ главных компонент |
Векторная квантизация | Кластеризация с k-средними |
Сети нейронов высоких порядков | Полиномиальная регрессия |