Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://www.iki.rssi.ru/magbase/REFMAN/STATTEXT/glossary/gloss_v.html
Дата изменения: Unknown Дата индексирования: Fri Dec 21 22:28:00 2007 Кодировка: Windows-1251 Поисковые слова: р п р п р п р п р п |
Вероятностные нейронные
сети (PNN). Вид нейронных
сетей для задач классификации,
где плотность вероятности принадлежности
классам оценивается посредством ядерной
аппроксимации. Один из видов так называемых
байесовых сетей (Speckt, 1990; Patterson, 1996; Bishop, 1995). См.
раздел Нейронные сети.
Взаимодействия. Эффект взаимодействия возникает, когда зависимость между двумя или более переменными изменяется под воздействием одной или нескольких других переменных. Другими словами, сила или знак (направление взаимодействия) зависимости между двумя или более переменными зависит от значения принимаемого некоторыми другими переменными. Термин взаимодействие был впервые использован в работе Фишера (Fisher, 1926). Отметим, что слово "зависит" в данном контексте не означает причинной зависимости, а просто отражает тот факт, что в зависимости от рассматриваемого подмножества наблюдений (от значения модифицирующей переменной или переменных) характер зависимости будет меняться (модифицироваться).
Предположим, что имеется две группы студентов, причем психологически студенты первой группы настроены на выполнение поставленных задач и более целеустремленны, чем студенты второй группы, состоящей из более ленивых студентов. Разобьем каждую группу случайным образом пополам и предложим одной половине в каждой группе сложное задание, а другой - легкое. После этого измерим, насколько напряженно студенты работают над этими заданиями. Средние значения для этого (вымышленного) исследования показаны в таблице:
Целеустремленные | Ленивые | |
---|---|---|
Трудное задание Легкое задание |
10 5 |
5 10 |
Какой вывод можно сделать из этих результатов? Можно ли заключить, что: (1) над сложным заданием студенты трудятся более напряженно; (2) честолюбивые студенты работают упорнее, чем ленивые? Ни одно из этих утверждений не отражает сущность систематического характера средних, приведенных в таблице. Анализируя результаты, правильнее было бы сказать, что над сложными заданиями работают упорнее только честолюбивые студенты, в то время как над легкими заданиями только ленивые работают упорнее. Другими словами, характер студентов и сложность задания, взаимодействуя между собой, влияют на затрачиваемое усилие. Это пример парного взаимодействия между характером студентов и сложностью задания. (Отметим, что утверждения 1 и 2 описывают главные эффекты.)
Для получения дополнительной информации о взаимодействиях
см. раздел Эффекты
взаимодействия в главе Дисперсионный
анализ.
Вигенда
регуляризация. Модифицированный вариант
функции ошибок для алгоритмов итерационного
обучения, в котором большим весам приписывается
штраф, так что сеть сама
находит для себя нужный уровень сложности и
избегает переобучения (Weigend
et. al., 1991). См. раздел Нейронные
сети.
Вложенные факторы. Во вложенных планах уровни факторов вложены (этот термин был впервые использован в работе Ganguli, 1941) внутри уровней другого фактора. Например, если необходимо провести четыре различных теста в четырех разных классах (т.е. имеется межгрупповой фактор с четырьмя уровнями), причем два из этих классов находятся в школе A, а два других класса находятся в школе B, то уровни первого фактора (4 различных теста) вложены во второй фактор (2 разных школы).
См. также раздел Дисперсионный
анализ.
Внешние массивы. При проведении анализа Тагучи, повторные измерения откликов часто производятся систематическим образом, чтобы контролировать факторы шума. Уровни этих факторов в этом случае располагаются в так называемых внешних массивах, т.е. в ортогональных планах эксперимента. Однако обычно повторные измерения размещаются в отдельных столбцах электронной таблицы (т.е. в другой переменной); поэтому индекс i (в формулах "чем-меньше-тем-лучше", "чем-больше-тем-лучше" и др.) пробегает номера столбцов всех переменных электронной таблицы, либо уровни всех факторов во внешнем массиве.
См. раздел Отношение
сигнал/шум.
Внутриклассовый коэффициент корреляции. Значение внутриклассового коэффициента корреляции для популяции является мерой однородности наблюдений внутри классов случайного фактора относительно изменчивости наблюдений между классами. Он равен нулю только в случае, когда оцениваемый эффект случайного фактора равен нулю, и достигает единицы только если оцениваемый эффект ошибки равен нулю, при условии, что общая дисперсия наблюдений отлична от нуля (см. работу Hays, 1988, стр. 485).
Отметим, что внутриклассовый коэффициент
корреляции может быть измерен с помощью
метода оценивания компонент дисперсии (см.
раздел Компоненты
дисперсии и смешанная модель ANOVA/ANCOVA ).
Временные ряды. Временной ряд - это последовательность измерений в последовательные моменты времени. Анализ временных рядов включает широкий спектр разведочных процедур и исследовательских методов, которые ставят две основные цели: (a) определение природы временного ряда и (b) прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям). Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена, вы можете с ее помощью интерпретировать рассматриваемые данные (например, использовать в вашей теории для понимания сезонного изменения цен на товары, если занимаетесь экономикой). Не обращая внимания на глубину понимания и справедливость теории, вы можете экстраполировать затем ряд на основе найденной модели, т.е. предсказать его будущие значения.
За дополнительной информацией о временных
рядах обратитесь к разделу Временные
ряды.
Встряхивание весов. Добавление к весам нейронной сети небольших случайных величин с целью обойти локальные минимумы в пространстве ошибок.
См. раздел Нейронные сети.
Выбросы. По определению, выбросы - это нетипичные или редкие значения, которые существенно отклоняются от распределения остальных выборочных данных. Эти данные могут отражать истинные свойства изучаемого явления (переменной), а могут быть связаны с ошибками измерения или аномальными явлениями, и поэтому не должны включаться в модель.
Из-за особого способа определения линии регрессии при вычислении множественной регрессии (особенно при минимизации не сумм отклонений, а суммы квадратов отклонений наблюдений от линии регрессии), выбросы оказывают существенной влияние на угол наклона регрессионной линии и, соответственно, на коэффициент корреляции. Всего один выброс может полностью изменить наклон регрессионной линии и, следовательно, вид зависимости между переменными. Обратите внимание на следующий рисунок. Одна точка выброса обусловливает высокое значение коэффициента корреляции, в то время как на самом деле (в отсутствие выброса) она практически равна нулю. Как правило, весьма опасно делать важные выводы о связи переменных исключительно на основе полученного значения коэффициента корреляции, всегда в таких случаях имеет смысл построить и исследовать диаграмму рассеяния.
Обратите внимание, что при сравнительно маленьком объеме выборки включение или исключение неявных "выбросов" (не таких очевидных, как показанный на предыдущем рисунке) может существенно изменить линию регрессии (и коэффициент корреляции). Этот эффект показан на следующем примере, где мы называем "выбросами" исключаемые точки. Вполне вероятно, что эти значения вовсе не являются выбросами, а представляют собой крайние точки.
Обычно предполагается, что выбросы являются
случайными ошибками, влияние которых хотелось
учесть. Понятно, что выбросы могут не только
искусственно увеличить коэффициент корреляции,
но могут также и уменьшить степень
"реальной" зависимости.
См. также раздел Доверительный
эллипс.
Выбросы (на диаграммах размаха). Значения, находящиеся достаточно "далеко" от центра распределения, называются выбросами (outliers) и крайними точками (extreme values), если они удовлетворяют следующим условиям.
Точка данных считается выбросом, если:
значение в точке > ЗВГ + *к.в.*(ЗВГ -
ЗНГ)
или
значение в точке < ЗНГ - *к.в.*(ЗВГ - ЗНГ)
где
ЗВГ - значение на верхней
границе прямоугольника на диаграмме размаха
(например, [среднее + стандартная ошибка] или [75-я
процентиль]).
ЗНГ - значение на нижней
границе прямоугольника на диаграмме размаха
(например, [среднее - стандартная ошибка] или [25-я
процентиль]).
к.в. - коэффициент выброса.
Например, на следующем рисунке показаны диапазоны выбросов и крайних точек на "классической" диаграмме размаха (подробнее об этом типе диаграмм можно прочитать в работе Тьюки - Tukey, 1977).