Главная > Математика > Многомерный дисперсионный анализ
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

ПРЕДИСЛОВИЕ К РУССКОМУ ИЗДАНИЮ

Перед вами книга о многомерном статистическом анализе, точнее, об одном его направлении — многомерном обобщении классического дисперсионного анализа. «Многомерный» в названии книги означает, что речь идет о случайных экспериментах, в которых измеряют сразу несколько признаков, и что результаты этих измерений в дальнейшем рассматриваются совместно. Такой подход необходим в очень многих ситуациях, где полезная информация об объекте или явлении, заключенная в каждом отдельном признаке, недостаточна для суждения о свойствах объекта или явления. Выводы если и возможны, то лишь по совокупности нескольких (иногда многих) характеристик объекта. Примеров этому так много, что труднее, пожалуй, указать задачи с единственной ведущей переменной. Да и логически многомерная ситуация естественна и привлекательна. Но в связи с этим возникает ряд проблем, до сих пор не разрешенных до конца. Дело в том, что, как это нередко бывает, между одной и несколькими переменными (в смысле сложности возникающих проблем) разница отнюдь не количественная, Дисперсионный анализ, как и другие методы математической статистики, прошел путь естественной эволюции — от простого к сложному, от одномерного случая к многомерному. Только после того, как была создана стройная теория одномерного дисперсионного анализа, начали «возводить новое здание» — для случая совместного изучения набора признаков. Привлекателен здесь учет корреляции, позволяющий выбрать наиболее существенные из признаков, сократив размерность их пространства.

В настоящее время статистика одномерных независимых наблюдений достигла высокого уровня развития. Литература по этой теме обширна: учебники и справочники, сборники таблиц, вычислительные программы и т. п. Основные научные вопросы статистики одномерных независимых наблюдений хорошо разработаны. Конечно, вследствие быстрого прогресса возникают и новые направления. Ранговые методы, планирование эксперимента, устойчивые (робастные) правила — вот немногие крупные достижения последних десятилетий.

При всей важности отмеченных разделов математической статистики наиболее актуальным направлением ее развития является

многомерный анализ. В книге Аренса и Лёйтера собрана значительная часть того, что может войти в учебное руководство в этой области. По существу, на таком уровне сейчас находится только статистика независимых многомерных нормальных наблюдений — обобщение хорошо известной в одномерном случае линейной модели. Она здесь и изложена (за исключением задачи регрессии).

Многомерный дисперсионный анализ развивается сходно с одномерным. Сначала вводится (многомерное) нормальное распределение и изучаются выборки из него. Вместо -распределения при этом появляется распределение Уишарта, Особенность многомерной ситуации впервые проявляется в том, что место -критерия оказываются готовыми занять бесконечно много равноправных претендентов. Чтобы сузить их круг и сделать выбор наиболее рационально, авторы высказывают три постулата, которым разумно должны удовлетворять избираемые правила. Но даже и после этого выбор остается далеко не однозначным, и на практике действительно применяют несколько различных статистических критериев. В конце концов авторы книги останавливают свой выбор на популярной статистике (так называемый критерий следа).

Методическая удача книги — широкое использование особой величины, которую авторы называют мерой разделения а мы предлагаем именовать дистантом. Дистант — величина, основанная на и указывающая через ее посредство, сколь сильно наблюдения противоречат линейной гипотезе. Конечно, подобных скалярных показателей может быть предложено бесконечно много. Авторы остановились на том, который гармонично связан с предпочтенным ими критерием следа. Многие выводы в дальнейшем основаны на использовании дистанта.

В отличие от одномерной ситуации в многомерном анализе даже в гауссовском случае (для нормально распределенных наблюдений с одинаковыми матрицами ковариаций) распределения критериев значимости недостаточно оснащены таблицами. Поэтому особенно важную роль играют аппроксимации этих распределений при практически важных объемах выборок При увеличении объема выборки, т. е. при свойства статистических правил проявляются яснее, их проще сравнивать между собой и выбирать наилучшие.

В многомерном анализе возникают различные асимптотические постановки, отражающие соотношение объема выборки и числа включенных в анализ признаков. Первая из них — когда число выборочных единиц значительно превосходит число их признаков. Свойства статистических правил в этом случае можно изучать в рамках предельного перехода Этот случай, наиболее простой с математической точки зрения и больше всего напоминающий предельные задачи одномерной статистики, в основном и рассматривается в данной книге.

Такое соотношение между характерно для ситуаций, в которых уже выявлены главные, адекватные проблеме переменные. Именно поэтому их число невелико. Задача выбора и/или конструирования наиболее информативных признаков также входит в круг

проблем многомерного анализа как одна из важнейших. Пытаются решать ее и иными методами. В другой форме она известна как задача шкалирования (в гл. 10 предлагается один из ее весьма частых случаев). Каждый случай успешного решения такой задачи в конкретной научной области означает, по существу, открытие и приходит как результат ее глубокого изучения. В подтверждение можно сослаться на известную в медицине шкалу тяжести заболевания гипертонической болезнью и на менее известные, но тоже важные одномерные шкалы для других недугов. Для нашей экономической науки вопрос выбора единого показателя хозяйственной деятельности предприятий (или небольшого числа таких показателей) остается в центре внимания. С точки зрения статистики — это задача шкалирования, и методы многомерного анализа применительно к ней могут привести к интересным результатам.

В практической деятельности чаще приходится сталкиваться с положением, когда число выборочных единиц сопоставимо с числом их характеристик, которые исследователь считает важными и потому подлежащими измерению. Это можно отразить с помощью предельного перехода и одновременно причем дробь ведет себя как постоянная величина, т. е. Наиболее важный практический качественный выход из математических рассмотрений этой ситуации состоит в том, что уменьшение числа измеряемых признаков, как правило, улучшает качество статистических выводов при данном Это заключение может показаться парадоксальным: ведь не ставится под сомнение, что каждый из привлекаемых признаков имеет полезную информацию об объекте! Тем не менее оказывается разумным некоторое уменьшение их набора. Такое явление наблюдается как в регрессионном анализе (сокращение числа предикторов), так и в дисперсионном и дискриминантном анализе, чему и посвящена книга. Интересно, что при большом (сравнительно с объемом выборки) числе признаков у исследователя, работающего с конкретным статистическим материалом, может возникнуть чувство благополучия — например, обучающие выборки будут хорошо разделяться. Увы, благополучие оказывается ложным — для контрольных выборок результаты получаются плохими.

Ситуация, в которой число привлекаемых к исследованию признаков значительно превосходит число выборочных единиц, характерна для поисковых исследований. Главным при этом становится выбор информативных признаков. Они и понадобятся в дальнейшей работе. Имеющиеся в этой области математические результаты представляют пока лишь теоретический интерес.

Говоря о современном состоянии многомерного статистического анализа, нельзя не отметить исключительной роли нормального распределения в его теории. Когда-то, на заре развития математической статистики, это распределение занимало такое же господствующее положение и в одномерном анализе. Оно и сейчас может считаться наиболее важным среди вероятностных распределений на числовой прямой, но в некоторых областях применений его заменяют иные законы и параметрические семейства. Мало того, все более важную роль

играют в одномерной статистике непараметрические методы, т. е. приемы обработки результатов, не ориентированные на какой-либо определенный тип вероятностного распределения. Надо думать, что соответствующие перемены ждут нас в многомерном анализе.

При сложившемся положении должно быть ясно, что использование исключительно нормального закона делает большинство теоретических исследований подчеркнуто «модельными», т. е. свойства применяемых статистических правил, выбор их и отбор оптимальных среди них мы делаем в предположении нормальности наблюдений. Но на практике мы не только не проверяем, выполняется ли эта предпосылка, но готовы не обращать внимания на ее нарушение. Остается только удивляться, как часто конечные выводы в главном оказываются правильными, несмотря на имеющиеся отклонения от исходных предпосылок.

Книга Х. Аренса и Ю. Лёйтера, конечно, адресована математически подготовленному читателю. Но любой специалист, в достаточной степени знакомый с матричным исчислением и разбирающийся в теории вероятностей и математической статистике на уровне курса этих дисциплин, преподаваемых в высших учебных заведениях (в частности, экономических), может без труда освоить ее содержание и использовать в своей практической деятельности. Этому способствуют и приводимые авторами примеры. Они хотя и носят биометрический и медицинский характер, но их физическая сущность хорошо иллюстрирует обсуждаемые проблемы, и, кроме того, они понятны даже неспециалисту. Практик легко может перенести их в сферу своей деятельности. Небольшой объем выборок дает возможность произвести по ходу изучения материала расчеты вручную, что позволит лучше усвоить необходимые вычислительные процедуры, а также составить соответствующие программы для ЭВМ.

В любом случае как математик, так и экономист по этой книге составит целостное представление о новой важной области экономико-статистической науки — многомерном анализе. Кроме того, книга содержит краткое изложение одномерного дисперсионного анализа. По последнему вопросу имеется достаточно обширная литература, частично приведенная в основном и дополнительном списках литературы. Книга адресована математикам-статистикам и другим специалистам, использующим статистические методы в своей работе — экономистам, социологам, медикам, биологам и т. д. Она представляет также прекрасное руководство для студентов соответствующих специальностей.

В. М. Иванова, Ю. Я. Тюрин

ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ

Тот, кому приходится сталкиваться с одномерным дисперсионным анализом, а также вычислением корреляций и регрессий, ощущает желание перейти к многомерному дисперсионному анализу и дискриминантному анализу как к некоей панацее от всех бед. Одномерные статистические методы имеют самостоятельное значение, но их применение носит иногда формальный характер. И хотя исследователь свои выводы основывает на применении критериев значимости, это не приводит к получению качественно новых знаний. Вычисление статистических характеристик, например коэффициента корреляции, также порой не приносит желаемых результатов, ибо характеристики не всегда отражают сущность исследуемого явления и не имеют достаточно тесной связи с практической постановкой вопроса.

Напротив, многомерный дисперсионный анализ, особенно в сочетании с дискриминантным, отличается большой эффективностью, что позволяет оценить информационное содержание не только одной, но и множества переменных, исключив избыточные. С помощью этих методов возможна систематизация объемного, непросматриваемого сразу числового материала, а также идентификация или диагностика изучаемых индивидов.

Многомерный, подход обогащает наше мышление, основанное обычно на одномерных представлениях. По этой причине мы охотно воспользовались случаем написать монографию, тем более что на немецком языке едва ли найдется более менее компактное и цельное изложение данного вопроса. Главная цель книги — способствовать широкому применению многомерных методов в биологии, медицине, сельском хозяйстве, педагогике, экономике и т. д. В нашей книге методы освещены так, чтобы их можно было реализовать, не обращаясь к дополнительной литературе. Например, мы детально останавливались на многих принципиальных теоретических вопросах и проследили ход вычислительных процедур многомерного анализа, акцентируя внимание читателя на основных трудностях, сопровождая обсуждение демонстрацией практических примеров.

Успешное применение многомерного анализа невозможно без ЭВМ. Этим, кстати, объясняется, почему методы, уже известные в основных чертах с конца тридцатых годов, на практике до сих пор мало

использовались. Но, несмотря на появившиеся за последнее время компьютеры, должно быть приложено еще немало усилий для реализации сих помощью методов дискриминантного и многомерного дисперсионного анализа. Основная проблема в настоящее время заключается в создании работоспособной программы вычислений многомерного анализа. Наша книга адресована поэтому также работникам вычислительных центров, в чьих руках сосредоточено создание новых машинных алгоритмов.

Берлин, май 1974 г. Хайнц Арене, Юрген Лёйтер

ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ

Повышенный интерес читателей побудил нас к публикации второго издания, цели и задачи которого совпадают с целями и задачами первого издания 1974 г.: способствовать широкому внедрению многомерных методов анализа в биологию, медицину, сельское хозяйство, педагогику, экономику и т. д. Опыт первого издания и последние достижения в области математической статистики заставили нас внести в текст изменения и дополнения.

Новым в книге является описание аппроксимации ненулевого распределения Хотеллинга и основанное на ней планирование объема выработки, методы определения ошибки классификации, вывод одновременных доверительных границ и их использование для множественного сравнения в многомерном случае, а также метод квантификации качественного признака и нового шкалирования количественного признака. В связи с этими дополнениями в книгу включен ряд таблиц для определения объема выборки и перепечатана известная номограмма Хека.

Мы хотели бы еще в большей степени, чем в предисловии к первому изданию, подчеркнуть здесь, что некоторые примеры осознанно взяты с малым объемом выборок. Они задуманы в первую очередь для демонстрации вычислительных процедур и для оказания помощи при создании машинных программ. Примеры носят чисто иллюстративный характер, их статистическое значение сомнительно.

Общая структура данной книги разработана авторами совместно, также вместе написаны главы 1—4 и 11. Главы 5—7 и 10 написаны Ю. Лёйтером в основном самостоятельно, а главы 8 и 9 написаны X. Аренсом.

Некоторые частные указания о структуре книги читатель найдет в разделе 1.3 введения.

Берлин, май 1979 г. Хайнц Арене, Юрген Лёйтер

<< Предыдущий параграф Следующий параграф >>
Оглавление