Т. к. h“ > h, то опять приходим к выводу, что уклонения в данной задаче еще меньше, чем в предшествующих.
Кроме рассмотренных случаев, были исследованы и некоторые другие, причем вероятность Рт выражается такой же показательной формулой, как (1), (Г), (1“), но мера точности различная. Она определяется из условий задачи.
Статистика выдвигает вопросы иного рода, хотя и сходные с предшествующими. Образно можно характеризовать их так: природа подает нам для испытания различные урны, состав которых нам неизвестен. Находя из опыта частость в ряде серий, мы хотим сделать заключение о характере исследуемого явления. Обыкновенно случается, что величины частости, найденные из ряда серий испытаний, весьма близки между собою и группируются около своего среднего арифметического, которое имеет по своим свойствам большое сходство с вероятностью. Оно поэтому и называется статистическою вероятностью. Обозначая его буквою р и вычитая его из отдельных частостей, находим уклонения хь х£, ха частостей от вероятности р. Найдя эти величины уклонений, вычисляем величину:
<т“
> )
(3)
называемую средним квадратическим уклонением, а затем находим величину Л по формуле:
Л= ~ V 2 и“
(4)
Вероятность Рт частости — выразится формулою:
Р= е-1
sVn
(1)
Припомним, что чем больше мера точности, тем теснее точки кривой группируются около оси ординат, тем дисперсия ее меньше. Формула (1) такого же характера, как в рассмотренных выше задачах теоретического характера, где есть вероятность основная или средняя. Поэтому, естественно, возникает вопрос: можно ли в данном случае статистическую вероятность р рассматривать как основную или среднюю. Если р основная вероятность, то, как мы знаем, мера точности должна выражаться формулою:
h=Vi}- (2>
Кривую с мерою точности (2) мы назовем кривою с нормальною дисперсией. Сравним ее с кривой (1). Если Л=h, то кривая (Г) имеет дисперсию нормальную; если И > h, то дисперсия кривой (1) меньше нормальной, кривая имеет дисперсию поднормальную если Л<Л, то дисперсия сверхнормальна. Во всех изученных до этого времени случаях, даваемых статистикою, дисперсия оказывалась сверхяор-мальною или в редких случаях близкою к нормальной.
Лексис, положивший начало исследованиям этого рода, назвал h физикаль-ной величиной, h комбинаторной величиной меры точности; отношение
Q — jf называется коэффициентом расхождения. Ясно, что при Q — 1 дисперсия нормальная, при Q > 1 она сверхнормальна, когда <е< 1—поднормальна. Один из самых давних и подробно разработанных вопросов есть вопрос о рождении мальчика. На основании публикуемых сведений о числе родившихся детей можно найти отношение числа родившихся мальчиков к числу всех новорожденных в данной стране за данное время. Это число обладает исключительным постоянством. По вычислениям Лексиса, для различных округов Пруссии оно равно 0,515; коэффициент расхождения оказывается равным 1,09. Дисперсия почти нормальная. (См. статистика, XLI, ч. 4, 413/34).
В вопросах, до этих пор рассмотренных, мы говорили о тех случаях, где может наступить одно из двух противоположных событий (например, появление белого или черного шара, орла или решетка и так далее); попутно мы встретили вопрос о вероятности величины уклонения частости от вероятности: мы измеряем вероятность приближенной величиной, а именно — частостью, и определяем величину вероятности той ошибки, которую мы сделаем, принимая частость рави ю вероятности. Ясно, что это—частный случай в вопросе более широком: о приближенном вычислении какой бы то ни было величины и о вероятности ошибки при полученном результате измерения. Эта теория ошибок измерения впервые опубликована Гауссом. в 1809 г.
Он положил в основание начало арифметической средины: паивер ятн.йший результат из системы измерений, произведенных при одинаковых условиях (равноточно), есть среднее арифметическое. Вероятность, что ошибка при измерении заключается между е и £-|-йз, где di величина очень малая, выражается так:
(5)
Vr.
где h есть мера точности. Для нахождения этой величины мы поступаем следующим образом. Пусть пеизвестпая величина х измерена s раз, причем получились величины xt, Xfr, х,. Наивероятнейшео значение х поначалу арифметической средины есть их среднее арифметическое
► Дд хг Н— + хв щ
Припвмая его за истинное значение измеренной величины, находим ошибки при полученных результатах измерения:
xi — I=е х2 - £=е2,, х, — |=ев. Составляя выражение по тому лее тину, как выше выражение (3), находим:
Н-----Н8“
(6)
Это — средняя квадратическая ошибка для полученных измерений. Выражение:
есть величина параметра h в формуле (5), то есть мера точности измерения.
На этих формулах основана обширная и стройная Гауссова теория ошибок измерения. Качество отдельного измерения характеризуется мерою точности h или средней квадратическою ошибкою о. Кроме того, часто вычисляют величину г, называемую вероятной ошибкой. Это—такое число, относительно которого с одинаковым правом можно у:вер-ждать, что ошибка больше ила меньше его. Величина г определяется формулой
0,4769
r=-h~-
Мера точности средпего арифметического 5 равна Л Гв; след., опа в Bs раз больше моры точности отдельного измерения.
Па теории ошибок Гаусса основан и способ наименьших квадратов, предложенный Ложандрои, но строго обоснованный Гауссом. Задача этого способа — нахождение наиболее надежных величин для неизвестных, когда неиосредсгвсиио измерить их мы не можем, а измеряем только величины выражений, куда эти неизвестные входят. Получается ряд уравнений, содержащих в себе искомые величины, как неизвестные. При этом число уравнений должно быть по возможности велико,—во всяком случао больше числа неизвестных. Т. к. в уравнения входят величины, найденные измерением, то есть приближение, то между уравнениями непременно будут противоречия. Задача способа наименьших квадратов состоит в нахождении для неизвестных таких числовых значений, при которых противоречия были бы как можно меньше.
Бельгийский математик и антрополог Кстле, изучая размеры одного и того же органа,
в частности роста, у различных людей, нашел брльшое сходство в особенностях полученных нм результатов с теми, которые обнаруживаются при рассмотрении результатов измерения одного и того нее предмета. Он пришел к мысли, что природа, создавая человека, имеет в виду осуществить определенный нормальный образец, и только вследствие случайных причин делает уклонения от этого образна. Если эта мысль верна, то понятно, что уклонения в размерах кажд го органа у отдельных людей от среднего образца должны следовать тому же закону, который обнаруживается для ошибок измерения в гауссовой теорпп. Применение гауссовой теории привело Кстле к созданию основ теории массовых яв епий, или т. наз. математической статистики. В большинстве своих исследований Кетле пользовался приведенной выше формулой Гаусса, и она давала ему результаты, согласные с действительностью, вследствие чего закон, выражаемый этой формулой, получил название нормальною закона. Но уже сам Кетле обратил внимание на то, что нормальный закон окажется ошибочным, если исследуемый материал — не однороден.
В осниво теория массовых явлений лежит понятие о кривой распределения. Для его уяснения возьмем пример, с которого Кетле начал изложение своей теории. Пусть речь идет о росте солдат определенн го полка. Разделив весь промежуток, в котором встречается человеческий рост, на малые интервалы, положим в 1 дюйм, мы записываем, сколько из измеренных солдат приходится на каждый из этих интервалов. Конечно, карликов и великанов будет немного, а чем ближе мы будем подходить к среднему росту, тем чащ! будут встречаться люди, к нему принадлежащие. Таблицу, где в одном столбце в последовательном порядке н.швеап рост, в другом столбце—против каждого роста соответствующее число солдат этого роста, мы назовем таблпцою распределения солдат данного полка по росту. Подобным жо образом можем составить таблицу распределения рабочие в данном городе и в данном году по заработной плате; распределение умерших в даном городе и в данном году по их возражу; распределение цветков даппого вида растений в данной коллекции по числу лепестков на них, и так далее Отдельные предметы, вошедшие в счет, обыкновение называются объектами, всо эти объекты вместе взятые называются совокупностью, число объектов совокупности — объёмом совокупности, а та величина, которая ноложона в основу распределения (рост солд., заработ. плата и так далее) называется признаком объекта. Для составления наглядного понятия о характере изучаемого распределения пользуются графическим приемом: берутся две взаимно перпендикулярные оси координат на горизонтальной осп (осп абсцисс), от начала координат откладываются отрезки, изображающие величину признака, а из копечпой точки каждого отрозка в виде ординаты откладывается длина, выражающая число объектов с этой величиной признака. Соединив конечные точки ординат в последовательном порядке прямыми линиями, получим ломаную, выражающую закон изучаемого распределения. Обыкновеиио, как мы это видели, говоря о росте солдат, ординаты крайних точек слева и справа в построенной ломаной будут очень малы, но мере приближения к средней части ломаной ординаты увеличиваются до некоторой наивысшей точки ломаной. Ломаная имеет такой же характер, какой мы нашли, рассматривая члены бинома при выводе теоремы Вернуллп. Отрезок оси абсцисс между крайними ординатами называется базисом ломаной, абсцисса наивысшей точки ее — модой.
Обозначив абсциссы вершпн ломаной буквами: х1,х2,,хп, соответствующие им ординаты буквами У1,У2г-Уп’ а объём совокупности (число его объектов) буквою N, составом выражение:
2/i 1 + У2 х2 Н-----t-2/яя
--N--
Это — средняя велпчппа признака для объектов данной совокупи сти.
Кроме величины | в теории распределения имеют большое значение величины, представляющие обобщения этой величины, а именно:
У xik + ’/2 24-----b Уп х«
Щ---л-’
где Тс — какоо угодно целое положительное число. Это — так паз. момент k-то порядка. При к=1 выражение тк. то есть»%, равно величине следовательно, средняя величина признака равна моменту 1-го порядка. Начало координат соответствует тому значению признака, от которого мы начинаем отсчитывать его величину; панр., рост человека можно отсчитывать нлп от 0, или от некоторого числа дюймов, соответствующего наименьшему встречающемуся у человека росту. Поэтому начало координат в значительной море выбирается произвольно. В зависимости от изменения начала координат меняются и величины моментов. В теорпп кривых распределения оказывается целесообразным перенести начало координат в точку с абсциссой £. Эта точка называотся центром распределения, а моменты, вычисленные для случая, когда величины признака отсчитываются от центра, называются нейтральными; будем их обозначать буквой Мк, где к равно 2, 3, 4, (величина равна 0). Чтобы но вводить невых букв, будем обозначать велпчипу признака, отсчитываемую от центра, прежней буквою х; она будет положительна, когда прпзпак объекта больше среднего, и отрицательна, когда он м ныне среднего. Велв-чппа х есть уклонение признака в отдельном объекте от среднего значеипя. Момент 2-го порядка выразится так:
„г _ е/l 1 + 2/2 2 Н-----Ь Уп
М2------
Квадратный корень из этой величины М2 называется средним кгадратическим уклоненном для данной совокупности объектов: α= V М2. При изучении закона распределения в простейших случаях, впервые встреченных Котле, как упомянуто выше, можно считать величину х за случайное уклонение признака от средпей величины его, служащей как бы образцом. Поэтому естественно, что липпя расп| еделеипя выразилась формулой, подобной формуле Гаусса:
У
—
(8)
шары в урну не возвращаются. Этот случай Пирсон назвал гппергеометрпческим вследствие особенностей членов того ряда, который встречается в этом случае. Откладывая по оси абсцисс величипу частости, как в случае бинома, а па перпендикулярах к ней величины членов получаемого ряда, находим опять ломаную. Плавная кривая, наиболее близко подходящая к этой ломаной, и есть
Чертёж 4
кривая Пирсона. Общий вид уравнения этой кривой таков:
У=л(1 + -}) (i-f)’ <9>
Эта кривая симметрична относительно оси у; поэтому иептр распределения лежит в начале KOi р ипат, а наивысшая (модальная) точка лежат на оси у (чертёж 3).
Как заметил уже Кетде, в случаях более сложных кривая распределения мотет быть асимметрична: мода ее разнится от абсциссыу
центра. Форма кривой распределения такого более общего вида предстаплепа на чертеже 4.
Хотя возможность встретить асимметричную кривую была указана Кетле, по уяснение характера таких кривых и нахождение вида их уравнения принадлежит английскому современному математику Пирсону. Чтобы составить уравнение кривой распределения в болое общих случаях, чем гауссов, Пирсов обратился к задаче Т. в., составляющей ближайшее обобщенно той, которая приводит к формуле бинома, а именно: оп берет тоже знакомый нам случай с урною, где вынутыегде А, а, b, т, и суть постояппые числа. Величины их определяются по моментам липни распределения, вычисляемым описанным вышо способом. Для определения 5 параметров А, а, Ь, т, и надо найти объём совокупности и моменты первых 4 порядков. В зависимости от величии этих моментов, параметры могут получать различные значения: положительные, отрицательные, действительные или мнимые, копечпые или бесконечные. В связи с этим формула уравнения и вид соответствующей кривой могут быть весьма разнообразны. Кривые Пирсона делятся па 7 классов, определяемых так паз. критерием Пирсона:
, М.е (ЛГ, + ЗД/22)з
4 (Мк М2~ 3М#—%М£) ч4М,Мк—М£)
где М2, М2ЖК суть нейтральные моменты.
Если к < 0, то кривая принадлежит к типу I; она выражается уравнением (9), где все параметры действительны, тени больше чем—1, переменное х получает значение между — а и -)- Ь следовательпо, длина базиса кривой a -j- b к печных размер в Если показатели топ положительны, то ординаты конечных точек кривой равны 0, кривая имеет такой вид, как на чертеже 5; если от отрицательна, а и положительна, то ордината кривой при начале базиса равна беек вечности. Кривая имеет такой вид, как вачертёж 6. Наконец, когда от и и отрицательны, то ординаты при обоих концах базиса равны бесконечности; кривая имеет такой вид, как пачертёж 7. Случай распределения этого типа представляют наблюдения в Бреславле над распределением дней года по степени облачности. Не входя даже в беглый обзор других типов кривых по системе Пирсона, т. к. эго валяло бы много м ста, заметим, что при к — 0 и, кроме того, М3 — О,=ЗM22, кри вая Пирсона нринадюжит к типу YU и есть нормальная кривая, то есть кривая Гаусса (8); следовательно, эта кривая, приведшая Кетле
У
к основам созданной им теории массовых явлепий, входит в классификацию Пирсона как частный случай. Разрабатывая свою теорию, Пирсон приложил ее к весьма сложной кривой смертности. При этом он обнаружил, что кривая смертности может быть разложена на 5 крпвых его типов, соответственно 5 родам смерти: )) младенческого возраста,
2) возраста детского, 3) юношеского, 4) зрелого, 5) старческого. Из них 1, 2 и 5 принадлежат к типу III, а 3 и 4 — нормальные. Кривая младсической смертности начинаетсяпа -5- года раньше рождения (мертворожденные) и имеет начальную ординату равную
бесконечности. Это — результат теоретического вывода, совершенно неожиданный и с первого взгляда парадоксальный; но он станет понятным, если вдуматься, какое множество человеческих жнзией гибнет еще до рождения и в первые дни после рождения.
Б рассмотренных случаях мы говорили о распределении совокупности по одному признаку (наир., людой по росту). По возможно обобщить это попятив и говорить о распределении по двум или нескольким признакам, например, людей по росту и объёму груди или по росту, объёму груди и силе руки, и так далее Или же можно рассматривать сложный объект, например, отец и сын, и распределяй, такие сложные объекты по двум признакам: росту отца и его сына. Мы будем говорить пока только о распределении по дв>м признакам. Это понятие приводит к открытью новой области, называемой теорией корреляций.
В чистой математике постоянно приходится пользоваться понятием „ функция Если две переменные величины ха у связаны между собою так, что каждому данному значению х соответствует одпо или несколько значений у, то у называется функцией х. Такое понятие постоянно встречается в приложениях математики к механпке, физике, астрономии и так далее По в статистике встречается зависимость иного характера, например, рост отца и его сына. Обыкновенно, то есть в среднем, у отцов высокого роста бывают сыновья роста большого, а у отцов низкорослых и сыновья невысокие. Отсюда
заметно, что некоторая зависимость между ростом отца и сына есть; но по росту отца нельзя вычислить рост сыпа, т. к. этот рост допускает большие колебания; встречаются даже случаи (правда, редкие), когда у отца высокого роста сын оказывается низкорослым. Можно только говорить о среднем, росте сыновей для отцов данного роста. Зависимость этого характера называется корреляционной зависимостью, или, коротко, корреляцией. Для простоты рассуждений будем иметь в виду частный пример корреляции между ростом отца и сына: это один из самых давних примеров, разработанных Пир-O>ном. Обозначим один признак (рост отца) букв! ю х, а другой прпшак (р ст сыпа) буквою у. Возьмем прямо гольные осп координат и примем х за абсцпсу, а у за ординату точки па плоскости. Каждому объекту данной совокупности соответствует определенная точка. Все эти точки составляют поле точек; число их равно объёму совокупности, который мы обозначим буквою N. Во всех примерах, даваемых статистикой,
иоле точек, построенных указанным образом, имеет характерную особенность: оно напоминает кучу песка, насыпанного па горизонтальный лист бумага через узкое отверстие: в тон части плоское гн, которая расположена под этим отверстием, песчинки скучены очень тесно около некоторого цептра, по мере удаления от цептра песчанки встречаются все реже, пока, наконец, не перестают встречаться совершенно. В большинстве случаев, а именно, когда признаки жну между собою связаны корреляционно, поле точек пе представляет округлую форму, оно несколько вьпянуто в определенном напраг вленпн а имеет ф’рму овальную (эллиптическую). Эта форма стоит в зависимости от харакюра и степени связп между признаками.
Покроем плоскость, занятую точками поля, сетью прямоугольников по возможности малых размеров и со сторонами, параллельными осям координат. Сосчитаем число точек поля для каждого из этих прямоугольников и запишем на каждом прямоугольнике это число лежащих в нем точек поля, называемое чисдепностью для данного прямоугольника. Если в каком-либо прямоугольнике точек поля пет (прямоугольник пустой), то численность ого равна 0. При таком условии сеть прямоугольников будет п;ед-ставлять собою прямоугольную таблицу, все клетки которой имеют свою численность, если принимать во внимание и численность равную 0. Пусть левая нижняя вершина некоторого прямоугольника имоет координаты х, у; такой прямоугольник будем пазывать прямоугольником (х, у). Если измерения прямоугольника весьма малы, то все точки поля, лежащие внутри пего, имеют координаты очень близкие к ж и у; приближенно примем их рапными х и у, a численность прямоугольника обозначим буквою пух. Для ясности рассуждений схематически на чертеже 8 изобразим таблицу численностей, так называемым корреляционную таблицу.
Чи ла, стоящие в одном и том же вертикальном столбце, называются строем, в частности ж-вым строем, если он соответствует абсциссе ж. Так же точно числа одной и той жо горизонтальной строки назовем горизонтальным строем, в частости у-выч строем. Сложив числа ж-вого строя, получим число, которое обозпачпм черее пх и наювем численностью ж-вою строя. Все такое числа составляют добавочную стр ку внизу таблицы. Таким же образом, сложив числа у-вого строя, получим численность пи. Эти числа составят добавочный столбец справа таблицы. Сумма чисел добавочной строки так же, как и добавочного столбца, равна объёму N
совокупности. Составим сумму всех произведений вида хпх; разделив ее па N, получим среднюю величину признака ж для объектов данной совокупности. Обозначим ее буквою |. Таким же образом вычпелпм среднюю величину у прпзпака у. Точка с координатами (£, у) называется цептром распределения. Для упрощения вычислений пе-реиоенм пачало координат в центр (|, у, а оси оставляем параллельными прежним. Для избежания излишних обозначений мы будем обозначать координаты центральные (для нового начала) прежними буквой ж и у. Тогда ж и у будут обозначать уклонения об их признаков от пх средних значений. Говоря о распределении по одному признаку, мы видели, что характер распределения может быть весьма разнообразен, но наибольшей простотой и распрострапеи-
|
х
У | |
0 | |
I | |
2 | |
3 | |
«« | |
| |
У | |
|
3 | |
Л
11 | |
Э
п | |
я
П | |
пэ | |
п | |
п
S | |
п | |
|
2 | |
по | |
П | |
П
2 | |
!
J | |
г
П | |
11
ь | |
1 | |
|
1 | |
П | |
п | |
п
2 | |
П
3 | |
п | |
11
ь | |
п | |
|
0 | |
п
0 | |
п° | |
п°
2 | |
П
3 | |
11°
и | |
о
II | |
оп | |
|
П
X | |
П
о | |
U | |
п
2 | |
п
3 | |
11 | |
П
» | |
N | |
Чертёж 8.
ностыо в приложениях отличается нормальное распределение, выражаем е формулою Гаусса. Обобщая это определение, мы назовем нормальным такое распределение по лвум признакам, где все строи горизонта1ьпые ив. ртикальные, а также добавочная строка и столбец представляют собою числа, следующие нормальному распределению. Восставим в левой ппжней вершине каждого прямоугольника сета перпендикуляр к плоскости и отложим па нем длину, равную численности прямоугольника. Если измерения прямоугольников малы, то конечные точки перпендикуляров будут между собою близки, они определяют некоторый свод над горизонтальною плоскостью. Чтобы определить форму этого свода, мы составляем уравнение аналитической поверхш стн, близко проходящей к конечным точкам построенных перпендикуляров. При нормальном распределении эго уравнение таково:
N 2к ot а2 Vi_
где в1 среднее квадратическое уклонение для чисел добавочной строки корреляционной таблицы (чертёж 8), а а2— среднее квадратическое уклонение для чисел, стоящих в добавочпом столбце той жо таблицы. Обе величины вычисляются тем способом, который мы видели, говоря о распределении по одному признаку. Величина г вычисляется несколько сложнее; поэтому опускаем под робности этого вычисления, ограничиваясь тем, что скажем о нем ниже. Величина г называется коэффициентом корреляции. Из формулы (10) непосредственно видно, что г2 не может быть больше 1: иначе величина V 1 — г2, входящая в формулу (10), была бы мнима; следовательно, г заключается между —1 и +1. Из той же формулы (10) следует, что величина z имеет наибольшее значсппе, когда х и у равны 0; следовательно, поле точек наиболее густо при центре распределения, что соответствует сказанному в самом начале. Мы знаем, что все строи, в том числе и а>вый строй, имеют нормальное распределение; следовательно, наибольшая густота точек поля в прямоугольниках ш-вого строя находится при центре этого строя. Чтобы исследовать распределение для щ-вого строя, положим в формуле (10) переменное х равным данному числу и будем считать в этой формуле изменяющимся только у. Получится формула распределения гауссова тина; в пей координата центра распределения выразится формулою:
Г=ш, (П)
<4
а ередпое квадратическое уклонение в этомстрое:
„21/1ГГ7д. (12)
Формула (11) показывает, что цептры распределения всех вертикальных строев лежат на одной прямой, выражаемой уравнением (11) и проходящей через центр всего распределения. Опа называется прямой репрессии. Формула (12) есть среднее квадра тпческоо уклонение каждого вертикального строя около его центра, лежащего в пересечении этого строя от прямой регрессии. Из формулы (12) видно, что рассеяние точек для всех вертикальных строов одинаково и растет с уменьшением г по абсолютпой волпчипе. Оно наибольшее, когда г=0; в этом случае величина (12) равна <т2, т-“е-среднему квадратическому уклонению признака у для всего ноля. В этом случив зависимости между величинами у и щ не существует, то есть корреляции нот никакой. Когда г увеличивается, величппа (12) уменьшается, точки ноля располагаются плотнее около линии регрессии; пакопец, при r — ± 1 величина (12) обращается в 0, все точки полясдвигаются на линию регрессии, следовательно у есть функция от х, определяемая прямою (11) при r=± 1, то есть
Со
У=it ——X.
Отсюда ясно, почему величина г названа коэффициентом корреляции; она измеряет силу корреляционной зависимости; когда г=0, зависимости не существует; чем больше г по абс >лютв! и величине, тем зависимость сильнее; при r=rt 1 зависимость полпая, функциональная.
Рассуждения, которые мы делали о вертикальных строях, можно применить и к строям горизонтальным: 1) центры горизонтальных строев расположены па одной прямой:
Х=Г~1у, (11)
°2
проходящей через центр всего распределения, 2) среднее квадратическое уклонение каждого горизонтального строя около центра, то есть около его пересечения с прямою регрессии (11), одинаково для всех горизонтальных строев и равно:
ovV i=F. (12)
Величину F — ординату центра х - вого строя, выражаемую формулой (11), можно вычислить, и не прибегая к этой формуле. В самом деле, Y есть ордината центра ж-вого строя; для ее нахождения умножаем численность») одпого из прямоугольников ж-вого строя на соответствующую ординату у, складываем такие выражения для всех многоугольников щ-вого строя и делим сумму на его чпслеппость пх. В результате получится величина Y. Все эти центры строев будут лежать па одной прямой, если распределение строго нормальное и все вычисления безусловно точны. Конечно, этп условия на практике никогда вполне не осуществляются; но найденные центры строев составляют ряд точек, расположенных почти на одной прямой. Пример такого расположения центров и соответствующую прямую регрессии можпо видеть на чертеже 9, заимствованном у Пирсона и выражающем зависимость среднего роста сына от роста отца.
Когда построены центры строев, то можпо графически на бумаге провести через центр всего распределения прямую, возможно близко проходящую к центрам строев, и определить тангенс у гла паклопенпя этой прямой к осп х. Найдя эюг tg и обозначив буквою pt, представим уравнение (11) в таком виде:
Pi“, (13)
го2
Такта же образом найдем уравнение второй липии регрессии, т.-о. (1Г), в следующем виде:
х=еа/, (13)
где
Перемножив величины и д2, находим:
= b (Н)
откуда
r=—
Чтобы определить знак, который надо взять перед корнем, заметим, чго и а2 положительны, а потому г имеет знак, одинаковый с ft и д2. Величина г есть средняя нроиор-дпинальная между gL и д2: а эти коэффициенты можно найти графически.