Математические методы в истории

Измерить - значит объяснить

Погрешности в исторической статистике

Неточность сведений - особенность статистики любой страны. Так, один из крупных экономистов Запада О. Моргенштерн предпринял попытку оценить уровень точности в отдельных областях экономической статистики в развитых капиталистических странах в XX в. В результате кропотливого сравнения сведений разных источников об одном и том же предмете О. Моргенштерн пришел к выводу, что расхождения в показаниях источников достигали по внешней торговле 167%, по ценам - 100, по добывающей промышленности - 30, по сельскому хозяйству - 50, по занятости - 30, по безработице - 50, по национальному доходу - 50%.2

В связи с неизбежностью погрешностей в первичных статистических данных возникает вопрос: накладываются или взаимопогашаются дефекты данных при дальнейшей их обработке и обобщении или генерализации?

Одни исследователи указывают, что с увеличением количества статистических данных влияние большей части погрешностей имеет тенденцию все более и более уменьшаться, так как при выводе средних, по крайней мере за продолжительный период времени, отклонения в первичных данных в одну сторону уравновешиваются их отклонениями в противоположную сторону, т. е. они взаимопогашаются. Другие исследователи, наоборот, считают, что практически все дефекты первичных данных суммируются.

Представляется, однако, что обе точки зрения - крайности, не соответствующие действительной судьбе отдельных погрешностей первичных сведений при генерализации данных. Дело в том, что неизбежные погрешности в первичных данных являются не систематическими, а случайными и независимыми одна от другой ввиду того, что одна погрешность не влечет за собой обязательно и другую. Вследствие наличия случайных погрешностей в первичных данных действительные цены то преувеличиваются, то преуменьшаются. Поэтому ошибки в первичных данных при генерализации не могут суммироваться. Однако не могут они и полностью взаимопогашаться, поскольку, во-первых, возможны накладки одной ошибки на другую и, во-вторых, отдельные ошибки не равны друг другу. Вследствие случайного и независимого характера погрешностей в первичных данных погрешности не суммируются и не взаимопогашаются, а уменьшаются. Это обусловлено тем, что вероятность совместного наступления любого числа взаимно независимых событий (а погрешности, с точки зрения теории вероятностей, как раз и являются независимыми случайными событиями) равна произведению вероятностей этих событий. Если, например, вероятность преувеличения данных из-за неправильного учета равна 0.5, вероятность преувеличение данных по причине заинтересованности лиц, собирающих сведения, - 0.5, а вероятность преувеличения данных вследствие заинтересованности лиц, сообщающих сведения, - 0.5, то вероятность того, что все погрешности суммируются, будет равняться: 0.5 х 0.5 X 0.5=0.125. Проиллюстрируем это общее положение о судьбе отдельных погрешностей при дальнейшей обработке и генерализации статистических сведений исследователем на конкретном историческом примере.

При изучении истории хлебных цен XVIII-XIX вв. обнаружилось, что в результате обработки первичных данных о ценах с целью установления средних губернских цен последние имеют тенденцию искажать действительные цены. Максимальная погрешность средних цен, которая может получиться в результате наложения одной погрешности на другую, равняется сумме 7 видов погрешностей: 1) погрешности уездной цены из-за отсутствия данных о ценах за все месяцы составят 0-5% от цены хлеба; 2) погрешности губернской цены из-за отсутствия данных по всем уездам - 5-8%; 3) погрешности из-за неправильного учета качества хлеба - 5- 10%; 4) погрешности из-за невзвешивания (взвешивание - учет количества данного товара в общей товарной массе) цен - 0- 5%; 5) погрешности из-за неточности натуры (меры или веса) - 3-5%; 6) погрешности из-за не вполне точного перевода оптовых цен в розничные - 1-4%; 7) погрешности из-за не совсем точного перевода номинальных цен в золотые рубли - 1-3% от цены хлеба. Сумма всех погрешностей составляет внушительную величину - 15- 40% от цены хлеба. Но вероятность этой максимальной ошибки ничтожно мала. Если вероятность каждой погрешности в отдельности не превышает 0.5 (по причине ее случайного характера погрешность может быть, а может и не быть), то вероятность наложения погрешностей составит: 0.5 х 0.5 х 0.5 х 0.5 х 0.5 х 0.5 x 0.5=0.008. Следовательно, не более чем в 8 случаях из 1000 при выведении губернской цены возможна предельная ошибка в 15- 40% от истинной цены. Вероятность же ошибки в 40% еще меньше,- потому что вероятность того, что каждая ошибка в отдельности будет максимальной, меньше 0.5. Практически возможность максимальной погрешности, исключена.

Таким образом, средняя общая погрешность цен, полученных на основе генерализации первичных данных, извлеченных из архивов и периодической печати, Как правило, не может превышать наибольшую из погрешностей, равную 10% от действительной цены.

Вследствие неточности первичных данных, которая не имеет тенденции к уменьшению при дальнейшей их обработке, в практике исследовательской работы в области истории приходится признавать хорошими те имеющиеся в распоряжении исследователя статистические данные, которые расходятся с действительными до 20%.

Этот вывод не должен обескураживать историков, потому что и в естественных науках тоже нет абсолютно точных данных об изучаемых явлениях. Так, в современной физике ученые, вооруженные новейшими электронными приборами, производят измерения с точностью от 10 до 50%, и это в тех случаях, когда они могут вообще что-нибудь измерить. В целом измерение в физике с точностью до 10% считается очень хорошим измерением.

Очевидно, историческая статистика более ранних, чем XX в., времен в целом менее точна, поскольку приемы сбора и обработки статистической информации были тогда еще менее совершенны. Однако это положение верно только в самом общем виде, поскольку прямой связи между "возрастом" статистических сведений и их точностью не существует. Многое зависит от конкретных особенностей самих данных, способов их сбора, а также их обработки и хранения. Так, например, писцовые книги XV-XVII вв., по мнению многих исследователей, сообщают данные с такой точностью, которая превосходит точность многих данных официальной статистики XIX в.

Историки нередко являются максималистами в требованиях к достоверности статистических сведений и считают, что при расхождениях в 10-20% следует отказаться от анализа обнаруженных данных. Но в этом случае придется вообще отказаться от изучения массовых статистических сведений о прошлом нашей страны. Исследовательская практика отечественых историков проходит в ином направлении, поскольку большинство из них считают, что массовые статистические данные можно и нужно использовать. Однако, идя этой правильной дорогой, необходимо проявлять большую осторожность i применять все возможные методы, в том числе разработанные математической статистикой, для оценки надежности используемых историком данных.

По материалам книги "Историк и математика" Б.Н. Миронов, З.В. Степанов

предыдущая страница / содержание раздела / следующая страница

"Первая задача истории - воздержаться от лжи, вторая - не утаивать правды, третья - не давать никакого повода заподозрить себя в пристрастии или в предвзятой враждебности" "Не знать истории - значит всегда быть ребенком" Цицерон Марк Туллий