f_3(x) = P_B{\Вз\А = x} (x -- целое).
Таким образом f_1 -- это безусловные распределение случайной величины \Вз\А,
а f_2 и f_3 -- условные распределения этой случайной величины при условии, что
наступило событие A (для f_1 ) или B (для f_2). Нам будет удобно считать, что
рассматривается не одна, а три случайные величины \Вз\А_1 = \Вз\А, \Вз\А_2 и
\Вз\А_3, заданные на различных вероятностных пространствах (\ВW\А, \ВS\А, P),
(\ВW\А, \ВS\А, P_A), (\ВW\А, \ВS\А, P_B) и имеющие распределения f_1, f_2, f_3
соответственно. (Это несколько упрощает терминологию.)
В дальнейшем, для распределений f_1, f_2, f_3 мы будем
употреблять термин ``гистограмма частот''. Распределения f_2 и f_3 и вообще,
условные распределения случайной величины \Вз\А при условии наступления
некоторого локального события (напомним, что локальными мы называем события,
наступления которых можно добиться подбором имен ЛИШЬ В ОДНОЙ главе списка, как,
например, для введенных выше событий A и B), -- мы будем называть
``гистограммами частот разнесений связанных имен''.
Оказывается, что распределение \Вз\А (то есть функция f_1) не
зависит от конкретного вида списка Х и его легко посчитать для широкого класса
списков.
2. 3. МАТЕМАТИЧЕСКАЯ ЛЕММА О РАЗНЕСЕНИИ СВЯЗАННЫХ ИМЕН
ЛЕММА. В том случае, когда во всех главах списка Х содержится
одно и то же количество имен, распределение случайной величины \Вз\А задается
формулой:
З 1
| -
если x=0,
P{\Вз\А = x} =| N
{ (1)
2(N -- x)
| --------Д
если 1\Д<\Аx\Д<\АN.
Ю 2
N Здесь x -- целое. Для остальных целых x соответствующая
вероятность равна нулю.
Таким образом, для всех списков Х с главами постоянного объема
функция f одна и та же -- это линейно убывающая в
1 промежутке от 1 до N-1 функция.
ДОКАЗАТЕЛЬСТВО. Поскольку случайная величина \Вз\А определяется
по номерам глав, содержащих выбранные имена, то можно считать, что выбираются не
сами имена, а главы. Так как объем глав по предположению постоянен, то выбор
любой главы на первом шаге осуществляется с одинаковой вероятностью равной 1/N.
То же верно и для второго шага выбора.
Рассмотрим сначала случай 1 \Д<\А x \Д<\А N. В этом
случае существует ровно N -- x возможностей фиксировать главу с меньшим номером
в паре глав, разнесенных на расстояние x в списке. Вторая глава в этой паре
имеет номер на x больший, чем первая и этим определяется (по первой) однозначно.
Учитывая, что глава с меньшим номером может появиться как на первом, так и на
втором шаге выбора, получаем, что общее количество возможностей выбрать пару
глав, разнесенных на расстояние x( с учетом порядка выбора), равно 2(N -- x).
Вероятность выбрать наперед заданную пару глав с
2 учетом порядка выбора равна 1/N. Следовательно, по формуле
2 полной вероятности, P{\Вз\А = x} = 2(N-x)/N.
Пусть теперь x = 0. Тогда на обоих шагах выбора появляется одна
и та же глава. Всего глав N и каждая из них может быть
2 выбрана дважды подряд с вероятностью 1/N. Следовательно,
P{\Вз\А=0} = 1/N. Лемма доказана.
2. 4. НОРМИРОВКА СПИСКА ИМЕН
Как показывают расчеты для РЕАЛЬНЫХ хронологических списков,
распределение \Вз\А имеет вид (1) даже в том случае, когда объемы глав списка
равны друг другу ЛИШЬ ПРИБЛИЗИТЕЛЬНО. Это означает, что распределение \Вз\А
УСТОЙЧИВО К ВАРИАЦИЯМ в объемах глав. Однако бывают случаи, когда
хронологический список имен разбит на главы разко РАЗЛИЧНЫЕ по объему. В этом
случае список необходимо НОРМИРОВАТЬ, разделив кратности вхождения имен в каждую
главу на объем этой главы (чтобы не рассматривать дробных кратностей можно
предварительно умножить все кратности на произведение объемов всех глав).
После такой нормировки ОБЪЕМЫ ГЛАВ СТАНУТ ОДИНАКОВЫМИ. Поэтому
мы без ограничения общности будем считать, что распределение вероятностей
P{\Вз\А = x} является линейно убывающей функцией на множестве целых чисел от 1
до N (причем при x=N она равно нулю).
2. 5. МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ СПИСКОВ ИМЕН С ПРАВИЛЬНОЙ
ХРОНОЛОГИЕЙ
Исследуем структуру хронологического списка Х, сравнивая
распределение \Вз\А с распределениями \Вз\А и \Вз\А. Естественные
2 3 представления о том, как должен быть устроен правильный
хронологический список имен приводят к следующему интуитивно очевидному
утверждению:
(А) В случае ПРАВИЛЬНОЙ ХРОНОЛОГИИ списка Х, условие и \В=\А и
r s (или и \Д:\А и ), наложенное на пару имен списка, НЕ ДОЛЖНО
ВЛИЯТЬ
r s на глобальные особенности взаимного расположения всего
множества таких же имен в списке Х.
Ясно, что УТВЕРЖДЕНИЕ (А) ТЕСНО СВЯЗАНО С ПРИНЦИПОМ ЗАТУХАНИЯ
ЧАСТОТ. В самом деле, оно означает, что локальные связи имен в списке не должны
приводить к их глобальным связям.
Так будет, если в списке нет глобальных зависимостей, а
локальные зависимости затухают. Но именно этого требует от правильных списков
принцип затухания частот.
Утверждение (А) можно формализовать с помощью введенных выше
случайных величин \Вз\А, \Вз\А и \Вз\А следующим образом.
2 3
(Б) Распределения случайных величин \Вз\А и \Вз\А, построенные
по
2 3 списку с ПРАВИЛЬНОЙ ХРОНОЛОГИЕЙ, в котором отсутствует
зависимость между различными главами, ДОЛЖНЫ СОВПАДАТЬ С РАСПРЕДЕЛЕНИЕМ \Вз\А.
Графики функций f и f, построенные по такому
2 3 списку, разбитому на главы одинакового объема, должны
совпадать на промежутке от 1 до N с графиком ЛИНЕЙНО УБЫВАЮЩЕЙ функции. Если же
между близкими главами списка есть взаимная зависимость, постепенно затухающая
для все более отдаленных пар глав, то графики функций f и f должны совпадать с
графиком линейно
2 3 убывающей функции ЛИШЬ на промежутке от \Ве\А до N, где
\Ве\А -- радиус затухания зависимости в списке.
ЗАМЕЧАНИЕ. Строго говоря, это утверждение верно для БЕСКОНЕЧНЫХ
списков, так как некоторые расхождения между распределениями \Вз\А и \Вз\А,
\Вз\А могут возникать из-за КОНЕЧНОСТИ ДЛИНЫ
2 3 списка Х. Поэтому методика применима лишь к спискам
достаточно большого объема (не менее 150-200 имен).
Ясно, что утверждение (Б) является следствием утверждения (А).
'
В самом деле, значения \Вз\А, большие, чем \Ве\А, определяются
лишь теми парами имен, которые разнесены в списке не менее, чем на \Ве глав.
Составы карт в главах, удаленных друг от друга не менее, чем на \Ве\А номеров,
по предположению, независимы друг от друга. Утверждение (А) означает, что такая
зависимость не может возникнуть и в том случае, если мы ограничимся
рассмотрением лишь локально связанных пар имен (сопряженных, ровесников).
Таким образом, из (А) следует, что это ограничение не влияет (в
правильных списках) на вероятность появления того или иного значения расстояний
между именами в выбранной паре имен, при условии, однако, что это расстояние не
меньше, чем \Ве\А. Другими словами, соответствующие условные распределения \Вз\А
совпадают с безусловными -- что и утверждается в (Б).
ВЫВОД
Итак, для ПРАВИЛЬНЫХ списков имен Х распределения случайных
величин \Вз\А и \Вз\А должны совпадать на отрезке [\Ве\А, N] с ЛИНЕЙНО
2 3 УБЫВАЮЩЕЙ ФУНКЦИЕЙ, равной нулю в точке x=N.
Предположим теперь, что список Х СОДЕРЖИТ ДУБЛИКАТЫ, сдвинутые
друг относительно друга на расстояния \ВД\А,..., \ВД\А глав
1 D (см. рис. 17). Покажем, что в этом случае распределение
случайной величины \Вз\А естественным образом ЗАВИСИТ от событий типа А или В,
введенных выше.
В самом деле, пусть u, u -- имена, сопряженные
r s (встретившиеся) в некоторой главе Х списка Х. Тогда с
некоторой
i вероятностью (большей, чем в отсутствии этого условия) эти же
имена будут встречаться и в главах-дубликатах главы Х. Значит,
i разнесения пар имен, встретившихся в тех главах списка,
которые имеют дубликаты в нем, с ПОВЫШЕННОЙ ЧАСТОТОЙ будут принимать значения 0,
\ВД\А,..., \ВД\А, равные расстояниям между дубликатами в
1 D списке Х.
Если в списке ДОСТАТОЧНО МНОГО дубликатов, то случайные
величины \Вз\А и \Вз\А заметно изменят свое распределение по сравнению
2 3 со случайной величиной \Вз\А. Это произойдет из-за того,
что их значения будут сгущаться около нуля (что соответствует повторной встрече
имен, встретившихся в главе Х, в дубликатах этой главы)
i и \ВД\А,..., \ВД\А (что соответствует ситуации, когда одно из
имен,
1 D встретившихся в главе Х, попало в один дубликат этой главы,
а
i другое -- в другой, отстоящий от первого на расстояние одного
из сдвигов \ВД\А,..., \ВД\А ). См. рис. 20.
1 D
Следовательно, в случае, когда список Х СОДЕРЖИТ ДУБЛИКАТЫ,
разнесенные друг от друга на расстояния \ВД\А,..., \ВД\А, гистограммы
1 D частот связанных имен f (x) и f (x) будут содержать
ВСПЛЕСКИ на
2 3 значениях сдвигов \ВД\А,..., \ВД\А. Это обстоятельство
иллюстрируется
1 D на рис. 21.
На этом рисунке условно изображен список Х, являющийся суммой
(с наложением) трех взаимно дублирующих друг друга списков: Х = Y+Y+Y. Дубликаты
Y=Y=Y сдвинуты друг относительно друга в Х на величины s, s, s соответственно. В
верхней части
1 2 3 рисунка изображено, какая при этом получится гистограмма
частот разнесений связанных имен -- она будет содержать всплески на значениях
сдвигов s, s, s.
1 2 3
2. 6. СТАСТИСТИЧЕСКИЙ АНАЛИЗ ИМЕН БИБЛИИ.
ОТКРЫТИЕ РАНЕЕ НЕИЗВЕСТНЫХ ДУБЛИКАТОВ
ПРИМЕР 10. Гистограмма f частот разнесений связанных имен
2 для списка Б1 имен Библии с нормированными главами. См. рис.
22. Поскольку главы списка ИМЕН БИБЛИИ сильно разнятся по объему, гистограмма
частот f для него СУЩЕСТВЕННО ОТЛИЧАЕТСЯ ОТ ЛИНЕЙНОЙ
1 ФУНКЦИИ (предположения Леммы не выполнены). Поэтому, частота
вхождения имен в главы списка имен Библии были нормированы (о процедуре
нормировки см. выше). ПОСЛЕ НОРМИРОВКИ ГИСТОГРАММА ЧАСТОТ F СОВПАЛА С ЛИНЕЙНОЙ
ФУНКЦИЕЙ, изображенной на рис. 22
1 пунктиром.
График f (x) изображен на рис. 22 в пределах изменения x от
2 \Ве\А=10 до N=218 (глав). Чтобы выделить наиболее массивные
всплески на графике, он был сглажен по текущему отрезку длины 3 (то есть брались
средние значений функции по трем последовательным значениям аргумента).
Вывод, который следует из рис. 22 (в соответствии со сказанным
выше), состоит в следующем.
В ХРОНОЛОГИИ БИБЛИИ, ПО-ВИДИМОМУ, ПРИСУТСТВУЮТ ТРИ МАССИВНЫХ
СДВИГА. Из них два сдвига -- сдвоенные (парные). Это:
а) Парный сдвиг на 29-30 и 36-41 глав (сдвиги измеряются в
главах-поколениях). Сдвиг состоит из двух близких друг к другу сдвигов. Разница
между сдвигами в паре -- приблизительно 10 глав.
б) сдвиг на 92-94 и 100-102 глав. Парный сдвиг с разницей в
паре около 10 глав.
в) сдвиг на 136-139 (глав).
Первый из перечисленных сдвигов отвечает ИЗВЕСТНОЙ
(классической) паре дубликатов в Библии:
1-4 ЦАРСТВ = 1-2 ПАРАЛИПОМЕНОН.
При этом, начало 1 Царств (=98 глава-поколение) и начало 1
Паралипоменон (=138 глава-поколение) разнесены на 40 глав-поколений, а последняя
глава 4 Царств (=137) и последняя глава 2 Паралипоменон (=167) -- на 30
глав-поколений. Таким образом, первый из всплесков в паре отвечает сдвигу между
окончаниями дублирующих друг друга библейских хроник 1-4 Царств и 1-2
Паралипоменон, а второй -- между их началами.
Парный всплеск б) говорит о наличии в списке имен Библии других
дубликатов (РАНЕЕ НЕИЗВЕСТНЫХ), разнесенных приблизительно на 100
глав-поколений. Сравнение с рис. 8-а (график среднего возраста имен в списке
имен Библии) позволяет предположить, что это -- либо сдвиг между дубликатами:
КНИГИ 1-4 ЦАРСТВ И КНИГИ НОВОГО ЗАВЕТА, либо сдвиг между
дубликатами:
КНИГИ ПРОРОКОВ И КНИГА СУДЕЙ, либо смесь этих двух сдвигов.
Отметим, что так же, как и в случае а), этот сдвиг состоит из
двух близких сдвигов, разница между которыми -- около 10 глав-поколений.
По-видимому, это является отражением какого-то особого свойства хроники 1-4
Царств. Мы вернемся к этому обстоятельству в следующем примере.
Всплеск в) говорит о том, что в Библии содержится также
СТАТИСТИЧЕСКИЙ ДУБЛИКАТ КАКОЙ-ТО ЧАСТИ ПЕРВОЙ ЕЕ КНИГИ -- БЫТИЕ. Это следует из
того, что разнесение между концом книги Бытие и последними главами Библии
составляет как раз около 140 глав. Значит, сдвиг на 140 глав может относиться
лишь к главам из книги Бытие (в качестве первого дубликата в паре) -- иначе
второй дубликат пришлось бы искать уже за правым пределом шкалы глав.
На рис. 23 для сравнения приведена также гистограмма f для
2 списка Б2 (повторы в Библии).
В основном, расположение всплесков на рис. 22 и рис. 23
СОВПАДАЕТ.
На рис. 23 сдвиг а) между библейскими хрониками 1-4 Царств и
1-2 Паралипоменон выражен ИСКЛЮЧИТЕЛЬНО ЯРКО и очень хорошо видно, что он --
сдвоенный.
На рис. 23 также ЯРКО ВЫРАЖЕН сдвиг на 70 глав (плохо
выраженный на рис. 22). Этот сдвиг, по-видимому соответствует паре (1-3 Царств /
Пророки) -- ср. рис. 8-а).
ВЫВОД.
Таким образом, наш метод не только обнаружил ранее известные
дубликаты внутри Библии, но и важные НОВЫЕ, РАНЕЕ НЕИЗВЕСТНЫЕ ДУБЛИКАТЫ.
Следовательно, некоторые важные книги Библии говорят, по-видимому, ОБ ОДНИХ И
ТЕХ ЖЕ СОБЫТИЯХ, что раньше замечено не было.
2. 7. ВЫДЕЛЕНИЕ ЛИШЬ ОДНОЙ ГРУППЫ ДУБЛИКАТОВ
ВНУТРИ СЛОЖНОЙ ЛЕТОПИСИ
Выше были введены два локальных условия на пару имен списка Х:
u \В=\Аu (u и u -- РОВЕСНИКИ) и u \Д:\Аu (u и u -- СОПРЯЖЕНЫ).
i j i j i j i j Определим еще несколько условий этого типа и
рассмотрим порожденные этими условиями гистограммы частот разнесений связанных
имен.
Условия будем подбирать так, чтобы по соответствующим
гистограммам частот определялись не все сдвиги между дубликатами в списке Х, а
лишь те, которые присущи какой-то ОДНОЙ СИСТЕМЕ ДУБЛИКАТОВ в нем. Это позволит
анализировать списки со СЛОЖНОЙ структурой дубликатов и БОЛЬШИМ количеством
различных значений сдвигов между ними. е Пусть C -- некоторое множество глав
списка имен Х, состоящее из d глав, не обязательно идущих подряд в списке:
C = {X ,..., X }.
i i
1 d
ОПРЕДЕЛЕНИЕ. Будем говорить, что два имени u и u
i j
с РОВЕСНИКИ ИЗ С (обозначение: u \В=\А u ), если они впервые
i j появились в списке в одной и той же главе, которая
принадлежит множеству глав С.
ОПРЕДЕЛЕНИЕ. Будем говорить, что два имени u и u
i j
с СОПРЯЖЕНЫ В С (обозначение: u \Д:\А u ), если они попали
i j вместе хотя бы в одну главу множества С.
По аналогии с локальными событиями А и В, рассмотренными выше,
введем события:
c
A = {\Вw\А: b \В=\А b },
C 1 2
c
B = {\Вw\А: b \Д:\А b }.
C 1 2
Событие B является ЛОКАЛЬНЫМ, т. к. может быть определено
C составом, скажем первой главы из множества C.
Событие A ЛОКАЛЬНЫМ НЕ ЯВЛЯЕТСЯ, но оно будет локальным,
C если рассматривать не весь список Х, а его часть,
начинающуюся с первой главы множества C (все главы с меньшими номерами
отбросить), и исключить из нее все имена, впервые появившиеся в предшествующих
(отброшенных главах).
Так же, как и выше, по событиям A и B определяются
C C
C C УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ f (x) и f (x) случайной величины
\Вз\А при
2 3 условии, что произошло событие A или B соответственно:
C C
f (x) = P(\Вз\А = x| A },
2 C
f (x) = P{\Вз\А = x| B } (x -- целое).
3 C
Утверждение (Б) сформулированное выше, сохраняет силу и для
C C гистограмм f (x) и f (x) при произвольном выборе
подмножества
2 3 глав C.
Таким образом, для РАВНОМЕРНО ПЛОТНЫХ списков с ПРАВИЛЬНОЙ
C C хронологией графики функций f (x) и f (x) ДОЛЖНЫ СОВПАДАТЬ
(быть
2 3 близки) на промежутке [\Ве\А, N] с графиком ЛИНЕЙНО
УБЫВАЮЩЕЙ функции, равной нулю при x=N.
При этом, однако необходимо потребовать, чтобы количество
связанных в C имен было ДОСТАТОЧНО ВЕЛИКО. Иначе возникнут расхождения графиков,
обусловленные малостью выборки.
Рассмотрим теперь случай, когда список Х содержит дубликаты,
причем среди дубликатов есть некоторые главы из множества C. Тогда имена,
связанные в этих главах, будут с повышенной вероятностью повторяться в их
дубликатах.
C
Это приведет к появлению ВСПЛЕСКОВ НА ГИСТОГРАММАХ f (x) и
2
C f (x) на местах разнесений, равных сдвигам между дубликатами
3 глав множества C. Сдвиги между дубликатами, которые не
``зацеплены'' с C, на этих гистограммах отражены не будут.
C C
Таким образом, гистограммы f (x) и f (x) позволяют
2 3 определять сдвиги, присущие подсистеме дубликатов в списке
Х -- а именно, множеству дубликатов, ``зацепленных'' с C (то есть содержащему, в
числе прочих, и какие-то главы из C).
C C
ОПРЕДЕЛЕНИЕ. Гистограммы типа f (x) и f (x) мы будем
2 3 называть ЧАСТНЫМИ ГИСТОГРАММАМИ ЧАСТОТ РАЗНЕСЕНИЙ СВЯЗАННЫХ
ИМЕН, в отличие от ОБЩИХ гистограмм типа f (x) или f (x).
2 3
Сравнение частных гистограмм частот разнесений связанных имен
при различном выборе множества глав C позволяет выяснить - содержит ли список Х
лишь ОДНУ СЕРИЮ дубликатов, или же этих серий в нем НЕСКОЛЬКО. Это сравнение
позволяет также выяснять, В КАКИХ ИМЕННО частях списка Х наиболее резко
проявляются те или иные сдвиги, найденные по общей гистограмме.
2. 8. ПРОДОЛЖЕНИЕ СТАТИСТИЧЕСКОГО АНАЛИЗА ИМЕН БИБЛИИ
ПРИМЕР 11. (Продолжение ПРИМЕРА 10). Проведем более подробное
исследование сдвигов между статистическими дубликатами в списке Б1 (собственные
ИМЕНА В БИБЛИИ). Напомним, что список имен Библии перед применением данной
методики был приведен к главам-поколениям одинакового объема путем нормировки
частот употребления имен в главах.
Как мы видели (рис. 22, Пример 10), в списке имен Библии
присутствуют ТРИ МАССИВНЫХ СДВИГА, причем два из них -- парные (сдвоенные). В
обоих случаях парных сдвигов, расстояние между сдвигами в паре одно и то же --
приблизительно 10 глав-поколений.