Saint Petersburg, Russian Federation
The article is devoted to the applications of the entropy category in the natural sciences, mainly in mineralogy and crystallography to describe the complexity of mineral parageneses and crystal structures. It is shown that thermodynamic, informational and statistical entropy, defined independently in different disciplines, do not copy each other. They are not recalculated into each other and agree at the level of general principles. Statistical entropy as a measure of the complexity of systems characterized by probability distributions of parameters is always their convolution with loss of information. As a scale of complexity, it is unevenly curved in different areas of the probability field. The article is dedicated to the 85th anniversary of the birth of N. P. Yushkin.
thermodynamic entropy, informational entropy, statistical entropy, disorder, complexity, additivity, semi-additivity, antisemi-additivity
В 2021 году исполнилось 85 лет со дня рождения Н. П. Юшкина. В связи с этой датой представляется уместным обсудить на страницах основанного им научного журнала идеи смежных наук, адаптированные им к применению в минералогии. В данном случае нас интересует категория энтропии как важная составная часть генетико-информационного анализа минеральных систем [9, с. 125–135, 168–185]. Сегодня она столь же популярна в биологии благодаря работе [3], и даже в гуманитарных науках. После онтогенеза / онтогении (в части минералогии мы имеем в виду учение Д. П. Григорьева) это вторая концепция, совместно используемая минералогами и биологами. Если первая относится к минеральным и биологическим индивидам, то вторая — к их сообществам, т. е. парагенезисам и биоценозам.
История определения и математические свойства энтропии богаты деталями, которые рассмотрены далее. Как представляется, Н. П. Юшкин — автор работ по истории минералогии, счел бы это полезным. После исторического введения и анализа определений энтропия обсуждается нами применительно к выпуклым полиэдрам. Это выглядит необычно, но лишь на первый взгляд, т. к. кристаллы — тоже выпуклые полиэдры. Впрочем, в самом общем смысле выпуклые полиэдры — это планарные трехсвязные графы, вершины, ребра и грани которых могут иметь разные содержательные интерпретации. А где разнообразие — там и энтропия, если только оно охарактеризовано вероятностями. Статья содержит математические выкладки, самые сложные вынесены в приложения. Наш опыт преподавания показал, что они вполне доступны заинтересованным студентам-геологам.
Из истории вопроса
Понятие энтропии предложено Р. Клаузиусом в термодинамике в 1865 г. как приращение теплоты в системе при данной абсолютной температуре, т. е. как макроскопическая характеристика «качества» полученной/отданной теплоты. Она оказалась камнем преткновения для физиков, т. к. её не удавалось выразить через микроскопические параметры в статистической механике, т. е. через механизм столкновения молекул. Качественный скачок в понимании энтропии совершил Л. Больцман в 1872 г., предложив её интерпретацию через «термодинамическую вероятность» — число микроскопических состояний системы, отвечающих одному макроскопическому состоянию. Термодинамически закрытая система должна самопроизвольно эволюционировать от менее вероятного состояния к более вероятному с ростом энтропии. Эти два принципа согласованы им a priori. Именно из этих условий он вывел формулу S = k ln Wт, где S — энтропия, k — постоянная Больцмана, Wт — термодинамическая вероятность. История вопроса доступно изложена в книге П. Шамбадаля [6]. К. Шеннон [7] и Э. Альфен [10] независимо друг от друга нашли ту же формулу в рамках математической теории информации и популяционной статистики соответственно. Как сообщает А. А. Юшкевич [8], Э. Альфен получил этот результат в 1939–1940 гг., т. е. раньше К. Шеннона.
Категория энтропии быстро распространилась в научном мире и ныне представляет собой междисциплинарную область знания. С одной стороны, это дает возможность широкой коммуникации. С другой стороны, размывает исходные понятия и подчас подменяет строгие определения метафорами. Основные результаты классического периода применения энтропии изложены в трудах Н. Винера, А. Н. Колмогорова, Дж. Фон Неймана, У. Уивера, Р. Фишера, Р. Хартли и др. (рис. 1). Из названных учёных в биологии работал Р. Фишер, английский статистик, биолог-эволюционист, автор известного критерия сравнения выборок и основатель журнала Biometrica.
Три аксиоматики — одна энтропия?
Какие соображения трижды в истории науки независимо привели к одной формуле? П. Шамбадаль приводит три доказательства формулы Больцмана [6, § 43, с. 153–156; § 45, с. 160–163, § 46, с. 163–166]. Первое наиболее простое, «однако простота эта связана с тем, что существование связи между энтропией и вероятностью принимается a priori, потому что эти две величины всегда изменяются в одном направлении. С одной стороны, согласно принципу Клаузиуса, всякая система эволюционирует так, что энтропия её возрастает. А с другой — эта эволюция естественно направлена всегда к более вероятным состояниям. Иначе говоря, вероятность последовательных состояний системы растёт вместе с энтропией этих состояний. Ситуацию можно выразить математически, полагая S = f (W), где W — вероятность, а f — некоторая возрастающая функция. Вид этой функции может быть без труда установлен исходя из того факта, что энтропия системы равна сумме энтропий составляющих систему частей, а вероятность некоторого состояния системы равна произведению вероятностей состояний составляющих систему частей (если они независимы — Ю. В.). Если, например, число компонент системы равно двум, то, с одной стороны, S = S1 + S2 , а с другой — W = W1 W2 , где индексы 1 и 2 соответствуют двум компонентам системы. Отсюда следует:
f (W1 W2) = f (W1) + f (W2) .
Чтобы решить это функциональное уравнение, достаточно продифференцировать его последовательно по W1 и W2. Первое дифференцирование ведёт к уравнению:
W2 f '(W1 W2) = f '(W1),
а второе — к уравнению:
f '(W1 W2) + W1 W2 f ''(W1 W2) = 0,
или
f '(W) + W f ''(W) = 0.
Общее решение этого дифференциального уравнения имеет вид:
f (W) = a ln W + C,
где а и С — постоянные интегрирования. Отвлекаясь от аддитивной постоянной С и учитывая соотношение f (W) = S, получаем формулу Больцмана S = a ln W. Таким образом, энтропия системы в некотором состоянии пропорциональна логарифму вероятности этого состояния» [6, с. 154–155].
Иначе подходит к выводу формулы К. Шеннон. «Предположим, что имеется некоторое множество возможных событий, вероятности осуществления которых суть p1, p2 … pn. Эти вероятности известны, но это всё, что нам известно относительно того, какое событие произойдёт. Можно ли найти меру того, насколько велик „выбор” из такого набора событий или сколь неопределёнен для нас его исход?
Если имеется такая мера, скажем H(p1, p2…pn), то разумно потребовать, чтобы она обладала следующими свойствами: 1. Н должна быть непрерывной относительно pi. 2. Если все pi равны, pi = 1/n, то Н должна быть монотонно возрастающей функцией от n. В случае равновероятных событий имеется больше возможностей выбора или неопределённости, чем в случае, когда имеются разновероятные события. 3. Если бы выбор распадался на два последовательных выбора, то первоначальная Н должна была бы быть взвешенной суммой индивидуальных значений Н. <…> В приложении 2 (7, с. 323–324 — Ю. В.) устанавливается следующее.
Теорема 2. Существует единственная функция Н, удовлетворяющая трём перечисленным выше свойствам. При этом Н имеет вид:
,
где К — некоторая положительная константа» [7, с. 259–260].
О подходе Э. Альфена читаем у А. А. Юшкевича: «Отправным пунктом автора является следующая задача статистики. По нескольким независимым наблюдениям случайного опыта с n возможными исходами нужно проверить гипотезу о том, что распределение вероятностей этих исходов с точностью до их нумерации совпадает с данным распределением {p1…pn}. При решении этой задачи имеет смысл пользоваться такими характеристиками распределения, которые инвариантны относительно всех перестановок чисел p1…pn. Эти характеристики Э. Альфен назвал внутренними (intrinsèque). Сперва вводятся внутренние моменты:
y(k) = p1k+1 + … pnk+1 = M pk — (1)
математические ожидания целых степеней случайной вероятности р наблюдённого исхода. Это аналоги обычных моментов
mk = x1k p1 + … + xnk pn = M xk
случайной величины х, принимающей значения x1…xn c вероятностями p1…pn. Выражение (1) сохраняет смысл при замене натурального числа k любым действительным t. Получающаяся аналитическая функция
y(t) = M pt (2)
рассматривается как внутренний аналог обычной характеристической функции
f(t) = M eitx. (3)
Внутренняя характеристическая функция <…> определяет числа p1…pn с точностью до перестановки. <…>
Аналитическую функцию естественно разложить в ряд Маклорена, т. е. выразить через значения её производных любого порядка в нуле. В случае обычной характеристической функции (3) эти производные возвращают нас к обычным моментам:
f(k)(0) = ik M xk .
В случае внутренней характеристической функции (2) получаем внутренние логарифмические моменты:
Гk = y(k)(0) = p1 lnk p1 + … + pn lnk pn = M lnk p .
Нулевой момент Го всегда равен 1. Первым нетривиальным моментом является Г1 = М ln p. Поскольку p ≤ 1, то Г1 ≤ 0, и вместо Г1 предлагается в качестве первой, главной внутренней характеристики распределения рассматривать положительную величину:
Н = – Г1 = – р1 ln p1 – … – pn ln pn = – M ln p. (4)
Эту характеристику распределения {p1…pn} Э. Альфен называет его неопределённостью. Та же самая величина Н под названием энтропии вводится и К. Шенноном в качестве меры неопределённости распределения {p1…pn}. <…>
Э. Альфен устанавливает следующие свойства неопределённости Н, оправдывающие её название. 1. Н ≥ 0, п????? ричём Н = 0 тогда и только тогда, когда одна из вероятностей pi равна 1, а остальные — 0 (так что исход испытания можно точно предугадать). 2. При фиксированном числе исходов n неопределённость Н максимальна, когда все исходы равновероятны; для распределений с равновероятными исходами Н возрастает с ростом n. <…> Первые два свойства сопровождают определение энтропии и у К. Шеннона. Второе свойство входит в состав аксиоматического определения меры неопределённости, из которого К. Шеннон получает формулу (4)» [8].
Э. Альфен выводит и третье свойство, которого у К. Шеннона нет. Оно аналогично неравенству П. Л. Чебышёва, характеризующему вероятности отклонений случайной величины от математического ожидания. Это подчёркивает самостоятельность работы Э. Альфена. Три независимых подхода к выводу формулы энтропии приведены выше столь подробно для того, чтобы минералог или биолог прочел их в одном месте и принял ответственное решение, какую же аксиоматику он приемлет.
Свойства статистической энтропии
Пользователь статистической энтропии H = –S pi log pi , где i = 1, … n, а основание логарифма определяет единицу измерения Н, обычно не углубляется в аксиоматику, ограничиваясь её основными свойствами. Ради полноты изложения они рассмотрены далее. Но в первую очередь заметим, что энтропия Н как функция нескольких аргументов с очевидным ограничением p1 + … + pn = 1 является их свёрткой. Важно понимать, можно ли «развернуть» ее обратно.
Если все вероятности 0 < pi < 1, то все слагаемые в S положительны и H(p1…pn) > 0. Пусть одна из вероятностей pi = 0. Исследуем lim [pi logapi] = lim [logapi / (1/pi)] при pi ® 0 по правилу Лопиталя. Перейдем к пределу отношения производных: lim pi / ln a = 0. Следовательно, исходный предел существует и тоже равен 0. Если одна из вероятностей pi = 1, а остальные 0, то 1 × log 1 = 0, прочие слагаемые равны 0 по доказанному выше. Таким образом, здесь достигается Hmin = 0. В этом случае свёртка Н разворачивается в исходное распределение вероятностей, но лишь с точностью до их перестановок.
Чтобы найти Hmax, применим метод Лагранжа, дифференцируя по всем аргументам функцию H*(p1…pn) = H(p1…pn) + µ(S pi — 1). Получим систему уравнений:
∂ H* / ∂ pi = — logapi — 1/ln a + µ = 0, i = 1…n,
откуда найдем критические значения аргументов: pi = aµ / e и далее pi = 1/n. С помощью критерия Сильвестра убедимся, что это точка максимума: H(p1…pn)max = logan. Лишь в этом случае свёртка Н однозначно разворачивается в исходное распределение равновеликих вероятностей.
График функции Н для двух (арки с Hmax = lg 2) и трёх (поверхность с Hmax = lg 3) вероятностей показан над барицентрической диаграммой p1 + p2 + p3 = 1 на рис. 2. Видно, что небольшие изменения вероятностей pi в углах диаграммы вызывают быстрые изменения H (ножки купола крутые). Те же изменения pi в центре диаграммы мало изменяют Н (здесь поверхность пологая). Энтропия Н как шкала деформирована в разных областях поля вероятностей весьма по-разному.
Разные энтропии — разные свойства
Выше показано, что термодинамическая (по Клаузиусу), информационная (по Шеннону) и статистическая (по Альфену) энтропии определены независимо в разных дисциплинах и не копируют друг друга в аксиомах. Тем не менее бытует мнение, что они суть одно и то же. Нам представляется, что между ними есть смысловые зазоры и они согласованы лишь в первом приближении. То, что нюансы понимания и употребления энтропии в каждом случае важны, покажем на фундаментальном свойстве аддитивности.
Для термодинамической энтропии S она следует из определения: dS = dQ / T. При фиксированной температуре Т приращение теплоты для двух частей системы аддитивно: dQ = dQ1 + dQ2, что влечет dS =dS1 + dS2.
Рассмотрим шенноновскую энтропию совместной случайной величины (Х, Y), где Х принимает значения х1…xn с вероятностями p1…pn, а Y — значения y1…ym с вероятностями q1…qm. Величина (Х, Y) распределена с вероятностями ri,j = Pr (X=xi, Y=yj). Для энтропий Н(Х, Y), Н(Х) и Н(Y) имеет место неравенство Н(Х, Y) ≤ Н(Х) + Н(Y) [5, с. 41–43] — это определение полуаддитивности для Н(Х, Y). Оно сводится к равенству и аддитивности для Н(Х, Y), когда случайные величины Х и Y независимы (Приложение 1).
Наконец, рассмотрим статистические энтропии для двух разных структурных позиций в двух кубических ячейках (А и В) до и после объединения (рис. 3). Исходного разнообразия позиций в них нет, поэтому Н(А) = Н(В) = 0. После слияния ячеек разнообразие появилось, при этом на каждую из двух позиций в ячейке приходится по 1 атому, поэтому H(A+B) = log 2 > Н(А) + Н(В). (Основание логарифма здесь неважно, легко создать и другие примеры, разложив любую ячейку с различными позициями в композицию ячеек с эквивалентными позициями.) В предложенной трактовке объединения ячеек полученная энтропия «антиполуаддитивна», ибо меняет знак полуаддитивности на противоположный. Парадоксальность результата связана со специфичным способом приведения числа типов позиций (именно типов, а не их локаций) к элементарной ячейке. Но все эти нюансы применения важно иметь в виду, когда мы говорим об энтропии как междисциплинарной категории.
Энтропия и симметрия полиэдра
Одна и та же система может быть охарактеризована с разных сторон разными же статистическими распределениями, далее свёрнутыми в статистические энтропии. Применительно к природным системам целесообразно разделение дескрипторов на те, что описывают их элементный состав, и те, что описывают внутрисистемные отношения. В системе из n элементов число различных k-арных (k = 2…n) отношений равно Сn2 + … + Cnn = 2n — Cn1 — Cn0 = 2n — n — 1 и быстро растёт с n. И если характеризовать статистики отношений энтропиями, то их следует связать между собой, иначе описание выглядит эклектичным.
Покажем пример такого подхода. Применим статистическую энтропию для описания выпуклых 4-…9-акров (т. е. 4-…9-вершинных полиэдров) с точки зрения распределения вершин по симметрийным позициям (табл. 1). Дает ли такой подход преимущества по сравнению с кристаллографическим описанием? Из свойств статистической энтропии следует, что Hmax достигается для n-акров, у которых все вершины различны, т. е. для комбинаторно асимметричных n-акров, n ≥ 7. В то же время Hmin достигается для n-акров, у которых все вершины находятся в равной позиции. Это правильные (платоновы) и полуправильные (архимедовы) полиэдры, включая бесконечные серии призм и антипризм. У них чётное число вершин n ≥ 4, а именно: 4, 6, 8, 12, 20 — у платоновых тел; 12 (2 раза), 24 (4 раза), 30, 48, 60 (4 раза), 120 — у архимедовых тел; любое чётное n ≥ 6 для призм и антипризм (куб и октаэдр топологически эквивалентны тетрагональной призме и тригональной антипризме соответственно). Вопрос состоит в том, как Н зависит от п. г. а. и т. г. с. n-акров с ростом n.
Рёберные графы выпуклых 4-…9-акров (всего 2907) даны в каталогах [1, 2]. Для каждого автором найдены числа ni вершин в различных позициях, рассчитаны вероятности (частоты) pi = ni / n и энтропия H, которую удобно понимать как топологическую (комбинаторную, конфигурационную) энтропию полиэдра. Установлена общая тенденция: чем выше п. г. а., тем ниже H (рис. 4). При этом есть много исключений: оба 5-акра противоречат тренду; некоторые n-акры с одним п. г. а. и даже т. г. с. имеют различную H, тогда как некоторые n-акры с той же H имеют различные т. г. с. и даже п. г. а.; более того, некоторые n-акры с большим п. г. а. имеют и большую H.
Ответ на вопрос, поставленный в начале раздела, сформулируем так. В дополнение к традиционному и более точному кристаллографическому описанию энтропия дает общий тренд: чем выше п. г. а. полиэдра, тем ниже энтропия Н распределения вершин по симметрийным позициям. Значения Н существенно разбросаны относительно тренда, причем не только для малых п. г. а.
Энтропия и валентности вершин
Энтропия Н характеризует сложность системы, в том числе n-акра. В кристаллографии она фиксируется через т. г. с. Комбинаторно-асимметричные n-акры максимально сложны, тогда как симметричные n-акры с Н = 0 наиболее просты. Но есть n-акры с той же т. г. с. и рёбрами, по-разному сходящимися в вершинах. Они обладают разной сложностью, не фиксируемой Н. Чтобы различить их, введем в рассмотрение энтропию Hv, учитывающую валентности вершин. Есть 7 комбинаторно-асимметричных 7-акров, не различимых по Hmax = lg 7 (табл. 1). Но почти все они уникальны по валентностям вершин: 511, 43, 412, 331 (два 7-акра), 3211, 232. (Здесь и далее числа vi 3- … n-валентных вершин даны в виде лексикографически упорядоченных символов.) Энтропия Hv различна для 6 классов:
Hv = – Si pi log pi, i = 1, …, n; pi = vi / n.
Комбинаторно-асимметричные 8-акры (всего 140) делятся на 31 класс: 62 (три 8-акра), 6101 (2), 521 (14), 5111 (6), 503 (3), 44 (6), 4301 (7), 422 (16), 42101 (2), 4202 (2), 4121 (8), 404, 4022, 341 (16), 3311 (15), 33011 (2), 323 (8), 32201, 3212 (3), 3131 (5), 31211, 2501, 242 (6), 24101, 2402, 2321 (4), 23111, 224, 161, 1511, 143. (Числа 3- … 7-валентных вершин даны в виде лексикографически упорядоченных символов.) Из них 12 классов состоят из уникальных 8-акров. Другие классы содержат по несколько 8-акров с той же Hv, т. к. 0 и перестановки чисел vi в символах не меняют энтропию: 6101 и 161; 521 и 2501; 5111 и 1511; 44 и 404; 4301, 341 и 143; 422, 4202, 4022, 242, 2402 и 224; 42101, 4121 и 24101; 3311, 33011 и 3131; 32201, 3212 и 2321; 31211 и 23111. Таким образом, комбинаторно-асимметричные 8-акры делятся на 12 классов по Hv (Обсуждение 9-акров опущено ради краткости.)
Неожиданным свойством Hv является то, что она достигает минимума 0, но никогда –максимума lg n. Иначе говоря, есть n-акры со всеми вершинами в одинаковых позициях (платоновы и архимедовы тела с сериями призм и антипризм), но нет n-акров со всеми вершинами в разных позициях. Последнее следует из несложной теоремы: любой выпуклый n-акр имеет не менее 4, или 3 и 2, или 3 пар вершин той же валентности (Приложение 2. Эту теорему полезно рассмотреть, т. к. она неявно присутствует при рассмотрении простых форм кубической сингонии в университетском курсе кристаллографии.)
Соотношение энтропий H и Hv
Соотнесем энтропии H и Hv. Связь между ними ожидаема, т. к. положения вершин полиэдра относительно элементов симметрии и их валентности — две стороны структуры его реберного графа. Как показано выше, у комбинаторно-асимметричных полиэдров энтропия Н максимальна, что невозможно для энтропии Hv. Значения Hv для выпуклых 4-…9-акров рассчитаны автором (рис. 5). Поля a, b, c и d занимают на графиках более низкое положение, чем на рис. 4. Оказывается, это верно не только для комбинаторно-асимметричных полиэдров или в целом для полей фигуративных точек, но для каждого полиэдра. Имеет место теорема: H ≥ HV для любого выпуклого n-акра (Приложение 3).
Выводы
Формально энтропия Н есть свёртка распределения вероятностей. Как правило, она обратно не «разворачивается». Энтропия Н вряд ли удобна в качестве шкалы разнообразия, т. к. в разной степени деформирована в разных частях поля вероятностей. Малые изменения вероятностей pi в его углах приводят к быстрым изменениям Н, те же изменения pi в центре поля вероятностей мало влияют на Н.
В примере с выпуклыми n-акрами энтропия Н связана с п. г. а. и т. г. с. лишь в первом приближении, фиксируя n-акрон на шкале от Hmin = 0 до Hmax = lg n. Имеет место общий тренд: чем больше п. г. а., тем меньше Н, но с существенной флуктуацией Н. Hmin = 0 достигается для правильных и полуправильных n-акров (все случаи перечислены), для чётных n ≥ 4, а также бесконечных серий призм и антипризм. Hmax = lg n достигается для комбинаторно-асимметричных n-акров, n ≥ 7.
Энтропия Н характеризует не всю сложность системы, т. к. последняя должна определяться не только и не столько через ее элементный состав, сколько через её внутрисистемные отношения. Применительно к выпуклым n-акрам характеристика сложности должна различать n-акры с одной т. г. с., но различным числом рёбер, в первую очередь довлеющее многообразие комбинаторно-асимметричных n-акров, неразличимых по энтропии Н = Hmax.
Для этого предложена энтропия Нv, учитывающая валентности вершин. Она достигает минимума Hmin = 0, но никогда Hmax = lg n, т. к. невозможен выпуклый n-акр со всеми вершинами разной валентности. При этом для любого полиэдра имеет место H ≥ HV. Связь не очевидна, но вполне закономерна, ведь обе энтропии характеризуют распределение вершин одного полиэдра в разных аспектах — по симметрийным позициям и валентностям. Возможно, дальнейшие исследования установят между ними функциональную связь.
Аддитивность термодинамической энтропии, полуаддитивность информационной энтропии с коррелированными сигналами и «антиполуаддитивность» статистической энтропии в предложенном выше примере показывают, сколь важно всякий раз глубоко понимать суть изучаемого объекта. Следует проводить резкую границу между термодинамической энтропией как функцией состояния закрытой системы, указывающей путь ее эволюции/деградации, и статистической энтропией как сверткой вероятностного распределения параметра, ничего более не выражающей. Нет обязательного перехода из одной в другую. Связь термодинамической и информационной энтропии сложнее. Принцип Р. Ландауэра устанавливает связь между ними для предельно малого действующего устройства — потеря бита информации сопровождается выделением фиксированного эквивалента тепла.
В ряде статей [11 и др.] автором обосновано и подтверждено наблюдениями, что в природе образуются лишь простые (с 3-валентными вершинами) кристаллические полиэдры. Вершины с более высокими валентностями растягиваются в ребра, реагируя на анизотропию среды: диффузионные потоки, термические и гравитационные градиенты. Физическое обоснование этому дано в монографии [4] из фундаментальных представлений о росте кристаллов. Там же обосновано, что плоскогранность и выпуклость есть модельное приближение к истинной форме природного кристалла. Соглашаясь с этим, укажем лишь, что использованный выше подход рассматривает полиэдры в комбинаторном приближении, охватывая тем самым и реальные неплоскогранные формы. Все теоремы и соотношения остаются в силе.
Автор благодарит рецензентов за квалифицированные рекомендации, послужившие более точному и доступному изложению материала, а также студентов геолого-разведочного факультета Санкт-Петербургского горного университета, вполне усвоивших основные идеи статьи.
Приложение 1
Теорема: Пусть (Х, Y) — совместная случайная величина, где Х принимает значения х1…xn с вероятностями p1…pn; а Y — значения y1…ym с вероятностями q1…qm. Величина (Х, Y) распределена с вероятностями ri,j = Pr (X=xi, Y=yj). Тогда имеет место неравенство Н(Х, Y) ≤ Н(Х) + Н(Y).
Доказательство: По определению,
Н(Х,Y) = Si Sj rij ln (1/rij),
Н(Х) = Si pi ln (1/pi) = Si (Sj rij) ln(1/pi),
Н(Y) = Sj qj ln(1/qj) = Sj (Si rij) ln(1/qj).
Рассмотрим разность:
Н(Х,Y) — Н(Х) — Н(Y) = Si Sj rij ln (piqj / rij) ≤ …
Используем лемму: для любого x > 0 выполнено ln x ≤ x — 1 — и продолжим цепочку неравенств:
… ≤ Si Sj rij (piqj / rij — 1) = Si Sj (piqj — rij) =
= Si pi × Sj qj — Si Sj rij = 1 × 1 — 1 = 0,
откуда следует искомое.
Приложение 2
Теорема: любой выпуклый n-акр имеет не менее 4, или 3 и 2, или 3 пар вершин той же валентности.
Доказательство. Допустим, что есть выпуклый полиэдр с различными (т. е. оконтуренными разным числом рёбер) гранями. Построим его проекцию на грань с наибольшим числом рёбер (k-lateral facet, рис. 6). После того как (k-1)-, (k-2)- … 4- и 3-угольные грани в произвольном порядке присоединены к базовой k-угольной, свободными остаются 3 ребра. К ним будут присоединены 3 одинаковые, или 2 и 1, или 3 разные грани. Т. к. грани всех видов (3- … k-угольные) уже использованы, на полиэдре окажутся 4, или 3 и 2, или 3 пары одинаковых граней. Дуальным переходом получаем искомое. Полиэдры, для которых достигается точная оценка, показаны на рис. 7.
Приложение 3
Теорема: H ≥ HV для любого выпуклого n-акра.
Доказательство. Утверждение проверено для всех выпуклых 4- … 9-акров (табл. 2). H > HV для n-акров с низкой симметрией, H = HV для n-акров с высокой симметрией, область перехода — n-акры с п. г. а. от 2 до 12. Рассмотрим n-акр с вершинами различных симметрийных позиций. Эквивалентные по симметрии вершины имеют те же валентности. Ключевой вопрос: различны ли валентности у неэквивалентных по симметрии вершин? H = HV — если да, H > HV — если нет. В последнем случае уменьшение разнообразия валентностей по сравнению с разнообразием их симметрийных позиций приводит к уменьшению HV по сравнению с H в соответствии с общими свойствами статистической энтропии. Рассмотрим последовательности чисел вершин с различными валентностями для выпуклых 5-…9-акров (HV в скобках), упорядоченные согласно алгоритму: … p…q … (H1) ® … p–1 … q+1 … (H2), где 1 ≤ p ≤ q.
5-акры. 23 (0.292) ® 14 (0.217). Здесь 23 — символ тригональной дипирамиды: 2 вершины 3-валентные, 3 вершины 4-валентные, 14 — символ тетрагональной пирамиды: 1 вершина 4-валентная, 4 вершины 3-валентные; других 5-акров нет.
6-акры. Здесь и далее 0 и перестановки индексов опущены, т. к. они не меняют HV. 222 (0.477) ® 123 (0.439) ® 24 (0.276) ® 15 (0.196) ® 6 (0).
7-акры. Главный тренд: 1222 (0.587) ® 1123 (0.555) ® 223 (0.469) ® 133 (0.436) ® 124 (0.415) ® 34 (0.297) ® 25 (0.260) ® 16 (0.178); ветвь: 124 (0.415) ® 115 (0.346). (Обсуждение 8- и 9-акров опущено ради краткости.) Выше использован алгоритм, позволяющий включить в главный тренд наибольшее число полиэдров. Он всегда даёт H1 > H2. Кропотливый анализ подсказал идею доказательства теоремы. Для двух последовательностей чисел вершин с различными валентностями для любых 1 ≤ p ≤ q и n нужно доказать неравенство:
– (p/n) ln (p/n) – (q/n) ln (q/n) > – [(p–1)/n]
ln [(p–1)/n] – [(q+1)/n] ln [(q+1)/n].
Если p ® 1, то [(p-1)/n] ln [(p-1)/n] ® 0 и для p = 1 получим очевидное неравенство (q+1) (1+1/q)q > 1. Для 2 ≤ p ≤ q следует доказать:
pp / (p–1)p–1 < (q+1)q+1 / qq = f(q) .
Рассмотрим f(q) как непрерывную функцию, найдём логарифмическую производную:
df/dq = ln(1+1/q) × (q+1)q+1 / qq > 0 .
Итак, f(q) растёт с аргументом q = p, p+1, p+2, etc. Покажем, что неравенство верно даже для минимального аргумента q = p, т. е.:
pp / (p–1)p–1 < (p+1)p+1 / pp
или 1 < (p+1)p+1 (p–1)p–1 / p2p = f(p) .
Рассмотрим f(p) как непрерывную функцию, найдём логарифмическую производную:
df/dp = ln(1–1/p2) × (p+1)p+1 (p-1)p–1 / p2p < 0 .
Итак, f(p) уменьшается с ростом аргумента: f(2) = 1.6875, f(3) = 1.404…, f(4) = 1.287…, f(5) = 1.223…, f(6) = 1.182… Но если p ® ∞, то
lim f(p) = lim (p+1)p+1 (p–1)p–1 / p2p = lim (1+1/p)p (1–1/p)p [1+2/(p–1)] = e × e–1 × 1 = 1.
Итак, f(p) ® 1 сверху, т. е. f(p) > 1 для любого p, т. е. H1 > H2 для любых 1 ≤ p ≤ q и n.
1. Voytehovskiy Yu. L. Algoritm E. S. Fedorova generirovaniya kombinatornogo mnogoobraziya vypuklyh poliedrov: poslednie rezul'taty i prilozheniya // Zhurnal strukt. himii. 2014. T. 55. Pril. 1. S. 111-125.
2. Voytehovskiy Yu. L., Stepenschikov D. G. Kombinatornaya kristallomorfologiya. Kn. 4. Vypuklye poliedry. T. 1. 4-…12-edry. Apatity: KNC RAN, 2008. 833 s.
3. Megarran E. Ekologicheskoe raznoobrazie i ego izmerenie. M.: Mir, 1992. 184 s.
4. Rakin V. I. Svobodnaya forma kristallov. Ekaterinburg: UrO RAN, 2021. 328 s.
5. Fursov V. A. Lekcii po teorii informacii. Samara: SGAU, 2006. 148 s.
6. Shambadal' P. Razvitie i prilozheniya ponyatiya entropii. M.: Nauka, 1967. 280 s.
7. Shennon K. Raboty po teorii informacii i kibernetike. M.: Izd. inostrannoy literatury, 1963. 832 s.
8. Yushkevich A. A. K istorii ponyatiy entropii i informacii: ob odnom predvoshischenii idey K. Shennona // Istoriko-matematicheskie issledovaniya. Vyp. 19. M.: Nauka, 1974. S. 167-176.
9. Yushkin N. P. Teoriya i metody mineralogii: izbrannye problemy. L.: Nauka, 1977. 291 s.
10. Halphen E. L’analyse intrinsèque des distributions de probabilité // Publ. Inst. Stat. Univ. Paris. 1957. V. 6. N 2. P. 77-159.
11. Voytekhovsky Y.L. On the real crystal octahedra // Acta Cryst. 2002. A 58. P. 622-623.