Archive for the ‘математика’ Category

Предсказание последовательности с помощью экспертов

Февраль 7, 2012

Представьте себе конечную последовательность нулей и единиц, которая появляется бит за битом. Перед появлением очередного бита мы хотим его предсказать. Для этого у нас есть {n} экспертов: каждый из них перед появлением бита говорит, чему по его мнению он будет равен. Пусть {R_i} — число ошибок {i}-го эксперта. Если бы мы заранее знали, какой эксперт самый хороший, то мы бы могли обойтись {\min(R_1, R_2, \ldots, R_n)} ошибками. Однако, даже без такого априорного знания мы можем обойтись

\displaystyle   \frac{2 \ln n}{\varepsilon} + 2 (1 + \varepsilon) \cdot \min(R_1, R_2, \ldots, R_n) \ \ \ \ \ (1)

ошибками, где {\varepsilon} — сколько угодно маленькая положительная константа.

Алгоритм очень простой. Давайте приписывать экспертам веса {w_1, w_2, \ldots, w_n}. Изначально положим все {w_i} единицам. Биты предсказывать будем так: посчитаем сумму весов экспертов, которые проголосовали за ноль, и сумму тех, кто проголосовал за единицу. Назовем значение, суммарный вес которого больше. После того, как мы узнали настоящее значение бита, умножим веса всех экспертов, которые ошиблись, на {1 - \varepsilon}.

Докажем, что количество ошибок при такой стратегии ограничено (1). Будем следить за потенциалом {\Phi := w_1 + w_2 + \ldots + w_n}. Изначально {\Phi = n}. Докажем, что при каждой нашей ошибке {\Phi} домножается не более, чем на {1 - \varepsilon / 2}. Действительно, при нашей ошибке суммарный вес экспертов, которые ошиблись, составляет по крайней мере {\Phi / 2}. Значит, после обновления весов экспертов новое значение {\Phi} не превзойдет

\displaystyle  \Phi \cdot \left(\frac12 + \frac12 \cdot (1 - \varepsilon) \right) = \Phi \cdot \left(1 - \frac{\varepsilon}{2}\right).

Таким образом, если мы сделали {k} ошибок, то {\Phi \leq n \cdot (1 - \varepsilon / 2)^k}. Но так как в каждый момент {w_i \leq \Phi}, то имеем

\displaystyle  (1 - \varepsilon)^{R_i} \leq n \cdot \left(1 - \varepsilon / 2\right)^k

для любого {i}. Отсюда после несложных преобразований получаем (1).

Реклама

Частный случай теоремы Дворецкого

Октябрь 29, 2011

Мы докажем частный случай теоремы Дворецкого для пространств {\ell_{\infty}^n}.

Theorem 1 Для любого {\epsilon > 0} в {\mathbb{R}^n} найдется подпространство {V} размерности {\Omega(\log_{\epsilon^{-1}} n)}, где {\ell_{\infty}}-норма ведет себя практически как {\ell_2}: существует такая константа {C > 0}, что для любого {x \in V} имеют место неравенства {C \|x\|_{\ell_2} \leq \|x\|_{\ell_{\infty}} \leq (1 + \epsilon) C \|x\|_{\ell_2}}.

Proof: Это утверждение можно переформулировать так: рассмотрим куб {[-1, 1]^n}. Тогда у него найдется центральное сечение {A} размерности {d = \Omega(\log_{\epsilon^{-1}} n)} такое, что {CB_2^d \subset A \subset (1 + \epsilon)CB_2^d}, где {B_2^d} — единичный евклидов шар, а {C} — некоторая константа. То есть у куба есть центральные почти сферические сечения логарифмической размерности!

Для начала заметим, что шар в этом рассуждении можно заменить на эллипсоид. Действительно, если у нас есть эллипс размерности {2k - 1} с центром в нуле, то у него есть центральное сферическое сечение размерности {k}. Понять это можно так. Пусть наш эллипсоид имеет вид

\displaystyle  \left\{x : \sum_{i=1}^{2k-1}\frac{x_i^2}{a_i^2} \leq 1\right\},

где {0 < a_1 \leq a_2 \leq \ldots \leq a_{2k-1}}. Тогда наше искомое подпространство размерности {k} будет задаваться {k-1} линейным уравнением, {i}-е из которых выглядит так:

\displaystyle  x_i \sqrt{\frac{1}{a_i^2} - \frac{1}{a_k^2}} = x_{2k-i} \sqrt{\frac{1}{a_k^2} - \frac{1}{a_{2k-i}^2}}.

Уравнения подобраны так, что если точка удовлетворяет им, то она лежит в нашем эллипсоиде тогда и только тогда, когда ее {\ell_2}-норма не превосходит {a_k}.

Таким образом, если мы построим центральное сечение {A} куба размерности {d}, которое является почти эллипсоидом, то из предыдущего рассуждения следует, что существует сечение размерности {d / 2}, которая является почти сферическим. Итак, нам достаточно построить центральное сечение {A} размерности {d = \Omega(\log_{\epsilon^{-1}} n)} такое, что

\displaystyle  B_2^d \subset TA \subset (1 + \epsilon)B_2^d,

где {T} — линейное отображение {\mathbb{R}^d}.

Мы будем рассматривать тела вида {\{x \in \mathbb{R}^d: \forall i \in [m] \quad |(x, v_i)| \leq 1\}}, где {v_1, v_2, \ldots, v_m \in S^{d-1}}.

Во-первых, такие тела можно линейно отобразить в центральные сечения {[-1, 1]^m}: действительно, рассмотрим отображение

\displaystyle  x \mapsto ((x, v_1), (x, v_2), \ldots, (x, v_m)).

Во-вторых, такие тела содержат {B_2^d}. В-третьих, ясно, что тело такого вида лежит в {(1 + \epsilon)B_2^d} тогда и только тогда, когда для каждого {\theta \in S^{d-1}} найдется {v_i} такое, что {|(\theta, v_i)| \geq \frac{1}{1 + \epsilon}}. Задача свелась к такой: покрыть {S^{d-1}} как можно меньшим количеством шапочек (множеств вида {\left\{x \in S^{d-1}: (x, v) \geq \frac{1}{1 + \epsilon}\right\}}). Для этого достаточно построить {\Theta(\sqrt{\epsilon})}-сеть на {S^{d-1}}. Рассуждениями аналогичными доказательству теоремы Варшамова-Гилберта можно показать, что существует сеть размера {(\Theta(\epsilon^{-1/2}))^d}.

\Box

Элементарное доказательство неравенства Крафта-Макмиллана

Октябрь 6, 2011

Когда-то я писал доказательство неравенства Крафта-Макмиллана, которое использует производящие функции и комплексный анализ. В этом посте написано то же самое доказательство, но на элементарном языке.

Theorem 1 Если {n_1, n_2, \ldots, n_k} — длины слов однозначного кода, то

\displaystyle  			2^{-n_1} + 2^{-n_2} + \ldots + 2^{-n_k} \leq 1.

Proof: Для удобства будем считать, что слова у нас не в алфавите {\{0, 1\}}, а в алфавите {\{a, b\}}. Выберем некоторое натуральное число {l} и запишем формальную сумму:

\displaystyle  			(w_1 + w_2 + \ldots + w_k)^l,

где {w_i} — наши слова. Например, если код состоит из слов {\{ab, ba, bba\}}, то сумма будет выглядеть так:

\displaystyle  			(ab + ba + bba)^l.

Теперь сделаем еще более странное действие — раскроем скобки (считая, что умножение слов — это конкатенация). Например,

\displaystyle  			(ab + ba + bba)^2 = abab + abba + abbba + baab + baba + babba + bbaab + bbaba + bbabba.

Заметим, что слова в правой части не повторяются, так как наш код однозначный.

Теперь будем подставлять в это выражение {a = b = 1/2}. Слева получится {(2^{-n_1} + 2^{-n_2} + \ldots + 2^{-n_k})^l}, а справа — не более, чем {\max(n_1, n_2, \ldots, n_k) \cdot l}, так как для любого {t} справа не более, чем {2^t} слов длины {t} (так как все слова различны).

Предположим теперь, что {2^{-n_1} + 2^{-n_2} + \ldots + 2^{-n_k} > 1}. Тогда левая часть растет экспоненциально при росте {l}, а правая — линейно. Противоречие. \Box

Неравенство Чернова

Октябрь 6, 2011

Рассмотрим случайное блуждание. Частица в начальный момент времени находится в точке ноль, а в каждый следующий момент с вероятностью {1/2} сдвигается либо на единицу вправо, либо на единицу влево. При этом, эти сдвиги независимы. Мы хотим доказать, что после {n} шагов частица будет с высокой вероятностью на расстоянии порядка {\sqrt{n}} от начала.

Обозначим случайные величины соответствующие сдвигам {X_1, X_2, \ldots, X_n \in \{-1, 1\}}, а {S_n = X_1 + X_2 + \ldots + X_n} — положение частицы после {n} шагов. Мы хотим доказать, что {S_n} достаточно сильно сконцентрирована вокруг своего математического ожидания (которое, как несложно заметить, равно нулю). Центральная предельная теорема говорит нам, что

\displaystyle  		\frac{S_n}{\sqrt{n}} \xrightarrow{d} N(0, 1),

где сходимость понимается как сходимость по распределению при {n \rightarrow \infty}. То есть в пределе {S_n} отклоняется от нуля не более, чем на {3 \sqrt{n}}, с вероятностью порядка {0.001}. К сожалению, центральная предельная теорема ничего не говорит о скорости сходимости, а в приложениях часто полезно иметь аналогичные утверждения для конечного {n}. Есть варианты центральной предельной теоремы (например, теорема Берри-Эссеена), которые дают какую-то оценку на скорость сходимости при некоторых дополнительных условиях (конечность третьего момента). Но для {S_n} доказать сильную концентрацию вокруг нуля проще непосредственно.

Самый простой способ доказать, что случайная величина сильно сконцентрирована вокруг математического ожидания — это неравенство Чебышева. Напомним его (для случая {S_n}).

Theorem 1

\displaystyle  			\mathrm{Pr}[|S_n| \geq t \sqrt{n}] \leq \frac{1}{t^2}

Proof: Действительно,

\displaystyle  			\mathrm{Pr}[|S_n| \geq t \sqrt{n}] = \mathrm{Pr}[S_n^2 \geq t^2 n] \leq \frac{\mathrm{E}[S_n^2]}{t^2 n} = \frac{1}{t^2}.

\Box

Можно пойти дальше и воспользоваться четвертым моментом {S_n}.

Theorem 2

\displaystyle  			\mathrm{Pr}[|S_n| \geq t \sqrt{n}] \leq \frac{3}{t^4}

Proof: Действительно,

\displaystyle  			\mathrm{Pr}[|S_n| \geq t \sqrt{n}] = \mathrm{Pr}[S_n^4 \geq t^4 n^2] \leq \frac{\mathrm{E}[S_n^4]}{t^4 n^2} = \frac{3 - \frac{2}{n}}{t^4} \leq \frac{3}{t^4}.

\Box

Дальше можно воспользоваться шестым моментом и получить оценку {O(1 / t^6)} и т. д. Но центральная предельная теорема в пределе дает нам оценку порядка {e^{-\Omega(t^2)}}, которую никакой константный момент обеспечить не в состоянии. Поэтому нам нужен какой-то новый трюк.

Рассмотрим преобразование Лапласа {f(\lambda) = \mathrm{E}\left[e^{\lambda S_n}\right]}. Оказывается, что используя его, можно получить хорошую оценку на концентрацию {S_n}.

Theorem 3

\displaystyle  			\mathrm{Pr}[S_n \geq t \sqrt{n}] \leq e^{-t^2/2}

Proof: Введем параметр {\lambda > 0}, который мы зафиксируем позднее. Тогда

\displaystyle  			\mathrm{Pr}[S_n \geq t \sqrt{n}] = \mathrm{Pr}\left[e^{\lambda S_n} \geq e^{\lambda t \sqrt{n}}\right] \leq \frac{f(\lambda)}{e^{\lambda t \sqrt{n}}}.

Вычислим {f(\lambda)}. Вспомним, что {S_n = X_1 + X_2 + \ldots + X_n}, где {X_i} — независимые {\pm 1} сдвиги. Отсюда получаем

\displaystyle  			f(\lambda) = \mathrm{E}\left[e^{\lambda S_n}\right] = \left(\mathrm{E}\left[e^{\lambda X_1}\right]\right)^n = (\cosh \lambda)^n.

Для дальнейшей оценки нам понадобится техническая лемма.

Lemma 4

\displaystyle  				\cosh \lambda \leq e^{\lambda^2/2}

Proof:

\displaystyle  				\cosh \lambda = \sum_{k=0}^{\infty} \frac{\lambda^{2k}}{(2k)!} \leq \sum_{k=0}^{\infty} \frac{\lambda^{2k}}{2^k k!} = e^{\lambda^2 / 2}

\Box

Продолжим доказательство теоремы.

\displaystyle  			\mathrm{Pr}[S_n \geq t \sqrt{n}] \leq \frac{f(\lambda)}{e^{\lambda t \sqrt{n}}} = \frac{(\cosh \lambda)^n}{e^{\lambda t \sqrt{n}}} \leq e^{\lambda^2 / 2 - \lambda t \sqrt{n}}

Видно, что правая часть минимальна, если выбрать {\lambda = t / \sqrt{n}}. Итого, получаем

\displaystyle  			\mathrm{Pr}[S_n \geq t \sqrt{n}] \leq e^{-t^2 / 2}.

\Box

Теорема~3 называется неравенством Чернова. Поймем, почему удобнее пользоваться преобразованием Лапласа, чем моментами.

Во-первых, преобразование Лапласа для {S_n} проще вычислять. Действительно, пользуясь теоремой о математическом ожидании произведения независимых величин, мы сразу сводим подсчет к подсчету преобразования Лапласа {X_i}. Во-вторых, так как

\displaystyle  		f(\lambda) = \sum_{k=0}^{\infty} \frac{\lambda^k \mathrm{E}[S_n^k]}{k!},

то мы используем сразу все моменты при оценке.

С другой стороны, моменты применимы в некоторых ситуациях, когда преобразование Лапласа не применимо. Например, пусть известно, что {X_1, X_2, \ldots, X_n} — попарно независимы, а не независимы в совокупности (это гораздо более слабое условие, например, для того, чтобы сгенерировать {n} попарно независимых битов, достаточно всего {O(\log n)} истинно независимых битов). Тогда оценка {O(1 / t^2)} по-прежнему имеет место, так как все, что мы используем, — это равенство {\mathrm{E}[X_i X_j] = \mathrm{E}[X_i] \mathrm{E}[X_j]}. Аналогично, если {X_1, X_2, \ldots, X_n} — 4-независимые, то имеет место оценка {O(1 / t^4)} и т. д.

Количество пересечений при укладках графов на плоскость

Октябрь 3, 2011

Пусть G = (V, E) — простой ненаправленный граф. Будем интересоваться его укладками на плоскости, а точнее, минимально возможным количеством пересечений при укладке. Обозначим эту величину c(G). Например, для планарных графов c(G) = 0. Обозначим n := |V|, m := |E|.

Теорема. c(G) \geq m^3 / 64n^2 - n.

Сначала докажем более слабую оценку, а потом воспользуемся ей для доказательства более сильной.

Докажем сначала, что c(G) \geq m - 3n. Это совсем просто — в планарных графах количество ребер не больше 3n, а любой граф можно превратить в планарный, удалив c(G) ребер.

Теперь докажем оценку из условия теоремы. Будем делать это вероятностным методом. Рассмотрим какую-то укладку G с k пересечениями. Рассмотрим подграф индуцированный случайным подмножеством V. Каждая вершина входит в это множество независимо с вероятностью p, которую мы выберем позднее. Тогда в среднем останется np вершин, mp^2 ребер и kp^4 пересечений. Пользуясь слабой оценкой, получаем, что k \geq mp^{-2} - 3np^{-3}. Теперь будем оптимизировать k. Если m \leq 4n, то оценка очевидна, а если m > 4n, то p = 4n / m < 1 доставляет оптимум.

Контрольный вопрос: где мы пользовались тем, что граф простой?

Сечения куба и проблема Басманна-Петти

Сентябрь 25, 2011

Представьте себе, что у нас есть два выпуклых центрально-симметричных относительно нуля компакта A, B \subseteq \mathbb{R}^n. Кроме того, для любой гиперплоскости H, которая проходит через ноль, мера A \cap H не превосходит меры B \cap H. Верно ли, что мера A не превосходит меры B?

Оказывается, что ответ на этот вопрос принципиально зависит от n: для n \leq 4 ответ утвердительный, для n \geq 5 — отрицательный.
Мы покажем, что ответ отрицательный при больших n.

Рассмотрим шар и куб единичного объема. Путем несложных подсчетов легко убедиться, что мера любого сечения шара равна \sqrt{e} \cdot (1 + o(1)). Оказывается, что мера всех сечений куба не превосходит \sqrt{2}. Если мы это докажем, то дело сделано, так как можно слегка уменьшить шар и получить отрицательный ответ на изначальный вопрос.

Итак, осталось доказать, что все сечения куба не превосходят \sqrt{2}. На удивление, это весьма нетривиальный результат, который был получен лишь в 1989 году Боллом (см. [1]).

Итак, пусть задан единичный вектор v \in S^{n - 1}, и мы хотим посчитать меру сечения куба [-1/2, 1/2]^n гиперплоскостью \{(x, v) = 0\}, то есть интеграл

\int_{\{(x, v) = 0\}} \chi_{[-1/2, 1/2]}(\|x\|_{\infty}).

С виду совершенно непонятно, как считать такой интеграл, но, оказывается, что в данном случае нам поможет преобразование Фурье. Слегка обобщим нашу задачу: будем рассматривать не только центральные сечения, но и сечения аффинными плоскостями вида \{(x, v) = t\}. Обозначим

f(t) = \int_{\{(x, v) = t\}} \chi_{[-1/2, 1/2]}(\|x\|_{\infty}).

Вычислим преобразование Фурье f:

\hat{f}(\lambda) = \int_{t} e^{-i \lambda t}\int_{\{(x, v) = t\}} \chi_{[-1/2, 1/2]}(\|x\|_{\infty}) =
= \int_x e^{-i \lambda (x, v)} \chi_{[-1/2, 1/2]}(\|x\|_{\infty}) = \prod_{k=1}^n \int_{-1/2}^{1/2} e^{-i \lambda v_k x} dx =
= \prod_{k=1}^n 2 \cdot \frac{\sin \frac{\lambda v_k}{2}}{\lambda v_k}.

Теперь воспользуемся обратным преобразованием Фурье и вычислим f(0), то есть меру искомого сечения.

f(0) = \frac{1}{2 \pi} \int_{-\infty}^{\infty} \hat{f}(\lambda) d \lambda = \frac{1}{\pi} \int_{-\infty}^{\infty} \prod_{k = 1}^{n} \frac{\sin \lambda v_k}{\lambda v_k} d \lambda

Таким образом, осталось доказать, что для любого единичного v имеет место неравенство \frac{1}{\pi} \int_{-\infty}^{\infty} \prod_{k = 1}^{n} \frac{\sin \lambda v_k}{\lambda v_k} d \lambda \leq \sqrt{2}. Рассмотрим два случая.

Пусть существует k такое, что |v_k| \geq 1 / \sqrt{2} (не умаляя общности, будем считать, что k = 1). Тогда мера проекции сечения на гиперплоскость x_1 = 0 с одной стороны равна мере исходного сечения умножить на |v_k|, а, с другой стороны, очевидно, что не превосходит единицы. Отсюда все получается.

Пусть теперь для всех k выполнено |v_k| \leq 1 / \sqrt{2}. Тогда воспользуемся неравенством Гельдера:

\int_{-\infty}^{\infty} \prod_{k = 1}^{n} \frac{\sin \pi \lambda v_k}{\pi \lambda v_k} d \lambda \leq   \prod_{k=1}^{n} \|u_k\|_{1/v_k^2}, где u_k(\lambda) = \frac{\sin \pi \lambda v_k}{\pi \lambda v_k}.

Нетривиальный факт состоит в том, что
\|u_k\|_{1/v_k^2} \leq 2^{v_k^2 / 2}, если v_k^2 \leq 1 / 2. Это неравенство называется интегральным неравенством Болла и доказывается довольно тяжелыми вычислениями (самое простое доказательство см. в [2]). Но видно, что если его доказать, то все получается.

Частичные порядки и геометрия

Сентябрь 25, 2011

Представьте себе, что у нас есть частичный порядок P на \{1, 2, \ldots, n\}. Будем интересоваться множеством полных порядков, которые согласованы с P (обозначим это множество E(P)). Например, если n = 3, P = \{1 < 2, 1 < 3\}, то в E(P) содержатся два элемента — \{1 < 2 < 3\} и \{1 < 3 < 2\}.

С E(P) можно связать политоп K(P) \subseteq \mathbb{R}^n, который устроен так: K(P) = \{f \colon \{1, 2, \ldots, n\} \to [0, 1] \mid f(x) \leq f(y) \; \forall x <_{P} y\}. Важное свойство K(P) состоит в том, что его объем равен \frac{|E(P)|}{n!}. Это можно понять, к примеру, так. Рассмотрим полный порядок \pi \in E(P). Ему соответствует симплекс K(\pi). Очевидны следующие утверждения:

  1. K(\pi) \subseteq K(P),
  2. объем K(\pi) равен 1 / n!,
  3. объединение всех K(\pi) в точности равно K(P).

Пользуясь формулой для объема K(P) можно получить следующие забавные факты.

Во-первых, задача подсчета |E(P)| трудная: более формально, \mathbf{\#P}-трудная (см. [1]). Но, оказывается, для этой задачи есть FPRAS (то есть алгоритм, который по P, \epsilon и \delta выдает число между (1 - \epsilon) |E(P)| и (1 + \epsilon) |E(P)| с вероятностью 1 - \delta и работает за время \mathrm{poly}(n, 1 / \epsilon, 1 / \delta)). Действительно, достаточно построить FPRAS для подсчета объема K(P), а для этого можно воспользоваться FPRAS для оценки объема выпуклого компакта (см. [2]).

Во-вторых, можно рассмотреть такую задачу. Пусть на \{1, 2, \ldots, n\} есть какой-то полный порядок \pi, который мы не знаем, но хотим узнать. Все, что мы знаем — это некоторый частичный порядок P, который согласован с \pi. Пусть есть оракул, у которого можно спрашивать результаты сравнений элементов. Мы хотим за минимальное число вопросов восстановить \pi. Очевидно, что необходимо \Omega(\log |E(P)|) вопросов, так как всего возможно |E(P)| вариантов для \pi. Забавный факт состоит в том, что O(\log |E(P)|) вопросов достаточно. Это можно понять так. Сравнения элементам соответствуют разрезам K(P) специального вида. Таким образом, достаточно доказать, что один из этих разрезов разбивает K(P) на части примерно одинакового объема. Это несложно делается с помощью неравенства Брунна-Минковского (см. [3]).

Минимальная несбалансированность

Май 10, 2011

Представьте себе двудольный граф, в каждой доле которого ровно n вершин. Напишем на вершинах левой доли плюс-минус единицы. Теперь для каждой вершины правой доли посчитаем модуль суммы чисел соседей. Среди этих модулей выберем максимальный. Будем интересоваться разметкой плюс-минус единицами, которая минимизирует этот максимум.

С помощью вероятностного метода легко доказать, что существует разметка такая, что максимум модуля равен O(\sqrt{n \log n}). С помощью опять же вероятностного метода легко показать, что найдется граф такой, что этот максимум при любой разметке равен \Omega(\sqrt{n}). Таким образом, остается небольшой зазор между нижней и верхней оценками.

Оказывается, что точный ответ — \Theta(\sqrt{n}). Это знаменитая теорема Спенсера (1985 год). Хорошо написанное доказательство (которое использует забавные теоретико-информационные соображения) есть в Алоне-Спенсере. Доказательство неконструктивное, то есть оно не дает полиномиального (вероятностного) алгоритма для построения такой разметки.

Недавно Bansal (FOCS ’10) восполнил этот пробел — в статье «Constructive Algorithms for Discrepancy Minimization» приведен полиномиальный алгоритм для поиска таких разметок. К сожалению, на первый взгляд он довольно сложен.

Теоретико-информационное доказательство изопериметрического неравенства на булевом кубе

Февраль 18, 2011

Ранее мы доказывали изопериметрическое неравенство на булевом кубе с помощью преобразования Фурье. Сейчас мы докажем его, используя теоретико-информационные соображения (а именно, понятие энтропии дискретного распределения).

Итак, пусть S \subseteq \{-1, 1\}^n. Мы хотим оценить количество ребер куба, ровно один конец которых лежит в S (обозначим это количество A). Мы докажем, что A / |S| \geq n - \log |S|.

Возьмем случайный элемент S. Обозначим полученную случайную величину (X_1, \ldots, X_n).

Во-первых, очевидно, что \mathbf{H}(X_1, \ldots, X_n) = \log |S|.

Во-вторых, несложно понять, что \sum_{i=1}^n \mathbf{H}(X_i \mid X_1, \ldots, X_{i-1}, X_{i+1}, \ldots, X_n) = n - A / |S|.

Теперь делаем финальную выкладку:
\log |S| = \mathbf{H}(X_1, \ldots, X_n) =
= \mathbf{H}(X_1) + \mathbf{H}(X_2 \mid X_1) + \ldots + \mathbf{H}(X_n \mid X_1, \ldots, X_{n-1}) \geq
\geq \sum_{i=1}^n \mathbf{H}(X_i \mid X_1, \ldots, X_{i-1}, X_{i+1}, \ldots, X_n) = n - A / |S|.

Отсюда получаем искомое неравенство.

Норма оператора шума

Январь 27, 2011

Для доказательства теоремы Канна-Калаи-Линиала нам понадобится важный технический результат о норме оператора шума.

Пусть f \colon \{-1, 1\}^n \to \mathbb{R} — функция на булевом кубе (не обязательно булева). На пространстве таких функций можно ввести L^p-норму: \|f\|_p := \mathrm{E}[|f|^p]^{1/p}. Можно доказать, что L^p-норма неубывает при увеличении p.

Теперь определим оператор шума T_{\rho}: T_{\rho}f(x) = \mathrm{E}_{y \sim_{\rho} x} f(y), где запись y \sim_{\rho} x обозначает следующее: y получен из x независимой заменой каждой компоненты на противоположную с вероятностью (1 - \rho) / 2.

Можно интересоваться нормой T_{\rho} как оператора из L^p в L^q. Если, например, p = q, то понятно, что T_{\rho} является сжимающим, то есть \|T_{\rho}f\|_p \leq \|f\|_p. Однако, нам бы хотелось усилить это неравенство, увеличивая норму в левой части. Нам понадобится такая теорема:

Теорема. \|T_{1/2} f\|_2 \leq 2 \|f\|_{4/3}.

Для доказательства теоремы нам понадобятся две леммы.

Лемма. T_{\rho}(\chi_{\alpha}) = \rho^{|\alpha|} \chi_{\alpha}.

Отсюда видим, что T_{\rho} f = \sum_{\alpha} \rho^{|\alpha|} \hat{f}_{\alpha} \chi_{\alpha}. Пользуясь равенством Парсеваля, видим, что нам нужно доказать такое неравенство: \sum_{\alpha} \hat{f}_{\alpha}^2 / 4^{|\alpha|} \leq 4 \|f\|_{4/3}^2.

Теперь сформулируем и докажем вторую лемму.

Лемма. Пусть f — полилинейный многочлен степени не больше d. Тогда \|f\|_4 \leq 3^{d/2} \cdot \|f\|_2.

Доказательство. Требуемое утверждение можно переписать как \mathrm{E}[f^4] \leq 9^d \cdot \mathrm{E}[f^2]^2. Теперь будем доказывать утверждение индукцией по n и d. Если d = 0, то утверждение очевидно.

Разложим f по x_1: f = x_1 p + q, где p, q — многочлены от x_2, \ldots, x_n. Степень p не превосходит d - 1, а qd. Теперь распишем \mathrm{E}[f^4]:
\mathrm{E}[f^4] = \mathrm{E}[p^4] + 6 \cdot \mathrm{E}[p^2 q^2] + \mathrm{E}[q^4]

Первое и третье слагаемые оцениваем по индукции: \mathrm{E}[p^4] \leq 9^{d-1} \cdot \mathrm{E}[p^2]^2, \mathrm{E}[q^4] \leq 9^{d} \cdot \mathrm{E}[q^2]^2.

Второе слагаемое оцениваем, пользуясь неравенством Коши-Буняковского:
\mathrm{E}[p^2 q^2] \leq \sqrt{\mathrm{E}[p^4] \cdot \mathrm{E}[q^4]} \leq 3^{2d - 1} \cdot \mathrm{E}[p^2] \cdot \mathrm{E}[q^2]

Итого, получаем:
\mathrm{E}[f^4] \leq 9^d \cdot (\mathrm{E}[p^2]^2 + \mathrm{E}[q^2]^2 + 2 \cdot \mathrm{E}[p^2] \cdot \mathrm{E}[q^2]) =
= 9^d \cdot (\mathrm{E}[p^2] + \mathrm{E}[q^2])^2 = 9^d \cdot \mathrm{E}[f^2]^2.

Следствие. Если f — полилинейный многочлен степени не больше d, то \|f\|_2 \leq 3^{d/2} \|f\|_{4/3}.
Доказательство. Воспользуемся неравенством Гельдера:
\|f\|_2^2 = \mathrm{E}[f \cdot f] \leq \|f\|_4 \cdot \|f\|_{4/3} \leq 3^{d/2} \cdot \|f\|_2 \cdot \|f\|_{4/3}.

Доказательство теоремы. Напомним, что нам нужно доказать, что \sum_{\alpha} \hat{f}_{\alpha}^2 / 4^{|\alpha|} \leq 4 \|f\|_{4/3}^2. Используя следствие из леммы, это сделать совсем несложно. Пользуясь следствием, видим, что \sum_{|\alpha| = d} \hat{f}_{\alpha}^2 \leq 3^d \|f\|_{4/3}^2. Делим это равенство на 4^d, а потом складываем по всем d.
\sum_{\alpha} \hat{f}_{\alpha}^2 / 4^{|\alpha|} \leq \|f\|_{4/3}^2 \cdot \sum_{d = 0}^{\infty} (3/4)^d. Суммируя ряд справа, замечаем, что мы получили ровно то, что нам нужно.