Математика явки: близько 400 тисяч голосів у першому турі було фальсифіковано? (оновлено)
Подібні матеріали
За допомогою центральної граничної теореми можна виловлювати нерегулярності на виборах. Тому що чесні вибори генерують результати, що можуть бути представлені у вигляді добре відомої усім статистикам функції - нормального розподілу.
Рахував: Анатолій БОНДАРЕНКО (@dvrnd)
Як виглядають чесні вибори на графіках?
А виглядають вони як гауссіан - одногорба симетрична крива.
Почнемо з картинки (Польша, 2005 рік, другий тур президентських виборів)
По осі Х - відвідуваність на дільниці, по осі Y - кількість дільниць. Цей графік показує розподілення дільниць у залежності до явки. Видно, що дільниць з дуже маленькою, а також дуже великою явкою, було мало.
На більшості дільниць явка була порядку 50%. Як бачите, перед вами симетрична функція з одним горбом, яку ще називають гаусовою кривою, або гауссіаном. Ще одна назва – функція нормального розподілу випадкової величини.
Такого типу криві виникають там, де (згрубша) якась величина має тенденцію групуватися навколо свого середнього значення.
Трохи більш адекватне математичне пояснення можна знайти у статті "Росія і Україна: Нерегулярні результати регулярних виборів". Зараз для нас достатньо двох фактів – перше, подібна форма графіку виникає в природі дуже часто (наприклад, якщо намалювати криву для розподілу чоловіків по зросту – то виникне схожа картинка).
І друге: якщо вибори проходять чесно, то графік розподілу явки виборців є схожою кривою – одногорбим та симетричним.
На підтвердження цього існують графіки явки для багатьох виборів там, де вони визнані (незалежними спостерігачами) чесними - наприклад, в країнах Балтії.
Один із багатьох прикладів – наведений вище графік для Польщі.
Росія
Тепер подивимося на більш сумну картинку – вибори президента в Росії, 2008 рік.
Перша частина графіка - приблизно до 60% явки - схожа на нормальний розподіл, але потім різко змінює свою поведінку.
Саме так впливають на розподілення явки фальсифікації та використання адмінресурсу: штучне дописування голосів в протоколах та збільшення явки, вкидання бюлетнів, примус голосувати за якогось кандидата, тощо.
Коли виборчі комісії штучно міняють таким чином результати, вони і не підозрюють, що спотворюють загальний розподіл - а це потім можна буде визначити. Ілюстрація - на Мал.2.
Ось y цьому дослідженні, яке значною мірою надихнуло мою статтю, дуже цікаво написано про цілий ряд російських виборів останнього часу.
Деякі спостереження – просто зворушливі. Так, зубці "пилки" на другій половині графіку з Мал.2 виникли не в довільних місцях, а на круглих показниках явки: 70, 75, 80, 85%.
Просто комісії підганяли результати під красиву звітність.
Наш перший тур
Тепер повернемося до результатів 1-го туру наших президентських виборів (усі дані, з якими я працював для написання статті, отримані з сайту ЦВК).
Дані в одному великому текстовому файлі лежать тут - для тих, хто хоче погратися з ними сам.
Ось так виглядає графік розподілу явки:
Видно, що наші вибори за розподілом явки значно більше схожі на вибори у Польщі, ніж на той тихий жах, що відбувався в Росії.
Однак, якщо придивитися уважніше, то невеликі проблеми є і у нас – приблизно починаючи з рівня 77%-ї відвідуваності, крива трохи вище, ніж має бути. Для порівняння, зеленим кольором позначено ідеальний варіант нормального розподілу.
Для того, щоб зрозуміти, де в першому турі відбувалися “нерегулярності” – наступні два графіка.
На першому зображено розподіл усіх дільниць, з відвідуваністю більше ніж 77% (там, де починаються нерегулярності на графіку для явки на Мал. 3).
Їх – 8691, середня кількість виборців на них – 408 чоловік. Видно, що це переважно дільниці невеликого розміру.
На другому графіку - ще більш екстремальні дільниці, де було 100% явки. Їх 381, і вони відповідають за ту саму крайню праву точку на головному графіку малюнку 3, яка є найбільш нерегулярною (задертий правий "хвіст" найбільше вибивається з форми нормального розподілу).
Середня кількість виборців на такій дільниці – 212 чоловік, тобто за розміром це - одні з найменших дільниць по країні.
Для того, щоб оіцнити кількість “нерегулярних” голосів, можна використати т.з. метод Шпилькіна.
Для цього будується графік, де по Х так само відкладається явка, а по осі У – кількість голосів (в інтервалі 1% явки), відданих на дільницях з таким значенням відвідуваності.
Це теж – нормально розподілена величина (дивись примітку ** нижче).
Зеленим кольором, знов таки, показане ідеалізований нормальний розподіл – тобто, як виглядали би результати виборів за повної відсутності нерегулярностей: маніпуляцій, адмінресурсу і впливу на голосування, тощо.
Для любителів точних параметрів - це нормальний розподіл явки у відсотках, із середнім, що дорівнює 67%, і з стандартним відхиленням у 6.9. Це непогане співпадіння - за даними ЦВК, середня явка склала 66.76%.
За різницею між цими двома графіками можна оцінити кількість нерегулярних голосів у масштабах всієї країни. За дуже грубою оцінкою – під підозрою є близько 400 тис. голосів, тобто ~ 1.6%. ***
Три перших позиції
І нарешті, останній графік – це результати для трьох лідерів – Януковича (блакитний колір), Тимошенко (червоний колір), та Тігіпка (коричневий колір) в масштабах усієї країни.
Тип графіків – такий самий, як і на мал. 6. Тобто по осі Х – відвідуваність, по осі Y – кількість голосів, набраних кожним кандидатом на дільницях з відвідуваністю X.
Графік Тігіпка – майже ідеальний нормальний розподіл - схоже, що адмінресурс на нього не працював, і голоси не дописували.
З Тимошенко і Януковичем – трохи складніше. Видно, що результати саме цих двох кандидатів, починаючи з того самого рівня приблизно у 77%, створюють нерегулярності на загальному графіку.
Хто ж з них “дописав” більше?
Зверніть увагу на те, що графік Тимошенко з якогось моменту перетинає графік Януковича, хоча такого бути не повинно. Таке аномальне збільшення показників Тимошенко може непрямо свідчити, що загалом по країні адмінресурс прем'єрки виявився довшим, ніж адмінресурс лідера ПР.
Однак ще раз хочу наголосити – розмова йде про 1-2% нерегулярностей, так що в першому турі наші вибори можна вважати чесними і демократичними, як і стверджували більшість спостерігачів.
Висновки
Фальсифікації (впливи на волевиявлення) у першому турі були, але незначні. За отриманими результатами - це менше ніж 2% голосів.
Підозри викликають результати двох лідерів - Януковича та Тимошенко. А от, скажімо, графік Тігіпка, з цієї точки зору - практично ідеальний.
Спостерігачам, від кого б вони не були, варто звернути увагу на дільниці з рівнем відвідуваності більше ніж 77%. З великою долею ймовірності, саме на них відбувалося спотворення результатів голосування.
Особливої уваги потребують невеликі дільниці, з кількістю виборців у декілька сотень чоловік і менше.
Однак в першу чергу, варто розібратися з дільницями, де відвідуваність була 100%.
Безумовно, на дільницях з 100% відвідуваністю відбувалося застосування адмін-ресурсу.
Не важливо, за кого змушували голосувати, однак голосувати точно змушували (або заповнювали всі невикористані бюлетні), інакше б не було так багато випадків 100% результату (дільниць із такою відвідуваністю повинно бути в десятки рази менше).
Така відвідуваність - це ненормально для демократичних виборів (див. графік з Мал. 1). Зрештою, ми все таки не Північна Корея, і люди не вибирають з одного кандидата на ім'я Кім Чен Ір.
Дякую всім, хто зміг дочитати до цього місця, і чекаємо на дані другого туру!
Далі буде...
P.S.: До речі, чи цікаво вам прочитати схожий аналіз по декількох регіонах?
Примітки
** Чому? Це потребує додаткового математичного аналізу, точніше мат. статистичної моделі
*** Модель, за якою підбирався ідеальний нормальний розподіл, потребує більш стійкого до зміни параметрів алгоритму.
Післямова №1
Хоча у назві статті і вживається - дещо претензійно - слово "математика", все ж таки це не математична стаття, а серія гіпотез. Автор відштовхувався від уже проведених досліджень, провів ряд експериментів з числами від ЦВК і оцінив рівень фальсифікацій, як міг.
Однак! На найбільш цікаві математичні питання, що виникають під час вивчення даних голосування, ця стаття відповіді не дає.
Наприклад, немає в статті доказу того, що на "чесних" виборах форма розподілу явки - симетричний "дзвін", або чому таку ж форму має графік сумарної кількості голосів, отриманих на дільницях з однаковим рівнем явки.
Експериментальні дані виборів у різних країнах підтверджують таку поведінку графіків, однак це не зовсім математика. Вочевидь, йдеться про застосування центральної граничної теореми, однак у який спосіб?
Післямова №2
Ця стаття не була б написана, якби не два open source інструменти: мова статистичної обробки даних R, за допомогою якої проводились числові експерименти, та мова програмування Ruby, на якій був написаний скрипт, що люб'язно скачав дані по 30+ тисяч дільницям з сайту ЦВК.
Ну і звичайно, хто б не був новим президентом, наша справа зробити так, щоб ми завжди мали доступ до даних із сайту ЦВК. Та з інших урядових сайтів також. Зрозуміло навіщо, правда?
Післямова №3
Один з читачів (що приємно, це один з авторів методик, що використані в статті ) звернув увагу на те, що ЦВК змінила формат результатів по дільницям - з них були прибрані дані по кількості зареєстрованих виборців. Поки ми будемо листуватися з ними, хочу викласти початковий варіант даних ЦВК, де є вся інформація.
Формат полей описаний у файлі README. У кожному файлі - дані по ТВО з номером, що дорівнює імені файла.
Нагадаю, що "анонімізовані" дані по всім дільницям ми вже виклали давно.
Післямова №4
Тепер на графіках можна подивитися самому, що у в різних регонах відбувалося з явкою, за допомогою онлайн-інструменту: http:/
наука, математика, вибори, фальсифікації
Вибір редакції (найкраще за весь час)
від Суворий Адмін
3 коментарі
|
від Павло Солодько
27 коментарів
|
від Newsmaker
0 коментарів
|
Коментарі [20]
Дякую, цікаво!
У штабі Ю у 2004 році матаналізом явки виборців займався такий собі А. Кочетов. Цікаво було б його спостереження над минулим і сьогоденням порівняти!
1. Звернув увагу на те що до 2004 року явка наприклад у Луганській обл. процентів на 10% була нижчою ніж у Львівській. Після цього явки зрівнялись.
2. Так звана явка цей раз була меншою ніж на попередніх виборах, але вдома проголосувало майже така сама кількість виборців. Це є свідченням що цим процесом штучно керують.
Бізнес у наші
Донецька область.
2004 рік
2-й тур - 3 711 606 голосів
3-й тур - 3 143 730 голосів
2010 рік
1-й тур - 2 439 004 голоси
Із нетерпінням чекаю на 2-й тур для корректного порівняння.
Чудово! Дуже і дуже цікаво.
Якими б не були методи обробки даних, але велика кількість дільниць з 100 % явкою та кореляція між дільницями з аномально високою явкою та малою кількістю виборців, дуже цікава :).
І, звичайно, дуже цікавими були б дані по окремим регіонам. Так щоб можна було привязатись до адмінресурсу Тимошенко та Януковича. Це могло б стати чудовим підтвердженням методики автора :).
moar!
і взагалі, може всі ці скрипти якось оформити в пакет, покласти на сайт і ганяти по кожних наступних виборах? вийшов би гарний інструмент аналізу.
Прикольно! Можна ціми вторинними статевими ознаками лякати хоч кого, як це було з екзит-полами. І можна говорити про ембарго тим країнам, де ці горки не відповідають євростандартам, яки, звичайно, треба зробити. Треба визачити кожний кут до найменшої величини.
Чому на мал. 2 кількість дільниць зі 100% явкою асимптотично зростає до нескінченності?
На щастя, точка з x=100% - остання :) тому все таки не зросте. Однак (і про це в статті сказано) ці останні точки є найбільшими аномаліями в результатах виборів
А можно выложить в открытый доступ данные по участкам? Я поздно взялся скачивать, когда из окончательных данных уже убрали численность зарегистрированных избирателей. Или прислать - мой адрес есть в конце статьи http:/
Очень интересно!
Во-первых, я рад, что вы нашли эту статью.
Во-вторых, хорошо что сообщили о том, что ЦВК изменила формат данных в т ч убрала количество зарегистрированных избирателей. Мы попробуем с ними связаться, чтобы вернуть этот показатель.
Между тем, выкладываю данные по всем участкам здесь в статье, и отправляю вам на почту - будет интересно посмотреть на результаты вашего анализа.
Большое спасибо за данные. Ссылку увидел у kireev.livejournal.com, у него много географической аналитики, в т.ч.и по этим выборам. Если получится что-либо интересное - напишу. Хотя на первый взгляд картина почти идеальная.
Дякую за цікаву статтю і особливо за дані по дільницях.
Алe з вашими висновками погодитись нeможу.
Нeмає нінаймeнших підстав вважати що розподіл голосів відносно явки в Україні повинeн іти за Гаусівською кривою - в Україні традиційно є рeгіони з високою явкою(Галичина), причому різниця з іншими рeгіонами по явці завжди досить вeлика. Рeзультати добрe апроксимуються двома гаусіанами.
Досить інформативним в цьому плані є графік отриманого відсотку голосів розрахованого для кожної явки(наприклад чeрeз кожeн відсоток).
Для кандидатів які сприймаються нeтрально по всій Україні, цeй відсоток практично нeзалeжить від явки(~рeгіону).
Також цікавими в цьому плані є дільниці з 100% явкою. Я так розумію, що цe спeц дільниці. Можливо там і була пeвна спроба маніпулювати рeзультатами, алe показово що відсоток "проти всіх", для цих дільниць, значно вищий, ніж для дільниць з іншими явками. Що нe сприяє вeрсії про тотальні маніпуляції на цих дільницях.
Дякую за відгук, однак по суті з ним не згоден
Графіки говорять краще, ніж слова. А мал. 3 - все таки схожий на гауссіан, а не на два гаусіана, тощо. І це логічно - фактичо для розподілу дільниць по явці ми маємо досить добрі умови для застосування узагальненої ЦГТ - на кожній дільниці (це окремий експеримент) ми отримуємо явку як суму незалежних випадкових величин, нехай навіть і з різними розподіленнями в залежності від дільниці(округу, регіону).
(До речі, цікаво було б подивитися на вашу апрксимацію двома гаусіанами)
Далі, параграф що починається слів "Досить інформативним в цьому плані" - я чесно кажучи не зрозумів, до чого тут логічна прив'язка? До мого тексту, чи до вашого попереднього абзацу?
Справа в тому, що у мене графік з мал. 7 якраз і є те, що ви написали - лише не нормований на загальну кількість набраних голосів. Результат Тігіпка - майже ідеальний гаусс. А дивно схожі за поведінкою результати Я та Ю, які вибиваються за гауссіан на великих явках, нмд підтверджують мої висновки, що з цими діапазонами явки щось не так. В яких би регіонах це не було - тому що як ми знаємо, голосуючі регіони за Т та Я - різні, а аномалії на графіках - дуже схожі.
Що стосується 100% дільниць, то можливо ви звернули увагу, що я викорисовував слово "адмінресурс", а не тотальні маніпуляції. Тотальні маніпуляції - це ваш термін. Адмінресурс - поняття набагато більш гнучке - це наприклад примус голосувати весь особовий склад частини, навіть безвідносно за яку кандидатуру. Стосовно 100% дільниць я лише звернув увагу, що їх занадто багато. За великим рахунком, дільниці з явкою більше 97-98% треба взагалі викидати з розрахунку - кожна з них має свою історію, але я впевнений що це не історія демократичного голосування.
Вибачаюсь, я намагався стисло писати, а вийшло нeзрозуміло. Мій допис, після пeрших двох рeчeнь, напряму нe стосувався вашої статті, а був просто роздумами вголос. Пeрeчитавши, бачу, що фраза про 100% і тотальні маніпуляції сприямєттся як закид у вашу сторону, алe цe нe було моїм наміром – ця фраза приводилась як одна з можливих гіпотeз, алe я цe напряму нe озвучив. У вас стосовно 100% явки написано досить обeрeжно і вірно.
Стосовно ЦГТ. Вона ж стосується однієї випадкової змінної і достатньо вeликих вибірок. Ви ствeрджуєтe, що на кожній дільниці вимірюєтe одну і ту саму випадкову вeличину, а я ствeрджую, що в залeжності від рeгіону ви вимірюєтe різні випадкові вeлучини(хоч вони і названі однаково - явка), які мають нормальний розподіл, алe відносно різних сeрeдніх. Для інших країн цe як правило нe проблeма, бо різниця між рeгіонами нe вeлика, алe в Україні цe нe так, різниця між рeгіонами значна і самі ці рeгіони вeликі, і, відповідно, їх кількості нeдостатньо щоби дати нормальний розподіл загальної явки. Я привeду аналогію: якщо взяти рeзултати явки на виборах в Україні і Польщі і обєднати, ви ж нe будeтe очікувати нормального розподілу для обєднаного рeзультату? Він можe бути гаусівським, якщо сeрeдні явки близькі, алe можe і нe бути ним якщо сeрeдні досить різні. Алe якщо взяти і обєднати дані з явок для всього світу (крім Китаю звичайно:)) то, швидшe за всe, сумарнй розподіл вийдe гаусівським, бо вибірка в цьому випадку достатньо вeлика.
Стосовно фрази що починається зі слів "Досить інформативним в цьому плані", я мав на увазі нe нормалізацію за загальною кількістю голосів (що в принципі було би аналогічно до вашого мал 7), а за кількостю голосів в сeрeдині кожної 1% вибірки – тобто відносний розподіл голосів за кожного кандидата в залeжності від явки. В ідeалі, цeй відсоток голосів нe повинeн залeжати від явки і повинeн виглядати як пряма лінія, алe він міняється самe в районі високих явок. Якщо будe бажання проаналізуйтe ці графіки, мeні здeєттся що вони дають відповідь на більшість запитань стосовно відхилeння від нормального розподілу, включно з тим що голосуючі рeгіони для Т. та Я. різні, алe я нeхочу навязувати своєї думки і приводити свої висновки.
Стосовно двох гаусіан, то там нічого особливо цікавого нeмає(правда я порахував цe лишe для голосів Т.): дві різновeликі гаусівські криві в сумі дають розподіл для Т. з вашого мал.7. Я на вихідних спробую запостити малюнок, якщо цікаво.
Поки що зауваження стосовно ЦГТ:
Результат класичної ЦГТ, кажучи по правді, є справедливим для ситуацій значно більш загальних, ніж повна незалежність і однакова розподіленість випадкових величин, які складають суму. А ми вимірюємо саме суму випадкових величин- у вигляді явки.
Однак не буду сперечатися далі, тому що усі мої аргументи і так видно, на графіку з мал. 3, який вже є в статті.
А от якщо побудувати розподіл явки по кожному кандидату (на скількох дільницях за кандидата Х проголосувало 1%, 2% , 3%, ... 100% виборців) - там дійсно з'являється цікава картинка. Грубо кажучи, можна припустити що там видно скільки для кожного з кандидатів є місцевостей, в яких він різко відрізняється по популярності. От там виникає щось схоже на суму гауссіанів, принаймні для Януоквича (3 різних регіони) Тимошенко (2 регіони), Тигіпко (2 регіони). Див. малюнок нижче, по всім кандидатам


