Шукати:

Математика явки: близько 400 тисяч голосів у першому турі було фальсифіковано? (оновлено)

28 січня, 12:50 | 5727 переглядів | Рекомендації: +6 / -1 | 20 коментарів

За допомогою центральної граничної теореми можна виловлювати нерегулярності на виборах. Тому що чесні вибори генерують результати, що можуть бути представлені у вигляді добре відомої усім статистикам функції - нормального розподілу.

Рахував: Анатолій БОНДАРЕНКО (@dvrnd)

Як виглядають чесні вибори на графіках?

А виглядають вони як гауссіан - одногорба симетрична крива.

Почнемо з картинки (Польша, 2005 рік, другий тур президентських виборів)

Мал. 1

По осі Х - відвідуваність на дільниці, по осі Y - кількість дільниць. Цей графік показує розподілення дільниць у залежності до явки. Видно, що дільниць з дуже маленькою, а також дуже великою явкою, було мало.

На більшості дільниць явка була порядку 50%. Як бачите, перед вами симетрична функція з одним горбом, яку ще називають гаусовою кривою, або гауссіаном. Ще одна назва – функція нормального розподілу випадкової величини.

Такого типу криві виникають там, де (згрубша) якась величина має тенденцію групуватися навколо свого середнього значення.

Трохи більш адекватне математичне пояснення можна знайти у статті "Росія і Україна: Нерегулярні результати регулярних виборів". Зараз для нас достатньо двох фактів – перше, подібна форма графіку виникає в природі дуже часто (наприклад, якщо намалювати криву для розподілу чоловіків по зросту – то виникне схожа картинка).

І друге: якщо вибори проходять чесно, то графік розподілу явки виборців є схожою кривою – одногорбим та симетричним.

На підтвердження цього існують графіки явки для багатьох виборів там, де вони визнані (незалежними спостерігачами) чесними - наприклад, в країнах Балтії.

Один із багатьох прикладів – наведений вище графік для Польщі.

Росія

Тепер подивимося на більш сумну картинку – вибори президента в Росії, 2008 рік.

Перша частина графіка - приблизно до 60% явки - схожа на нормальний розподіл, але потім різко змінює свою поведінку.

Мал. 2, Росія-2008

Саме так впливають на розподілення явки фальсифікації та використання адмінресурсу: штучне дописування голосів в протоколах та збільшення явки, вкидання бюлетнів, примус голосувати за якогось кандидата, тощо.

Коли виборчі комісії штучно міняють таким чином результати, вони і не підозрюють, що спотворюють загальний розподіл - а це потім можна буде визначити. Ілюстрація - на Мал.2.

Ось y цьому дослідженні, яке значною мірою надихнуло мою статтю, дуже цікаво написано про цілий ряд російських виборів останнього часу.

Деякі спостереження – просто зворушливі. Так, зубці "пилки" на другій половині графіку з Мал.2 виникли не в довільних місцях, а на круглих показниках явки: 70, 75, 80, 85%.

Просто комісії підганяли результати під красиву звітність.

Наш перший тур

Тепер повернемося до результатів 1-го туру наших президентських виборів (усі дані, з якими я працював для написання статті, отримані з сайту ЦВК).

Дані в одному великому текстовому файлі лежать тут - для тих, хто хоче погратися з ними сам.

Ось так виглядає графік розподілу явки:

Мал. 3, Україна-2010, розподіл явки

Видно, що наші вибори за розподілом явки значно більше схожі на вибори у Польщі, ніж на той тихий жах, що відбувався в Росії.

Однак, якщо придивитися уважніше, то невеликі проблеми є і у нас – приблизно починаючи з рівня 77%-ї відвідуваності, крива трохи вище, ніж має бути. Для порівняння, зеленим кольором позначено ідеальний варіант нормального розподілу.

Для того, щоб зрозуміти, де в першому турі відбувалися “нерегулярності” – наступні два графіка.

На першому зображено розподіл усіх дільниць, з відвідуваністю більше ніж 77% (там, де починаються нерегулярності на графіку для явки на Мал. 3).

Їх – 8691, середня кількість виборців на них – 408 чоловік. Видно, що це переважно дільниці невеликого розміру.

На другому графіку - ще більш екстремальні дільниці, де було 100% явки. Їх 381, і вони відповідають за ту саму крайню праву точку на головному графіку малюнку 3, яка є найбільш нерегулярною (задертий правий "хвіст" найбільше вибивається з форми нормального розподілу).

Середня кількість виборців на такій дільниці – 212 чоловік, тобто за розміром це - одні з найменших дільниць по країні.

Для того, щоб оіцнити кількість “нерегулярних” голосів, можна використати т.з. метод Шпилькіна.

Для цього будується графік, де по Х так само відкладається явка, а по осі У – кількість голосів (в інтервалі 1% явки), відданих на дільницях з таким значенням відвідуваності.

Це теж – нормально розподілена величина (дивись примітку ** нижче).

Мал. 6

Зеленим кольором, знов таки, показане ідеалізований нормальний розподіл – тобто, як виглядали би результати виборів за повної відсутності нерегулярностей: маніпуляцій, адмінресурсу і впливу на голосування, тощо.

Для любителів точних параметрів - це нормальний розподіл явки у відсотках, із середнім, що дорівнює 67%, і з стандартним відхиленням у 6.9. Це непогане співпадіння - за даними ЦВК, середня явка склала 66.76%.

За різницею між цими двома графіками можна оцінити кількість нерегулярних голосів у масштабах всієї країни. За дуже грубою оцінкою – під підозрою є близько 400 тис. голосів, тобто ~ 1.6%. ***

Три перших позиції

І нарешті, останній графік – це результати для трьох лідерів – Януковича (блакитний колір), Тимошенко (червоний колір), та Тігіпка (коричневий колір) в масштабах усієї країни.

Тип графіків – такий самий, як і на мал. 6. Тобто по осі Х – відвідуваність, по осі Y – кількість голосів, набраних кожним кандидатом на дільницях з відвідуваністю X.

Мал. 7

Графік Тігіпка – майже ідеальний нормальний розподіл - схоже, що адмінресурс на нього не працював, і голоси не дописували.

З Тимошенко і Януковичем – трохи складніше. Видно, що результати саме цих двох кандидатів, починаючи з того самого рівня приблизно у 77%, створюють нерегулярності на загальному графіку.

Хто ж з них “дописав” більше?

Зверніть увагу на те, що графік Тимошенко з якогось моменту перетинає графік Януковича, хоча такого бути не повинно. Таке аномальне збільшення показників Тимошенко може непрямо свідчити, що загалом по країні адмінресурс прем'єрки виявився довшим, ніж адмінресурс лідера ПР.

Однак ще раз хочу наголосити – розмова йде про 1-2% нерегулярностей, так що в першому турі наші вибори можна вважати чесними і демократичними, як і стверджували більшість спостерігачів.

Висновки

Фальсифікації (впливи на волевиявлення) у першому турі були, але незначні. За отриманими результатами - це менше ніж 2% голосів.

Підозри викликають результати двох лідерів - Януковича та Тимошенко. А от, скажімо, графік Тігіпка, з цієї точки зору - практично ідеальний.

Спостерігачам, від кого б вони не були, варто звернути увагу на дільниці з рівнем відвідуваності більше ніж 77%. З великою долею ймовірності, саме на них відбувалося спотворення результатів голосування.

Особливої уваги потребують невеликі дільниці, з кількістю виборців у декілька сотень чоловік і менше.

Однак в першу чергу, варто розібратися з дільницями, де відвідуваність була 100%.

Безумовно, на дільницях з 100% відвідуваністю відбувалося застосування адмін-ресурсу.

Не важливо, за кого змушували голосувати, однак голосувати точно змушували (або заповнювали всі невикористані бюлетні), інакше б не було так багато випадків 100% результату (дільниць із такою відвідуваністю повинно бути в десятки рази менше).

Така відвідуваність - це ненормально для демократичних виборів (див. графік з Мал. 1). Зрештою, ми все таки не Північна Корея, і люди не вибирають з одного кандидата на ім'я Кім Чен Ір.

Дякую всім, хто зміг дочитати до цього місця, і чекаємо на дані другого туру!

Далі буде...

P.S.: До речі, чи цікаво вам прочитати схожий аналіз по декількох регіонах?

Примітки

** Чому? Це потребує додаткового математичного аналізу, точніше мат. статистичної моделі

*** Модель, за якою підбирався ідеальний нормальний розподіл, потребує більш стійкого до зміни параметрів алгоритму.

Післямова №1

Хоча у назві статті і вживається - дещо претензійно - слово "математика", все ж таки це не математична стаття, а серія гіпотез. Автор відштовхувався від уже проведених досліджень, провів ряд експериментів з числами від ЦВК і оцінив рівень фальсифікацій, як міг.

Однак! На найбільш цікаві математичні питання, що виникають під час вивчення даних голосування, ця стаття відповіді не дає.

Наприклад, немає в статті доказу того, що на "чесних" виборах форма розподілу явки - симетричний "дзвін", або чому таку ж форму має графік сумарної кількості голосів, отриманих на дільницях з однаковим рівнем явки.

Експериментальні дані виборів у різних країнах підтверджують таку поведінку графіків, однак це не зовсім математика. Вочевидь, йдеться про застосування центральної граничної теореми, однак у який спосіб?

Післямова №2

Ця стаття не була б написана, якби не два open source інструменти: мова статистичної обробки даних R, за допомогою якої проводились числові експерименти, та мова програмування Ruby, на якій був написаний скрипт, що люб'язно скачав дані по 30+ тисяч дільницям з сайту ЦВК.

Ну і звичайно, хто б не був новим президентом, наша справа зробити так, щоб ми завжди мали доступ до даних із сайту ЦВК. Та з інших урядових сайтів також. Зрозуміло навіщо, правда?

Післямова №3

Один з читачів (що приємно, це один з авторів методик, що використані в статті ) звернув увагу на те, що ЦВК змінила формат результатів по дільницям - з них були прибрані дані по кількості зареєстрованих виборців. Поки ми будемо листуватися з ними, хочу викласти початковий варіант даних ЦВК, де є вся інформація.
Формат полей описаний у файлі README. У кожному файлі - дані по ТВО з номером, що дорівнює імені файла.

Дані по усіх дільницях

Нагадаю, що "анонімізовані" дані по всім дільницям ми вже виклали давно.

Післямова №4

Тепер на графіках можна подивитися самому, що у в різних регонах відбувалося з явкою, за допомогою онлайн-інструменту: http://zaua.org/mod/projects/elections/


Теги  наука, математика, вибори, фальсифікації

Цей матеріал відображає виключно думку автора. Офіційну позицію громадського руху «За Україну!» ви можете прочитати тут.




Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!

45 днів тому | +0 / -0

Дякую, цікаво!

У штабі Ю у 2004 році матаналізом явки виборців займався такий собі А. Кочетов. Цікаво було б його спостереження над минулим і сьогоденням порівняти!

45 днів тому | +0 / -0

1. Звернув увагу на те що до 2004 року явка наприклад у Луганській обл. процентів на 10% була нижчою ніж у Львівській. Після цього явки зрівнялись.
2. Так звана явка цей раз була меншою ніж на попередніх виборах, але вдома проголосувало майже така сама кількість виборців. Це є свідченням що цим процесом штучно керують.
Бізнес у наші

45 днів тому | +1 / -0

Цей коментар вилучено автором.

44 дні тому | +0 / -0

Донецька область.
2004 рік
2-й тур - 3 711 606 голосів
3-й тур - 3 143 730 голосів
2010 рік
1-й тур - 2 439 004 голоси

Із нетерпінням чекаю на 2-й тур для корректного порівняння.

44 дні тому | +0 / -0

Чудово! Дуже і дуже цікаво.
Якими б не були методи обробки даних, але велика кількість дільниць з 100 % явкою та кореляція між дільницями з аномально високою явкою та малою кількістю виборців, дуже цікава :).
І, звичайно, дуже цікавими були б дані по окремим регіонам. Так щоб можна було привязатись до адмінресурсу Тимошенко та Януковича. Це могло б стати чудовим підтвердженням методики автора :).

44 дні тому | +0 / -0

moar!
і взагалі, може всі ці скрипти якось оформити в пакет, покласти на сайт і ганяти по кожних наступних виборах? вийшов би гарний інструмент аналізу.



44 дні тому | +0 / -0

Прикольно! Можна ціми вторинними статевими ознаками лякати хоч кого, як це було з екзит-полами. І можна говорити про ембарго тим країнам, де ці горки не відповідають євростандартам, яки, звичайно, треба зробити. Треба визачити кожний кут до найменшої величини.

44 дні тому | +0 / -0

Чому на мал. 2 кількість дільниць зі 100% явкою асимптотично зростає до нескінченності?


44 дні тому | +0 / -0

На щастя, точка з x=100% - остання :) тому все таки не зросте. Однак (і про це в статті сказано) ці останні точки є найбільшими аномаліями в результатах виборів

43 дні тому | +0 / -0

А можно выложить в открытый доступ данные по участкам? Я поздно взялся скачивать, когда из окончательных данных уже убрали численность зарегистрированных избирателей. Или прислать - мой адрес есть в конце статьи http://podmoskovnik.livejournal.com/65386.html


43 дні тому | +0 / -0

Очень интересно!

Во-первых, я рад, что вы нашли эту статью.

Во-вторых, хорошо что сообщили о том, что ЦВК изменила формат данных в т ч убрала количество зарегистрированных избирателей. Мы попробуем с ними связаться, чтобы вернуть этот показатель.

Между тем, выкладываю данные по всем участкам здесь в статье, и отправляю вам на почту - будет интересно посмотреть на результаты вашего анализа.


42 дні тому | +0 / -0

Большое спасибо за данные. Ссылку увидел у kireev.livejournal.com, у него много географической аналитики, в т.ч.и по этим выборам. Если получится что-либо интересное - напишу. Хотя на первый взгляд картина почти идеальная.

39 днів тому | +0 / -0

Дякую за цікаву статтю і особливо за дані по дільницях.

Алe з вашими висновками погодитись нeможу.
Нeмає нінаймeнших підстав вважати що розподіл голосів відносно явки в Україні повинeн іти за Гаусівською кривою - в Україні традиційно є рeгіони з високою явкою(Галичина), причому різниця з іншими рeгіонами по явці завжди досить вeлика. Рeзультати добрe апроксимуються двома гаусіанами.
Досить інформативним в цьому плані є графік отриманого відсотку голосів розрахованого для кожної явки(наприклад чeрeз кожeн відсоток).
Для кандидатів які сприймаються нeтрально по всій Україні, цeй відсоток практично нeзалeжить від явки(~рeгіону).

Також цікавими в цьому плані є дільниці з 100% явкою. Я так розумію, що цe спeц дільниці. Можливо там і була пeвна спроба маніпулювати рeзультатами, алe показово що відсоток "проти всіх", для цих дільниць, значно вищий, ніж для дільниць з іншими явками. Що нe сприяє вeрсії про тотальні маніпуляції на цих дільницях.


39 днів тому | +0 / -0

Дякую за відгук, однак по суті з ним не згоден

Графіки говорять краще, ніж слова. А мал. 3 - все таки схожий на гауссіан, а не на два гаусіана, тощо. І це логічно - фактичо для розподілу дільниць по явці ми маємо досить добрі умови для застосування узагальненої ЦГТ - на кожній дільниці (це окремий експеримент) ми отримуємо явку як суму незалежних випадкових величин, нехай навіть і з різними розподіленнями в залежності від дільниці(округу, регіону).

(До речі, цікаво було б подивитися на вашу апрксимацію двома гаусіанами)

Далі, параграф що починається слів "Досить інформативним в цьому плані" - я чесно кажучи не зрозумів, до чого тут логічна прив'язка? До мого тексту, чи до вашого попереднього абзацу?

Справа в тому, що у мене графік з мал. 7 якраз і є те, що ви написали - лише не нормований на загальну кількість набраних голосів. Результат Тігіпка - майже ідеальний гаусс. А дивно схожі за поведінкою результати Я та Ю, які вибиваються за гауссіан на великих явках, нмд підтверджують мої висновки, що з цими діапазонами явки щось не так. В яких би регіонах це не було - тому що як ми знаємо, голосуючі регіони за Т та Я - різні, а аномалії на графіках - дуже схожі.

Що стосується 100% дільниць, то можливо ви звернули увагу, що я викорисовував слово "адмінресурс", а не тотальні маніпуляції. Тотальні маніпуляції - це ваш термін. Адмінресурс - поняття набагато більш гнучке - це наприклад примус голосувати весь особовий склад частини, навіть безвідносно за яку кандидатуру. Стосовно 100% дільниць я лише звернув увагу, що їх занадто багато. За великим рахунком, дільниці з явкою більше 97-98% треба взагалі викидати з розрахунку - кожна з них має свою історію, але я впевнений що це не історія демократичного голосування.

38 днів тому | +0 / -0

Вибачаюсь, я намагався стисло писати, а вийшло нeзрозуміло. Мій допис, після пeрших двох рeчeнь, напряму нe стосувався вашої статті, а був просто роздумами вголос. Пeрeчитавши, бачу, що фраза про 100% і тотальні маніпуляції сприямєттся як закид у вашу сторону, алe цe нe було моїм наміром – ця фраза приводилась як одна з можливих гіпотeз, алe я цe напряму нe озвучив. У вас стосовно 100% явки написано досить обeрeжно і вірно.

Стосовно ЦГТ. Вона ж стосується однієї випадкової змінної і достатньо вeликих вибірок. Ви ствeрджуєтe, що на кожній дільниці вимірюєтe одну і ту саму випадкову вeличину, а я ствeрджую, що в залeжності від рeгіону ви вимірюєтe різні випадкові вeлучини(хоч вони і названі однаково - явка), які мають нормальний розподіл, алe відносно різних сeрeдніх. Для інших країн цe як правило нe проблeма, бо різниця між рeгіонами нe вeлика, алe в Україні цe нe так, різниця між рeгіонами значна і самі ці рeгіони вeликі, і, відповідно, їх кількості нeдостатньо щоби дати нормальний розподіл загальної явки. Я привeду аналогію: якщо взяти рeзултати явки на виборах в Україні і Польщі і обєднати, ви ж нe будeтe очікувати нормального розподілу для обєднаного рeзультату? Він можe бути гаусівським, якщо сeрeдні явки близькі, алe можe і нe бути ним якщо сeрeдні досить різні. Алe якщо взяти і обєднати дані з явок для всього світу (крім Китаю звичайно:)) то, швидшe за всe, сумарнй розподіл вийдe гаусівським, бо вибірка в цьому випадку достатньо вeлика.
Стосовно фрази що починається зі слів "Досить інформативним в цьому плані", я мав на увазі нe нормалізацію за загальною кількістю голосів (що в принципі було би аналогічно до вашого мал 7), а за кількостю голосів в сeрeдині кожної 1% вибірки – тобто відносний розподіл голосів за кожного кандидата в залeжності від явки. В ідeалі, цeй відсоток голосів нe повинeн залeжати від явки і повинeн виглядати як пряма лінія, алe він міняється самe в районі високих явок. Якщо будe бажання проаналізуйтe ці графіки, мeні здeєттся що вони дають відповідь на більшість запитань стосовно відхилeння від нормального розподілу, включно з тим що голосуючі рeгіони для Т. та Я. різні, алe я нeхочу навязувати своєї думки і приводити свої висновки.

Стосовно двох гаусіан, то там нічого особливо цікавого нeмає(правда я порахував цe лишe для голосів Т.): дві різновeликі гаусівські криві в сумі дають розподіл для Т. з вашого мал.7. Я на вихідних спробую запостити малюнок, якщо цікаво.


37 днів тому | +0 / -0

Цей коментар вилучено модератором.


37 днів тому | +0 / -0

Поки що зауваження стосовно ЦГТ:

Результат класичної ЦГТ, кажучи по правді, є справедливим для ситуацій значно більш загальних, ніж повна незалежність і однакова розподіленість випадкових величин, які складають суму. А ми вимірюємо саме суму випадкових величин- у вигляді явки.

Однак не буду сперечатися далі, тому що усі мої аргументи і так видно, на графіку з мал. 3, який вже є в статті.

А от якщо побудувати розподіл явки по кожному кандидату (на скількох дільницях за кандидата Х проголосувало 1%, 2% , 3%, ... 100% виборців) - там дійсно з'являється цікава картинка. Грубо кажучи, можна припустити що там видно скільки для кожного з кандидатів є місцевостей, в яких він різко відрізняється по популярності. От там виникає щось схоже на суму гауссіанів, принаймні для Януоквича (3 різних регіони) Тимошенко (2 регіони), Тигіпко (2 регіони). Див. малюнок нижче, по всім кандидатам


Завантаження...

Інструменти для читача

Статті



Бомби напоготові. Технічні засоби терористів випереджають армійські

Враховуючи, що останнього «Оскара» дали за фільм про сапера, ми вирішили перекласти статтю з Економіста про технічне протистояння офіційної ВПК і дрібних груп терористів.
Створено 2 дні тому | 3 коментарі | +1 / -0

Уряд Азарова: хто всі ці люди? Кучмісти, донецькі, галичани і не тільки (+ ТРЕШ_ІНФОГРАФІКА)

Таємниць навколо формування коаліції більше немає: регіонали схиляли депутатів до дружби виключно грошима.
Створено 2 дні тому | 5 коментарів | +1 / -0

Навіть російські актори погидували знятися в антиукраїнській агітці, у якій знявся Ступка-молодший

В Україні періодично з'являється виготовлена в Росії "культурна продукція" - фільми, художня література тощо - в яких українці змальовані, м'яко кажучи, не найкращим чином.
Створено 2 дні тому | 17 коментарів | +1 / -0

Віце-прем'єр Борис Колесніков - про міністра освіти Дмитра Табачника

"Давайте поднимем вопрос об исключении этого дешевого клоуна Дмитрия Табачника.
Створено 3 дні тому | 2 коментарі | +0 / -0

Юридичний спротив: 3,40 грн - і позов проти коаліції (ПРЯМА ДІЯ) ОНОВЛЕНО

Один із варіантів чинити опір незаконній коаліції "тушками" (cтворення якої не підтримують 75,4% українців) - судитися.
Створено 3 дні тому | 3 коментарі | +1 / -0

Василь Шкляр: "1920-ті роки - то була українсько-російська війна"

Коли журналіст ZaUAorg розмовляв із Василем ШКЛЯРЕМ у його кабінеті в Спілці письменників, у двері постійно заглядали читачі його останнього роману - про Холодний Яр у 1920-тих.
Створено 3 дні тому | 18 коментарів | +5 / -0

Як нам українізувати Донбас і Одесу. Рецепт від російськомовного українця

Якщо українська мова - наша релігія, треба бути місіонерами, а не інквізиторами.
Створено 3 дні тому | 15 коментарів | +1 / -0

Сільськогосподарська земля давно в руках олігархів. Але легалізувати власність вони не хочуть

Українська еліта активно противиться легальному ринку землі, тому що основні доходи і можливості багатьох її представників грунтуються якраз на не легальному володінні землею.
Створено 4 дні тому | 5 коментарів | +4 / -0