یک رگرسیون گمراه‌کننده


Iran's election results were reported by its Interior Ministry in six waves. The first wave covered about one-third of the total vote; there were then two relatively large waves that reported about 20 percent of the vote each, and then three smaller waves that reported the remainder of the vote. What other observers have found is that, over the course of the six waves, there is an extremely strong, linear relationship between the number of votes reported for Ahmadinejad and the number reported for his principal opponent, Mir Hussein Moussavi (who had declared victory before any results were officially announced):


This relationship is superficially very impressive -- an R-squared of .998, which suggests a nearly perfect relationship.

Just how remarkable really is it, however? Rather than deal in abstractions, let's try a more concrete sort of experiment. Suppose that results from last November's election between Barack Obama and John McCain were revealed in this fashion, in six large waves. Suppose moreover that these waves were determined based on the alphabetical ordering of the states:

Wave 1: Results from Alabama-Illinois are reported; this represents about 33% of the total vote.
Wave 2: Results from Indiana-Mississippi (17% of the total vote) are added to the above totals.
Wave 3: Results from Missouri-North Carolina (19%) are added.
Wave 4: Results from North Dakota-Pennsylvania (12%) are added.
Wave 5: Results from Rhode Island-Texas (10%) are added.
Wave 6: Lastly, results from Utah-Wyoming (9%) are added and the counting is complete.

If results were released in this fashion, here is what we would get for the total number of votes for Obama and McCain at each stage:

Now, let's plot these on a graph:


Wow! The correlation is extremely high -- an R-Squared of .9959 -- almost as high as the one we saw for Iran. Does that mean the U.S. election was rigged too?

Of course not. The apparently extremely strong relationship is mostly an artifact of the exceptionally simple fact that as you count more votes, both candidates' totals will tend to increase. In our example, Wave 5 happens to be a very good one for McCain: it contains the results from South Carolina, South Dakota, Tennessee and Texas -- four red states -- plus Rhode Island, which went for Obama but contains a tiny number of votes. And yet, the impact of Wave 5 is barely visible when the results are presented in this fashion.

Likewise, there was more wave-to-wave variation in the Ahmadinejad-Moosavi results than the statistical analysis I cited above seems to imply. Ignoring votes for minor candidates, Ahmadinejad won a high of 70.4 percent of the votes in Wave 1, and a low of 62.3 percent in the votes newly added in Wave 6. By comparison, Obama's share of the newly-added votes in our experiment ranged from 56.4 percent in Wave 3 to 44.7 percent in Wave 4. That's slightly more variance than we saw in the Iranian results but not much.


Source:
http://www.fivethirtyeight.com

ترجمه

تحلیل‌های آماری مبنی بر تقلب در انتخابات ایران معیوب است

 

تحلیلی آماری ارایه شده است که از آن به عنوان مدرک تقلب در انتخابات ایران یاد می‌شود. این تحلیل قانع‌کننده نیست.

نتایج انتخابات توسط وزارت کشور ایران در شش زمان جداگانه اعلام شد. اولین بار اعلام، تقریبا یک سوم کل آرا را شامل می‌شد. بعد از آن دو بار اعلام نتایج انتخابات داشتیم که هر کدام تقریبا 20 درصد آرا را شامل می‌شدند و سرانجام سه بار اعلام نتایج دیگر داشتیم که باقیمانده آرای شمارش شده را شامل می‌شدند. بنابر تحلیل‌ها، وجود رابطه خطی قوی میان آرای احمدی نژاد و رقیب اصلی او موسوی ( که قبل از انتخابات پیروزی خود را اعلام کرده بود) نشانگر تقلب در انتخابات ایران است.

 

 

 


ضریب رگرسیونی بالا (R2 = 0.998) نشان‌دهنده یک رابطه تقریبا کامل است.

این مساله تا چه اندازه واقعا قابل توجه است. اجازه بدهید بر تجاربمان متمرکز شویم. فرض کنید که نتایج انتخابات نوامبر ایالات متحده بین باراک اوباما و جان مک‌کین به همان ترتیب انتخابات ایران در شش مرتبه اعلام شود. فرض کنید که این نتایج به ترتیب الفبایی ایالت‌های مختلف اعلام شود.

دفعه اول: نتایج آلاباما تا ایلینوی گزارش می‌شود. این مرحله 33 درصد آرا را شامل می‌شود.
دفعه دوم: نتایج ایندیانا تا میسیسیپی اعلام می‌شود. 17 درصد دیگر
دفعه دوم: نتایج میسوری تا کارولینای شمالی اعلام می‌شود. 19 درصد دیگر
دفعه دوم: نتایج داکوتای شمالی تا پنسیلوانیا اعلام می‌شود. 10 درصد دیگر
دفعه دوم: نتایج یوتا تا ویومینگ اعلام می‌شود. 9 درصد باقیمانده

اگر نتایج به این ترتیب اعلام شود، شکل زیر را برای کل آرای رقابت اوباما - مک کین خواهیم داشت. R2 = 0.996

 

 


آیا این نشان می‌دهد که در انتخابات ایالات متحده تقلب صورت گرفته است؟

البته که نه. این رابطه ظاهرا قوی تنها به خاطر این واقعیت ساده است که هرچه قدر رای های بیشتری شمرده می‌شود،  جمع کل آرای دو نامزد هم افزایش می‌یابد. در مثال ما، در بار پنجم اعلام آرا که یک نتیجه خیلی خوب برای مک کین است و آرای کمی به اوباما تعلق گرفته است، این مرحله در نمودار به چشم نمی‌آید.

به همین ترتیب در مورد واریانس اعلام نتایج از یک دفعه به دفعه دیگر نیز می‌توان به صورت بالا اعلام نظر کرد. با چشم پوشی از آرای نامزدهای دارای آرای کم، آرای احمدی نژاد در بار اول 70.4 و در بار ششم، 62.3 درصد بوده است. اگر با مورد امریکا مقایسه کنیم،  آرای اوباما در دفعه سوم اعلام نتایج، 56.4 درصد و در دفعه چهارم 44.7 درصد بوده است که البته اندکی از واریانس نتایج ایران بیشتر بوده است.

 

مرتبط
A Misleading Curve - منحنی گمراه‌کننده
انحراف معیار آرای اعلام شده مشکل دار بود؟

/ 0 نظر / 14 بازدید