در این بخش، مفهوم گرایش به مرکز (Central Tendency) و اهمیت آن در درک و خلاصهسازی دادهها را بررسی خواهیم کرد. همچنین سه شاخص اصلی گرایش به مرکز یعنی نما (Mode)، میانه (Median) و میانگین (Mean) را معرفی میکنیم.
گرایش به مرکز به مفهوم شناسایی یک مقدار منفرد اشاره دارد که «مرکز» یا «میانگین» یک مجموعه داده را نشان میدهد. این مفهوم روشی برای توصیف مقدار معمول یا مرکزی است که دادهها معمولاً حول آن متمرکز میشوند.
اندازهگیری گرایش به مرکز از چند جهت اهمیت دارد:
- خلاصهسازی دادهها: شاخصهای گرایش به مرکز به ما اجازه میدهند تا یک مجموعه داده بزرگ را با یک مقدار نماینده خلاصه کنیم؛ این امر درک و انتقال ویژگیهای کلی دادهها را آسانتر میسازد.
- مقایسه مجموعه دادهها: با محاسبه گرایش به مرکز در مجموعههای داده مختلف، میتوانیم آنها را با یکدیگر مقایسه کنیم و مشخص کنیم که کدام مجموعه بهطور متوسط مقادیر بالاتر یا پایینتری دارد.
- شناسایی الگوها: این شاخصها به ما کمک میکنند تا الگوها یا روندهایی در دادهها را تشخیص دهیم، مانند اینکه آیا دادهها بهطور مداوم زیاد، کم، یا حول یک مقدار خاص متمرکز هستند.
- تصمیمگیری: در بسیاری از حوزهها مانند کسبوکار، سلامت و علوم اجتماعی، از شاخصهای گرایش به مرکز برای اتخاذ تصمیمهای آگاهانه بر پایه مقادیر معمول یا میانگین دادهها استفاده میشود.
سه شاخص اصلی گرایش به مرکز عبارتاند از: نما (Mode)، میانه (Median) و میانگین (Mean). هرکدام ویژگیهای خاص خود را دارند و برای انواع مختلفی از دادهها و موقعیتها مناسب هستند.
- نما (Mode): مقداری است که در یک مجموعه داده بیشترین تکرار را دارد. این شاخص برای دادههای طبقهای (categorical) یا گسسته (discrete) بسیار مفید است.
- میانه (Median): مقدار میانی است که وقتی دادهها به ترتیب صعودی یا نزولی مرتب شوند، در وسط قرار میگیرد. میانه نسبت به مقادیر حدی (outliers) حساسیت کمتری دارد.
- میانگین (Mean): که به آن میانگین حسابی نیز گفته میشود، از طریق جمعکردن همه مقادیر و تقسیم بر تعداد آنها محاسبه میشود. این شاخص رایجترین روش اندازهگیری گرایش به مرکز برای دادههای پیوسته (continuous) است.
نما (Mode)
نما مقداری است که در یک مجموعه داده بیشترین تکرار را دارد. به بیان دیگر، نمای یک مجموعه داده، مقداری است که بیشترین فراوانی را دارد.
روش تعیین نما (Mode)
برای یافتن نما در یک مجموعه داده، مراحل زیر را دنبال کنید:
- مرتبسازی دادهها: مقادیر را بهصورت منظم مرتب کنید (مثلاً از کوچک به بزرگ یا براساس دستهها).
- شمارش فراوانی: تعداد دفعات تکرار هر مقدار را بشمارید.
- شناسایی مقدار با بیشترین فراوانی: مقداری (یا مقادیری) که بیشترین تعداد تکرار را دارند، نما هستند.
مثال ۱: مقدار نمای دادههای زیر را بیابید:
۵, ۲, ۸, ۵, ۱, ۵, ۳, ۲, ۵
مرحله ۱: مرتبسازی دادهها:
۱, ۲, ۲, ۳, ۵, ۵, ۵, ۵, ۸
مرحله ۲: شمارش فراوانی:
- ۱ یکبار ظاهر شده
- ۲ دو بار ظاهر شده
- ۳ یکبار ظاهر شده
- ۵ چهار بار ظاهر شده
- ۸ یکبار ظاهر شده
مرحله ۳: مقدار با بیشترین فراوانی:
نما = ۵، زیرا چهار بار تکرار شده است.
مثال ۲: مقدار نمای دادههای زیر را بیابید:
apple, banana, orange, grape, apple, banana, orange, grape, kiwi
مرحله ۱: مرتبسازی بر اساس دستهها:
apple, apple, banana, banana, grape, grape, kiwi, orange, orange
مرحله ۲: شمارش فراوانی:
- apple دو بار
- banana دو بار
- grape دو بار
- kiwi یکبار
- orange دو بار
مرحله ۳: شناسایی مقادیر با بیشترین فراوانی:
در این مجموعه داده، چهار نما وجود دارد: apple, banana, grape, orange، زیرا همگی دو بار ظاهر شدهاند.
مثالهایی از مجموعهدادههایی با یک نما، چند نما یا بدون نما
مجموعه دادهها ممکن است دارای یک نما (تکنما – Unimodal)، چند نما (دو نما – Bimodal یا چندنما – Multimodal)، یا بدون نما باشند.
- مجموعهداده تکنما (Unimodal):
به مجموعه نمرات زیر توجه کنید:
75, 80, 85, 90, 90, 90, 95
در این مجموعه، نما عدد 90 است، زیرا بیشترین تکرار (سه بار) را دارد. - مجموعهداده (Bimodal)
مجموعهای از رنگهای خودرو را در نظر بگیرید:
red, blue, green, blue, red, yellow, red, blue
در این مجموعه، دو نما وجود دارد: red و blue، زیرا هرکدام سه بار تکرار شدهاند. - مجموعهداده (Multimodal):
به مجموعه میوههای مورد علاقه زیر توجه کنید:
apple, banana, orange, grape, apple, banana, orange, grape, kiwi
در این مجموعه، چهار نما وجود دارد: apple، banana، orange و grape، زیرا هر کدام دو بار ظاهر شدهاند. - مجموعهداده بدون نما (No Mode):
مجموعهای از شماره خانهها:
1, 2, 3, 4, 5, 6, 7, 8, 9
در این مجموعه هیچ نمایی وجود ندارد، چون هر مقدار فقط یک بار ظاهر شده است.
مزایا و معایب استفاده از نما (Mode)
مزایا:
- محاسبه و درک آن ساده است.
- برای دادههای گسسته یا طبقهای مفید است.
- نسبت به مقادیر پرت (outliers) حساس نیست.
معایب:
- ممکن است وجود نداشته باشد یا یکتا نباشد (یعنی ممکن است داده بدون نما یا دارای چند نما باشد).
- فقط فراوانی را در نظر میگیرد، نه اندازه مقادیر را.
- اگر فراوانی مقادیر یکسان باشد، نما نماینده خوبی برای مجموعه داده نخواهد بود.
میانه (Median)
میانه مقدار میانی یک مجموعه داده است، زمانی که مقادیر به ترتیب صعودی یا نزولی مرتب شده باشند.
- اگر تعداد مقادیر فرد باشد، میانه مقدار وسطی است.
- اگر تعداد مقادیر زوج باشد، میانه میانگین دو مقدار میانی است.
روش یافتن میانه (Median)
روش محاسبه میانه بستگی به زوج یا فرد بودن تعداد مقادیر دارد:
زمانی که تعداد مقادیر فرد است:
- مقادیر را به ترتیب صعودی یا نزولی مرتب کنید.
- موقعیت میانه را با فرمول $\frac{n+1}{2}$ تعیین کنید (که در آن $n$ تعداد کل مقادیر است).
- مقدار واقعشده در موقعیت میانی، میانه است.
مثال: میانه مجموعه داده زیر را بیابید:
12, 7, 3, 9, 15
مرحله ۱: مرتبسازی: 3, 7, 9, 12, 15
مرحله ۲: موقعیت میانه: $\frac{5+1}{2} = 3$
مرحله ۳: مقدار در موقعیت سوم = ۹ ← میانه = ۹
زمانی که تعداد مقادیر زوج است:
- مقادیر را به ترتیب صعودی یا نزولی مرتب کنید.
- موقعیت دو مقدار میانی را با فرمولهایn/2 و (n/2)+1تعیین کنید.
- میانگین آن دو مقدار را محاسبه کنید تا میانه بهدست آید.
مثال: میانه مجموعه داده زیر را بیابید:
4, 7, 2, 9, 3, 8
مرحله ۱: مرتبسازی مقادیر به ترتیب صعودی:
2, 3, 4, 7, 8, 9
مرحله ۲: شناسایی دو موقعیت میانی:
$\frac{6}{2} = 3$ و $\frac{6}{2}+1 = 4$ ← موقعیتهای ۳ و ۴
مرحله ۳: محاسبه میانگین دو مقدار میانی:
$\frac{4+7}{2} = 5.5$ ← میانه = ۵٫۵
میانه برای دادههای رتبهای یا کیفی (Qualitative/Ranked)
در هنگام کار با دادههای کیفی یا رتبهای، میتوان به هر دسته یک رتبه عددی اختصاص داد و سپس مانند دادههای کمی، مراحل یافتن میانه را انجام داد.
مثال: میانه مجموعهداده زیر از اولویتهای رتبهبندی شده را بیابید:
A, C, B, A, D, B, A
مرحله ۱: اختصاص رتبه به دستهها:
A = 1, B = 2, C = 3, D = 4
مرحله ۲: تبدیل دادهها به رتبه و مرتبسازی:
1, 1, 1, 2, 2, 3, 4
مرحله ۳: شناسایی موقعیت میانی:
$\frac{7+1}{2} = 4$ ← موقعیت ۴
مرحله ۴: مقدار در موقعیت ۴ = ۲ ← که مربوط به دسته B است
میانه = B
مزایا و معایب استفاده از میانه (Median)
مزایا:
- نسبت به مقادیر پرت (outliers) کمتر حساس است.
- قابل استفاده برای دادههای رتبهای (ordinal) و دادههای فاصلهای/نسبتی (interval/ratio) است.
- میانگین medianهمیشه وجود دارد و مقدار یکتایی دارد.
معایب:
- فقط به موقعیت دادهها توجه دارد، نه به مقدار واقعی آنها.
- اگر دادهها بسیار نامتوازن یا دارای دامنه گسترده باشند، ممکن است نماینده خوبی نباشد.
- در مجموعهدادههای بزرگ، اگر دادهها مرتب نشده باشند، محاسبه آن زمانبر است.
میانگین (Mean)
میانگین که به آن میانگین حسابی (Arithmetic Average) نیز گفته میشود، از طریق تقسیم مجموع تمام مقادیر موجود در یک مجموعه داده بر تعداد کل مقادیر بهدست میآید.
میانگین نشاندهنده گرایش مرکزی دادههاست و رایجترین شاخص مورد استفاده در تحلیلهای آماری است.
فرمول محاسبه میانگین به این بستگی دارد که دادهها از یک نمونه (Sample) هستند یا از کل جامعه آماری (Population).
فرمول میانگین نمونه (Sample Mean)
برای یک نمونه، میانگین با نماد $\bar{x}$ (خوانده میشود «ایکسبار») نمایش داده میشود و با فرمول زیر محاسبه میگردد:
xˉ=∑i=1nxin\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}xˉ=n∑i=1nxi
که در آن:
- $x_i$ هر مقدار در مجموعه داده است
- $n$ تعداد کل مقادیر در نمونه است
- $\sum$ (سیگما) به معنای جمع تمام مقادیر است
فرمول میانگین جامعه (Population Mean)
برای یک جامعه آماری کامل، میانگین با نماد $\mu$ (خوانده میشود «مو») نمایش داده میشود و با فرمول زیر محاسبه میگردد:
μ=∑i=1NxiN\mu = \frac{\sum_{i=1}^{N} x_i}{N}μ=N∑i=1Nxi
که در آن:
- $x_i$ هر مقدار در مجموعه داده است
- $N$ تعداد کل مقادیر در جامعه آماری است
- $\sum$ مجموع تمام مقادیر را نشان میدهد
مثال: میانگین مجموعه داده زیر را محاسبه کنید:
4, 7, 2, 9, 3, 8
مرحله ۱: جمع همه مقادیر:
4 + 7 + 2 + 9 + 3 + 8 = 33
مرحله ۲: تقسیم مجموع بر تعداد مقادیر:
$\frac{33}{6} = 5.5$
مرحله ۳: میانگین = ۵٫۵
میانگین بهعنوان نقطه تعادل توزیع
میتوان میانگین را بهعنوان نقطه تعادل یک توزیع تصور کرد.
اگر مقادیر دادهها را روی یک خط عددی قرار دهیم، میانگین نقطهای است که اگر خط عددی را روی آن تکیه دهیم، به تعادل خواهد رسید؛ یعنی مجموع فاصلهها از میانگین در هر طرف برابر است.
حساسیت میانگین به مقادیر پرت (Outliers)
یکی از ویژگیهای مهم میانگین این است که به مقادیر پرت (بسیار بزرگ یا بسیار کوچک) حساس است. چون میانگین تمام مقادیر را در نظر میگیرد، حتی یک مقدار بسیار زیاد یا بسیار کم میتواند مقدار میانگین را بهطور چشمگیری تغییر دهد.
مثال: دو مجموعه داده زیر را مقایسه کنید:
- Dataset A: 4, 7, 2, 9, 3, 8 → میانگین = 5.5
- Dataset B: 4, 7, 2, 9, 3, 50 → میانگین = 12.5
در Dataset B، مقدار پرت ۵۰ باعث شده میانگین از ۵٫۵ به ۱۲٫۵ افزایش یابد و دیگر نماینده خوبی برای دادهها نیست.
مزایا و معایب استفاده از میانگین (Mean)
مزایا:
- میانگین، مقادیر واقعی تمام دادهها را در نظر میگیرد و دقت بالاتری دارد.
- برای دادههای فاصلهای یا نسبی (Interval/Ratio) مناسب است و در تحلیلهای آماری پیشرفته کاربرد دارد.
- به تغییرات در هر مقدار واکنش نشان میدهد.
معایب:
- نسبت به مقادیر پرت حساس است و ممکن است نماینده خوبی نباشد.
- برای توزیعهای بهشدت چولگیدار یا دارای دامنه بسیار بزرگ مناسب نیست.
- قابل محاسبه برای دادههای طبقهای یا ترتیبی (Ordinal/Nominal) نیست.
مقایسه نما، میانه و میانگین
نما (Mode)، میانه (Median) و میانگین (Mean) هر سه از شاخصهای گرایش به مرکز هستند، اما ویژگیهای متفاوتی دارند و برای انواع خاصی از دادهها و توزیعها مناسباند.
- نما (Mode):
بیشترین مقدار تکرارشده در یک مجموعه داده است.
تنها شاخصی است که برای دادههای اسمی (Nominal) قابل استفاده است.
با این حال، ممکن است نما وجود نداشته باشد یا یکتا نباشد. - میانه (Median):
مقدار میانی پس از مرتبسازی دادههاست.
نسبت به مقادیر پرت کمتر حساس است و برای دادههای ترتیبی (Ordinal) نیز مناسب است.
اما مقدار واقعی دادهها را در نظر نمیگیرد، فقط موقعیت آنها را
- میانگین: میانگین برابر است با مجموع همه مقادیر تقسیم بر تعداد کل مقادیر. این رایجترین معیار گرایش مرکزی است و مقادیر واقعی هر نقطه داده را در نظر میگیرد. با این حال، نسبت به مقادیر پرت (outlier) حساس است و تنها برای دادههای فاصلهای (interval) یا نسبتی (ratio) قابل استفاده است.
تفاوت بین میانگین و میانه در توزیعهای کجشده
توزیع کجشده (Skewed distribution) توزیعی است که نامتقارن بوده و دنباله توزیع به یک سمت کشیده شده است. در یک توزیع کجشده، میانگین و میانه میتوانند تفاوت زیادی داشته باشند و این تفاوت، اطلاعات مهمی در مورد ماهیت داده ارائه میدهد.
- توزیعهای با کجی مثبت (Positively skewed): در توزیعی با کجی مثبت، دنباله توزیع به سمت راست کشیده شده است و چند مقدار پرت با مقادیر بالا وجود دارد. عمده دادهها در سمت چپ توزیع متمرکز هستند. در این حالت، میانگین بیشتر از میانه خواهد بود، زیرا مقادیر پرت میانگین را به سمت راست میکشند.
مثال: مجموعه دادهای از درآمدها (به هزار): 20، 25، 30، 35، 40، 50، 100. این مجموعه داده دارای کجی مثبت است و دنباله آن به سمت راست کشیده شده است. میانگین درآمد برابر با 42.86 هزار دلار و میانه درآمد 35 هزار دلار است. مقدار پرت 100 باعث شده میانگین از میانه بالاتر برود.
- توزیعهای با کجی منفی (Negatively skewed): در توزیعی با کجی منفی، دنباله توزیع به سمت چپ کشیده شده است و چند مقدار پرت با مقادیر پایین وجود دارد. عمده دادهها در سمت راست توزیع متمرکز هستند. در این حالت، میانگین کمتر از میانه خواهد بود، زیرا مقادیر پرت میانگین را به سمت چپ میکشند.
مثال: مجموعهای از نمرات امتحان: 50، 60، 70، 75، 80، 85، 90، 95، 95. این مجموعه داده دارای کجی منفی است و دنباله آن به سمت چپ کشیده شده است. میانگین نمره برابر با 77.78 و میانه نمره 80 است. مقادیر پرت (50 و 60) میانگین را به سمت پایین کشیدهاند.
در توزیعهای کجشده، میانگین و میانه میتوانند بهطور قابل توجهی متفاوت باشند و این تفاوت بینش مهمی درباره طبیعت داده ارائه میدهد.
- توزیعهای با کجی مثبت: در این حالت، دنباله به سمت راست کشیده میشود و میانگین از میانه بیشتر است.
- توزیعهای با کجی منفی: در این حالت، دنباله به سمت چپ کشیده میشود و میانگین از میانه کمتر است.
موقعیتهایی که هر معیار مناسبتر است
- نما (Mode): نما زمانی بهترین انتخاب است که با دادههای اسمی (nominal) یا طبقهبندیشده (categorical) سر و کار داریم، یا وقتی میخواهیم رایجترین مقدار در مجموعه داده را شناسایی کنیم.
- میانه (Median): میانه زمانی مناسب است که دادهها شامل مقادیر پرت باشند، دادهها رتبهای (ordinal) باشند، یا توزیع دادهها کجشده باشد.
- میانگین (Mean): میانگین زمانی مناسب است که دادهها فاصلهای یا نسبتی باشند، توزیع دادهها متقارن یا نرمال باشد، و قصد داشته باشیم مقادیر واقعی هر نقطه داده را لحاظ کنیم.
در آمار استنباطی، میانگین بهدلیل ویژگیهای ریاضیاش و ارتباطش با توزیع نرمال، نقش مهمی ایفا میکند. بسیاری از آزمونهای آماری و فواصل اطمینان بر اساس میانگین نمونه طراحی شدهاند، که این موضوع نشاندهنده اهمیت بنیادین آن در استنباط آماری است. قضیه حد مرکزی (Central Limit Theorem) نیز که بیان میکند توزیع میانگینهای نمونه با افزایش حجم نمونه به سمت توزیع نرمال میل میکند، صرفنظر از شکل توزیع جامعه، اهمیت میانگین را بیشتر نشان میدهد. شما در جلسات آینده با این مفاهیم بیشتر آشنا خواهید شد.

