در این بخش، مفهوم گرایش به مرکز (Central Tendency) و اهمیت آن در درک و خلاصه‌سازی داده‌ها را بررسی خواهیم کرد. همچنین سه شاخص اصلی گرایش به مرکز یعنی نما (Mode)، میانه (Median) و میانگین (Mean) را معرفی می‌کنیم.

گرایش به مرکز به مفهوم شناسایی یک مقدار منفرد اشاره دارد که «مرکز» یا «میانگین» یک مجموعه داده را نشان می‌دهد. این مفهوم روشی برای توصیف مقدار معمول یا مرکزی است که داده‌ها معمولاً حول آن متمرکز می‌شوند.

اندازه‌گیری گرایش به مرکز از چند جهت اهمیت دارد:

  1. خلاصه‌سازی داده‌ها: شاخص‌های گرایش به مرکز به ما اجازه می‌دهند تا یک مجموعه داده بزرگ را با یک مقدار نماینده خلاصه کنیم؛ این امر درک و انتقال ویژگی‌های کلی داده‌ها را آسان‌تر می‌سازد.
  2. مقایسه مجموعه‌ داده‌ها: با محاسبه گرایش به مرکز در مجموعه‌های داده مختلف، می‌توانیم آن‌ها را با یکدیگر مقایسه کنیم و مشخص کنیم که کدام مجموعه به‌طور متوسط مقادیر بالاتر یا پایین‌تری دارد.
  3. شناسایی الگوها: این شاخص‌ها به ما کمک می‌کنند تا الگوها یا روندهایی در داده‌ها را تشخیص دهیم، مانند اینکه آیا داده‌ها به‌طور مداوم زیاد، کم، یا حول یک مقدار خاص متمرکز هستند.
  4. تصمیم‌گیری: در بسیاری از حوزه‌ها مانند کسب‌وکار، سلامت و علوم اجتماعی، از شاخص‌های گرایش به مرکز برای اتخاذ تصمیم‌های آگاهانه بر پایه مقادیر معمول یا میانگین داده‌ها استفاده می‌شود.

سه شاخص اصلی گرایش به مرکز عبارت‌اند از: نما (Mode)، میانه (Median) و میانگین (Mean). هرکدام ویژگی‌های خاص خود را دارند و برای انواع مختلفی از داده‌ها و موقعیت‌ها مناسب هستند.

  1. نما (Mode): مقداری است که در یک مجموعه داده بیشترین تکرار را دارد. این شاخص برای داده‌های طبقه‌ای (categorical) یا گسسته (discrete) بسیار مفید است.
  2. میانه (Median): مقدار میانی است که وقتی داده‌ها به ترتیب صعودی یا نزولی مرتب شوند، در وسط قرار می‌گیرد. میانه نسبت به مقادیر حدی (outliers) حساسیت کمتری دارد.
  3. میانگین (Mean): که به آن میانگین حسابی نیز گفته می‌شود، از طریق جمع‌کردن همه مقادیر و تقسیم بر تعداد آن‌ها محاسبه می‌شود. این شاخص رایج‌ترین روش اندازه‌گیری گرایش به مرکز برای داده‌های پیوسته (continuous) است.

 

نما (Mode)

نما مقداری است که در یک مجموعه داده بیشترین تکرار را دارد. به بیان دیگر، نمای یک مجموعه داده، مقداری است که بیشترین فراوانی را دارد.

روش تعیین نما (Mode)

برای یافتن نما در یک مجموعه داده، مراحل زیر را دنبال کنید:

  1. مرتب‌سازی داده‌ها: مقادیر را به‌صورت منظم مرتب کنید (مثلاً از کوچک به بزرگ یا براساس دسته‌ها).
  2. شمارش فراوانی: تعداد دفعات تکرار هر مقدار را بشمارید.
  3. شناسایی مقدار با بیشترین فراوانی: مقداری (یا مقادیری) که بیشترین تعداد تکرار را دارند، نما هستند.

 

مثال ۱: مقدار نمای داده‌های زیر را بیابید:

۵, ۲, ۸, ۵, ۱, ۵, ۳, ۲, ۵

مرحله ۱: مرتب‌سازی داده‌ها:
۱, ۲, ۲, ۳, ۵, ۵, ۵, ۵, ۸

مرحله ۲: شمارش فراوانی:

  • ۱ یک‌بار ظاهر شده
  • ۲ دو بار ظاهر شده
  • ۳ یک‌بار ظاهر شده
  • ۵ چهار بار ظاهر شده
  • ۸ یک‌بار ظاهر شده

مرحله ۳: مقدار با بیشترین فراوانی:
نما = ۵، زیرا چهار بار تکرار شده است.

 

مثال ۲: مقدار نمای داده‌های زیر را بیابید:

apple, banana, orange, grape, apple, banana, orange, grape, kiwi

مرحله ۱: مرتب‌سازی بر اساس دسته‌ها:
apple, apple, banana, banana, grape, grape, kiwi, orange, orange

مرحله ۲: شمارش فراوانی:

  • apple دو بار
  • banana دو بار
  • grape دو بار
  • kiwi یک‌بار
  • orange دو بار

مرحله ۳: شناسایی مقادیر با بیشترین فراوانی:
در این مجموعه داده، چهار نما وجود دارد: apple, banana, grape, orange، زیرا همگی دو بار ظاهر شده‌اند.

مثال‌هایی از مجموعه‌داده‌هایی با یک نما، چند نما یا بدون نما

مجموعه داده‌ها ممکن است دارای یک نما (تک‌نماUnimodal)، چند نما (دو نماBimodal یا چندنماMultimodal)، یا بدون نما باشند.

  1. مجموعه‌داده تک‌نما (Unimodal):
    به مجموعه نمرات زیر توجه کنید:
    75, 80, 85, 90, 90, 90, 95
    در این مجموعه، نما عدد 90 است، زیرا بیشترین تکرار (سه بار) را دارد.
  2. مجموعه‌داده (Bimodal)
    مجموعه‌ای از رنگ‌های خودرو را در نظر بگیرید:
    red, blue, green, blue, red, yellow, red, blue
    در این مجموعه، دو نما وجود دارد: red و blue، زیرا هرکدام سه بار تکرار شده‌اند.
  3. مجموعه‌داده (Multimodal):
    به مجموعه میوه‌های مورد علاقه زیر توجه کنید:
    apple, banana, orange, grape, apple, banana, orange, grape, kiwi
    در این مجموعه، چهار نما وجود دارد: apple، banana، orange و grape، زیرا هر کدام دو بار ظاهر شده‌اند.
  4. مجموعه‌داده بدون نما (No Mode):
    مجموعه‌ای از شماره خانه‌ها:
    1, 2, 3, 4, 5, 6, 7, 8, 9
    در این مجموعه هیچ نمایی وجود ندارد، چون هر مقدار فقط یک بار ظاهر شده است.

 

مزایا و معایب استفاده از نما (Mode)

مزایا:

  • محاسبه و درک آن ساده است.
  • برای داده‌های گسسته یا طبقه‌ای مفید است.
  • نسبت به مقادیر پرت (outliers) حساس نیست.

معایب:

  • ممکن است وجود نداشته باشد یا یکتا نباشد (یعنی ممکن است داده بدون نما یا دارای چند نما باشد).
  • فقط فراوانی را در نظر می‌گیرد، نه اندازه مقادیر را.
  • اگر فراوانی مقادیر یکسان باشد، نما نماینده خوبی برای مجموعه داده نخواهد بود.

 

میانه (Median)

میانه مقدار میانی یک مجموعه داده است، زمانی که مقادیر به ترتیب صعودی یا نزولی مرتب شده باشند.

  • اگر تعداد مقادیر فرد باشد، میانه مقدار وسطی است.
  • اگر تعداد مقادیر زوج باشد، میانه میانگین دو مقدار میانی است.

 

 

 روش یافتن میانه (Median)

روش محاسبه میانه بستگی به زوج یا فرد بودن تعداد مقادیر دارد:

زمانی که تعداد مقادیر فرد است:

  1. مقادیر را به ترتیب صعودی یا نزولی مرتب کنید.
  2. موقعیت میانه را با فرمول $\frac{n+1}{2}$ تعیین کنید (که در آن $n$ تعداد کل مقادیر است).
  3. مقدار واقع‌شده در موقعیت میانی، میانه است.

مثال: میانه مجموعه داده زیر را بیابید:
12, 7, 3, 9, 15

مرحله ۱: مرتب‌سازی: 3, 7, 9, 12, 15
مرحله ۲: موقعیت میانه: $\frac{5+1}{2} = 3$
مرحله ۳: مقدار در موقعیت سوم = ۹ میانه = ۹

 

زمانی که تعداد مقادیر زوج است:

  1. مقادیر را به ترتیب صعودی یا نزولی مرتب کنید.
  2. موقعیت دو مقدار میانی را با فرمول‌هایn/2  و (n/2)+1تعیین کنید.
  3. میانگین آن دو مقدار را محاسبه کنید تا میانه به‌دست آید.

مثال: میانه مجموعه داده زیر را بیابید:

4, 7, 2, 9, 3, 8

مرحله ۱: مرتب‌سازی مقادیر به ترتیب صعودی:
2, 3, 4, 7, 8, 9

مرحله ۲: شناسایی دو موقعیت میانی:
$\frac{6}{2} = 3$
و $\frac{6}{2}+1 = 4$ ← موقعیت‌های ۳ و ۴

مرحله ۳: محاسبه میانگین دو مقدار میانی:
$\frac{4+7}{2} = 5.5$ ←
میانه = ۵٫۵

 

میانه برای داده‌های رتبه‌ای یا کیفی (Qualitative/Ranked)

در هنگام کار با داده‌های کیفی یا رتبه‌ای، می‌توان به هر دسته یک رتبه عددی اختصاص داد و سپس مانند داده‌های کمی، مراحل یافتن میانه را انجام داد.

مثال: میانه مجموعه‌داده زیر از اولویت‌های رتبه‌بندی شده را بیابید:
A, C, B, A, D, B, A

مرحله ۱: اختصاص رتبه به دسته‌ها:
A = 1, B = 2, C = 3, D = 4

مرحله ۲: تبدیل داده‌ها به رتبه و مرتب‌سازی:
1, 1, 1, 2, 2, 3, 4

مرحله ۳: شناسایی موقعیت میانی:
$\frac{7+1}{2} = 4$ ←
موقعیت ۴

مرحله ۴: مقدار در موقعیت ۴ = ۲ که مربوط به دسته B است
میانه = B

 

مزایا و معایب استفاده از میانه (Median)

مزایا:

  • نسبت به مقادیر پرت (outliers) کمتر حساس است.
  • قابل استفاده برای داده‌های رتبه‌ای (ordinal) و داده‌های فاصله‌ای/نسبتی (interval/ratio) است.
  • میانگین  medianهمیشه وجود دارد و مقدار یکتایی دارد.

معایب:

  • فقط به موقعیت داده‌ها توجه دارد، نه به مقدار واقعی آن‌ها.
  • اگر داده‌ها بسیار نامتوازن یا دارای دامنه گسترده باشند، ممکن است نماینده خوبی نباشد.
  • در مجموعه‌داده‌های بزرگ، اگر داده‌ها مرتب نشده باشند، محاسبه آن زمان‌بر است.

 

میانگین (Mean)

میانگین که به آن میانگین حسابی (Arithmetic Average) نیز گفته می‌شود، از طریق تقسیم مجموع تمام مقادیر موجود در یک مجموعه داده بر تعداد کل مقادیر به‌دست می‌آید.

میانگین نشان‌دهنده گرایش مرکزی داده‌هاست و رایج‌ترین شاخص مورد استفاده در تحلیل‌های آماری است.

فرمول محاسبه میانگین به این بستگی دارد که داده‌ها از یک نمونه (Sample) هستند یا از کل جامعه آماری (Population).

 

فرمول میانگین نمونه (Sample Mean)

برای یک نمونه، میانگین با نماد $\bar{x}$ (خوانده می‌شود «ایکس‌بار») نمایش داده می‌شود و با فرمول زیر محاسبه می‌گردد:

xˉ=∑i=1nxin\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}xˉ=n∑i=1nxi​​

که در آن:

  • $x_i$ هر مقدار در مجموعه داده است
  • $n$ تعداد کل مقادیر در نمونه است
  • $\sum$ (سیگما) به معنای جمع تمام مقادیر است

 

فرمول میانگین جامعه (Population Mean)

برای یک جامعه آماری کامل، میانگین با نماد $\mu$ (خوانده می‌شود «مو») نمایش داده می‌شود و با فرمول زیر محاسبه می‌گردد:

μ=∑i=1NxiN\mu = \frac{\sum_{i=1}^{N} x_i}{N}μ=N∑i=1Nxi​​

که در آن:

  • $x_i$ هر مقدار در مجموعه داده است
  • $N$ تعداد کل مقادیر در جامعه آماری است
  • $\sum$ مجموع تمام مقادیر را نشان می‌دهد

 

مثال: میانگین مجموعه داده زیر را محاسبه کنید:

4, 7, 2, 9, 3, 8

مرحله ۱: جمع همه مقادیر:
4 + 7 + 2 + 9 + 3 + 8 = 33

مرحله ۲: تقسیم مجموع بر تعداد مقادیر:
$\frac{33}{6} = 5.5$

مرحله ۳: میانگین = ۵٫۵

 

میانگین به‌عنوان نقطه تعادل توزیع

می‌توان میانگین را به‌عنوان نقطه تعادل یک توزیع تصور کرد.
اگر مقادیر داده‌ها را روی یک خط عددی قرار دهیم، میانگین نقطه‌ای است که اگر خط عددی را روی آن تکیه دهیم، به تعادل خواهد رسید؛ یعنی مجموع فاصله‌ها از میانگین در هر طرف برابر است.

 

حساسیت میانگین به مقادیر پرت (Outliers)

یکی از ویژگی‌های مهم میانگین این است که به مقادیر پرت (بسیار بزرگ یا بسیار کوچک) حساس است. چون میانگین تمام مقادیر را در نظر می‌گیرد، حتی یک مقدار بسیار زیاد یا بسیار کم می‌تواند مقدار میانگین را به‌طور چشم‌گیری تغییر دهد.

مثال: دو مجموعه داده زیر را مقایسه کنید:

  • Dataset A: 4, 7, 2, 9, 3, 8 → میانگین = 5.5
  • Dataset B: 4, 7, 2, 9, 3, 50 → میانگین = 12.5

در Dataset B، مقدار پرت ۵۰ باعث شده میانگین از ۵٫۵ به ۱۲٫۵ افزایش یابد و دیگر نماینده خوبی برای داده‌ها نیست.

 

مزایا و معایب استفاده از میانگین (Mean)

مزایا:

  • میانگین، مقادیر واقعی تمام داده‌ها را در نظر می‌گیرد و دقت بالاتری دارد.
  • برای داده‌های فاصله‌ای یا نسبی (Interval/Ratio) مناسب است و در تحلیل‌های آماری پیشرفته کاربرد دارد.
  • به تغییرات در هر مقدار واکنش نشان می‌دهد.

معایب:

  • نسبت به مقادیر پرت حساس است و ممکن است نماینده خوبی نباشد.
  • برای توزیع‌های به‌شدت چولگی‌دار یا دارای دامنه بسیار بزرگ مناسب نیست.
  • قابل محاسبه برای داده‌های طبقه‌ای یا ترتیبی (Ordinal/Nominal) نیست.

 

مقایسه نما، میانه و میانگین

نما (Mode)، میانه (Median) و میانگین (Mean) هر سه از شاخص‌های گرایش به مرکز هستند، اما ویژگی‌های متفاوتی دارند و برای انواع خاصی از داده‌ها و توزیع‌ها مناسب‌اند.

  • نما (Mode):
    بیشترین مقدار تکرار‌شده در یک مجموعه داده است.
    تنها شاخصی است که برای داده‌های اسمی (Nominal) قابل استفاده است.
    با این حال، ممکن است نما وجود نداشته باشد یا یکتا نباشد.
  • میانه (Median):
    مقدار میانی پس از مرتب‌سازی داده‌هاست.
    نسبت به مقادیر پرت کمتر حساس است و برای داده‌های ترتیبی (Ordinal) نیز مناسب است.
    اما مقدار واقعی داده‌ها را در نظر نمی‌گیرد، فقط موقعیت آن‌ها را
  • میانگین: میانگین برابر است با مجموع همه مقادیر تقسیم بر تعداد کل مقادیر. این رایج‌ترین معیار گرایش مرکزی است و مقادیر واقعی هر نقطه داده را در نظر می‌گیرد. با این حال، نسبت به مقادیر پرت (outlier) حساس است و تنها برای داده‌های فاصله‌ای (interval) یا نسبتی (ratio) قابل استفاده است.

تفاوت بین میانگین و میانه در توزیع‌های کج‌شده

توزیع کج‌شده (Skewed distribution) توزیعی است که نامتقارن بوده و دنباله توزیع به یک سمت کشیده شده است. در یک توزیع کج‌شده، میانگین و میانه می‌توانند تفاوت زیادی داشته باشند و این تفاوت، اطلاعات مهمی در مورد ماهیت داده ارائه می‌دهد.

  • توزیع‌های با کجی مثبت (Positively skewed): در توزیعی با کجی مثبت، دنباله توزیع به سمت راست کشیده شده است و چند مقدار پرت با مقادیر بالا وجود دارد. عمده داده‌ها در سمت چپ توزیع متمرکز هستند. در این حالت، میانگین بیشتر از میانه خواهد بود، زیرا مقادیر پرت میانگین را به سمت راست می‌کشند.

مثال: مجموعه داده‌ای از درآمدها (به هزار): 20، 25، 30، 35، 40، 50، 100. این مجموعه داده دارای کجی مثبت است و دنباله آن به سمت راست کشیده شده است. میانگین درآمد برابر با 42.86 هزار دلار و میانه درآمد 35 هزار دلار است. مقدار پرت 100 باعث شده میانگین از میانه بالاتر برود.

  • توزیع‌های با کجی منفی (Negatively skewed): در توزیعی با کجی منفی، دنباله توزیع به سمت چپ کشیده شده است و چند مقدار پرت با مقادیر پایین وجود دارد. عمده داده‌ها در سمت راست توزیع متمرکز هستند. در این حالت، میانگین کمتر از میانه خواهد بود، زیرا مقادیر پرت میانگین را به سمت چپ می‌کشند.

مثال: مجموعه‌ای از نمرات امتحان: 50، 60، 70، 75، 80، 85، 90، 95، 95. این مجموعه داده دارای کجی منفی است و دنباله آن به سمت چپ کشیده شده است. میانگین نمره برابر با 77.78 و میانه نمره 80 است. مقادیر پرت (50 و 60) میانگین را به سمت پایین کشیده‌اند.

در توزیع‌های کج‌شده، میانگین و میانه می‌توانند به‌طور قابل توجهی متفاوت باشند و این تفاوت بینش مهمی درباره طبیعت داده ارائه می‌دهد.

  • توزیع‌های با کجی مثبت: در این حالت، دنباله به سمت راست کشیده می‌شود و میانگین از میانه بیشتر است.
  • توزیع‌های با کجی منفی: در این حالت، دنباله به سمت چپ کشیده می‌شود و میانگین از میانه کمتر است.

موقعیت‌هایی که هر معیار مناسب‌تر است

  • نما (Mode): نما زمانی بهترین انتخاب است که با داده‌های اسمی (nominal) یا طبقه‌بندی‌شده (categorical) سر و کار داریم، یا وقتی می‌خواهیم رایج‌ترین مقدار در مجموعه داده را شناسایی کنیم.
  • میانه (Median): میانه زمانی مناسب است که داده‌ها شامل مقادیر پرت باشند، داده‌ها رتبه‌ای (ordinal) باشند، یا توزیع داده‌ها کج‌شده باشد.
  • میانگین (Mean): میانگین زمانی مناسب است که داده‌ها فاصله‌ای یا نسبتی باشند، توزیع داده‌ها متقارن یا نرمال باشد، و قصد داشته باشیم مقادیر واقعی هر نقطه داده را لحاظ کنیم.

در آمار استنباطی، میانگین به‌دلیل ویژگی‌های ریاضی‌اش و ارتباطش با توزیع نرمال، نقش مهمی ایفا می‌کند. بسیاری از آزمون‌های آماری و فواصل اطمینان بر اساس میانگین نمونه طراحی شده‌اند، که این موضوع نشان‌دهنده اهمیت بنیادین آن در استنباط آماری است. قضیه حد مرکزی (Central Limit Theorem) نیز که بیان می‌کند توزیع میانگین‌های نمونه با افزایش حجم نمونه به سمت توزیع نرمال میل می‌کند، صرف‌نظر از شکل توزیع جامعه، اهمیت میانگین را بیشتر نشان می‌دهد. شما در جلسات آینده با این مفاهیم بیشتر آشنا خواهید شد.