نوشته و تهیه شده توسط: حسین ضرغامی

منبع: سایت های مختلف

 مقدمه

 از دیرباز استفاده از نمادها و اشکال گوناگون برای انتقال اطلاعات و دانش در میان انسان‌ها رواج داشته است. از نقش و نمادهای کنده‌کاری‌شده روی دیواره‌های غارها گرفته تا استفاده از نمادهای قبیله‌ای دلالت بر جایگاه تصاویر و دیدن در میان بشر دارد. بعضی از این تصاویر انصافاً شباهت زیادی به نمودارها دارند. خط (مانند خطی میخی) هم نوعی بصری‌سازی به شمار می‌رفت که طی سالیان دراز به شکل امروزی درآمده است. 

 

رواج استفاده از یک استاندارد جهانی برای نمایش مفاهیم، پیام‌ها، داده‌ها و اطلاعات به قرن هفدهم میلادی برگردد. در آن زمان نمودارهای دایره‌ای (شبیه شیرینی پای) توسعه پیدا کردند. پس از آن به‌مرور انواع نمودار طراحی و به کار گرفته شدند.

 

برای درک کاربرد نمودارها و علت توجه زیاد به آن‌ها کافی است به دنبال پاسخی برای این سؤال مهم گشت:

 

«چه باید کرد اگر قرار باشد حجم عظیمی از اطلاعات در کمترین زمان ممکن در اختیار مخاطب قرار بگیرد؟»

 

دیدن و تماشا کردن اشکال و نمادها، راحت‌تر و سریع‌تر از خواندن خط است. بنابراین مطمئناً ابزاری گرافیکی که بتواند اطلاعات را به گویاترین و کم‌حجم‌ترین شکل ارائه دهد کاربرد خواهد داشت. ازاین‌رو امروزه نمودارها جایگاه ویژه‌ای در گزارش‌دهی و اطلاع‌رسانی دارند. نمودارها طوری طراحی ‌شده و مورد استفاده قرار می‌گیرند که به راحتی درک مناسبی از داده و ارتباط میان آن‌ها در مخاطب ایجاد کنند. درک پراکندگی گونه‌های گیاهی، اطلاع از نقشه‌های هواشناسی، پیدا کردن مسیر روی نقشه مترو و پیش‌بینی قیمت کالاها در روزهای آتی با بررسی روند تغییر قیمت آن‌ها همگی اشاره به کاربردهای گوناگون ابزار گرافیکی دارند.

 

گردآوری و تنظیم داده ها نخستین مرحله مطالعات آماری است. هنگامی که داده ها گردآوری شد باید تحت نظم خاصی قرار گیرد تا بتوان به آسانی نتایج لازم را از آنها استخراج کرد. یکی از روش های مناسب برای تنظیم و نمایش داده های آماری، علاوه بر جداول فراوانی، رسم نمودارهای مختلف است. نمودارها تصاویری هستند که می توانند اطلاعات موجود را به سرعت در معرض دید قرار دهند، شنیده اید که می گویند: یک تصویر خوب ارزش هزار کلمه را دارد. با دیدن یک نمودار در یک نگاه می توان به بسیاری از ویژگی های مجموعه ای از اطلاعات پی برد. امروزه استفاده از نمودارها بسیار رایج است. نمودار یا منحنی اطلاعات عددی و آماری را به صورت منظم نشان می دهد و ارتباط دو یا چند عامل را ترسیم می کند. استفاده از نمودار می تواند بررسی اطلاعات مختلف را تسهیل کند. در صورتی که نمودارها یکسان و یک شکل باشند، سبب خستگی و ملالت خاطر می شوند، به همین سبب، سعی می شود آنها را متنوع تهیه کنند و از هاشورها و رنگ ها بهره بگیرند تا جلوه بصری بهتری داشته باشند. نمودارها وسیله بسیار خوبی برای جلب خوانندگان یک مقاله یا کتاب علمی هستند و می توان از آنها در زمینه های بهره گرفت. آنها بخش مهمی از علم آمار به حساب می آیند که بر ارائه یافته های آماری به شکل تصویری یا بصری تأکید می کنند.

 

 در آموزش به کودکان نیز می توان از نمودارهای خاص و قابل فهم برای گروه سنی مرتبط با آنها بهره گرفت. این نمودارها باید تا حد امکان ساده باشند و مقصود را به راحتی منتقل کنند. از این رو، ترجیح داده می شود که نمودارها واضح، روشن، رنگی و دارای رنگ ها و علائم شاد باشند تا نظر این گروه از مخاطبان را جلب کنند. نمودار وسیله ای است که داده های آماری را به صورت مجسّم نشان می دهد. هرگاه نمودارها با مهارت به کار گرفته شوند، جنبه هایی از داده ها را مجسم می کنند که به روشنی و به آسانی فهمیده می شوند.

 

نمودار تصویری است که دگرگونی های یک متغیر را نسبت به یک متغیر دیگر با خط و یا نقطه نشان می دهد. می توان نمودار را به عنوان نمایش دیداری یک یا چند سری اطلاعات عددی تعریف کرد که در نتیجه خواننده مطالب مهم یا به عبارت دیگر عصاره کلام را از میان انبوهی از اطلاعات به سرعت و با صحت دریافت می کند. تقریباً می توان هرگونه اطلاعاتی را که به صورت یک سری عدد ارائه می شوند، به شکل نمودار درآورد. بعضی نمودارها تنها دارای یک مقیاس اندازه گیری هستند مانند نمودار دایره ای و ستونی بعضی دیگر دارای دو مقیاسند مانند نمودار خطی. نمودارهای خاص دیگری نیز وجود دارند که بیش از دو مقیاس در آنها به کار رفته است که این نوع نمودارها معمولاً در آموزش های پیشرفته تر و در سطح بالاتری مورداستفاده قرار می گیرند.

 

نمودار نوعی جمع‌بندی برای مطالب فراهم و ارتباط میان آنها را نمایان می‌کند برای مثال هنگام مطالعه درباره اوضاع اقتصادی ایران می توان در چند مرحله از نمودار استفاده کرد. می توان در یک مرحله از درس، جمعیت، واردات، صادرات و غیره را به کمک نمودار بررسی کرد و در مرحله دیگری برای مقایسه آنها با کشورهای دیگر یا برای ترتیب دادن نوعی جمع بندی از آموختنی ها مجدداً از نمودارهای مناسب استفاده کرد.

 

 حروف و نوشته های نمودارها باید زیبا، خوانا و به اندازه های صحیح و دقیق باشد تا سرعت قرائت آنها افزایش یابد و به راحتی درک شوند. وضوح مطالبی که قرار است در نمودار به نمایش درآید، تأثیر مهمی بر درک مطالب و یکسان شدن یافته های رسم کننده و برداشت های مشاهده کننده دارد. به همین سبب توصیه شده است که نمودارهای رسم شده نباید دارای ترکیبی از مطالب باشند و تا حد امکان باید از پیچیده کردن آنها خودداری کرد. هرگاه نمودارها با مهارت به کار گرفته شوند، جنبه هایی از داده ها را مجسم می کنند که به روشنی و به آسانی فهمیده می شوند.

 

نمودارها را نباید جایگزین توصیف های متن کرد، بلکه باید آنها را برای تأکید بر روابط مهم و خاص با نوشته های متن همراه ساخت. نمودارها باید به قدر کافی ساده باشند تا مفهوم را به گونه ای روشن به بیننده انتقال دهند و بدون استفاده از توصیف هایی که در متن آمده است، قابل فهم باشند. در به کار بردن نمودارها باید جانب صرفه جویی را مراعات کرد. استفاده زیاد از حد از نمودارها به جای اینکه به توضیح مطالب کمک کند از روشنی آنها می کاهد. نمودارها را نباید پیش از توضیحات متن بلکه باید پس از توضیح مطالب ارائه کرد.

 

به طور خلاصه، یکی از نقاط ضعف نمایش داده ها به وسیله جدول فراوانی این است که اطلاعات جدول رو نمی توان به سرعت درک کرد.بنابراین به منظور دریافت تصویر روشن تری از داده های جمع آوری شده از نمودار استفاده می شود. نمودار ابزاری تصویری است که برای توصیف و نمایش داده های جمع آوری شده به کار برده می شود.پس از سازمان بندی کردن داده ها در جدول توزیع فراوانی،غالبا نمایش آن ها به وسیله نمودار به پژوهشگر کمک می کند تا ویژگیهای داده ها را بهتر و آسان تر توصیف کند.

 

در یک دسته‌بندی نمودارها را به سه دسته تقسیم می‌کنند. مبنای این دسته‌بندی هدف استفاده از نمودار است:

 

الف) نمودارهای مقایسه‌ای؛ برای مقایسه بین دو متغیر (یا بیشتر) یا دو عنصر به کار می‌روند.

 

ب) نمودارهای پراکندگی؛ پراکندگی داده‌ها را بر روی یک صفحه نمایش می‌دهند.

 

ج) نمودارهای رابطه‌ای؛ رابطه‌ی متغیرها را با یکدیگر نشان می‌دهند.

 

 

 

برای بررسی نمایش گرافیکی داده ها بصورت نمودار می توانیم از نمودارهای مختلف و متنوعی استفاده کنیم که برخی از آنها عباتند از:

 

نمودار ستونی

 

رایج‌ترین نوع نمودارها، نمودار ستونی افقی یا عمودی است که از نظر خواندن، ساده‌ترین نوع نمودار است. تهیه این نوع نمودار نیز بسیار آسان است، به این ترتیب که هر دسته از اطلاعات را در یک ستون قرار می‌دهیم. از نمودار ستونی بیشتر برای مقایسه استفاده می شود که ستون‌ها را با گذاشتن فاصله‌هایی میان آنها از هم جدا می‌کنند. این ستون‌ها یا همگی افقی هستند یا عمودی، برای مقایسه اجزاء تشکیل‌دهنده یک کمیت در یک زمان معین از ستون‌های افقی استفاده می‌شود و برای مقایسه اجزا در زمان‌های مختلف ستون‌های عمودی به کار می‌رود.به دیگر سخن،از این نمودار زمانی استفاده می شود که داده های جمع آوری شده به متغیرهای گسسته تعلق داشته باشند و با استفاده از مقیاس اسمی اندازه گیری شده باشند.

 

ستون ها یا همگی افقی هستند یا عمودی، درازای ستون ها نشاندهنده درصد مقیاس اندازه گیری میزان اطلاعات است، در حالی که پهنای ستون ها همه به یک اندازه باقی می مانند. از نمودار ستونی برای مقایسه تعداد محدودی اطلاعات بین شش تا هشت دسته اطلاعات استفاده می شود. البته می توان در صورت لزوم تعداد بیشتری اطلاعات را نیز با استفاده از این گونه نمودار نشان داد ولی در چنین حالتی باید ستون ها را رنگ آمیزی کرد و یا مطابق طرح های متفاوتی آنها را نقاشی کرد تا خواندن آن را ساده تر کند. نمودار ستونی می تواند وسیله ای برای مقایسه مستقیم اطلاعات کمیتی در فاصله های زمانی مشخص باشد.

 

در نمودارهای ستونی معمولاً ستون ها را با گذاشتن فاصله هایی میان آنها از هم جدا می کنند. هرگاه نمودار شامل داده های زیادی باشد، برای صرفه جویی در اندازه نمودار می توان ستون ها را بدون فاصله و بهم پیوسته تهیه کرد. برای مقایسه اجزاء تشکیل دهنده یک کمیت در یک زمان معین از ستون های افقی استفاده می شود و برای مقایسه اجزا در زمان های مختلف ستون های عمودی به کار می رود. در نمودار ستونی که شکلی از نمودار میله ای است، میزان عرض ستون ها اختیاری است اما توصیه می شود که عرض ستون ها یکسان در نظر گرفته شوند.

 

 

 

هیستوگرام

 

نمودار هیستوگرام همانند نمودار ستونی است و یگانه اختلافی که بین این دو وجود دارد، نمایش ستون هاست. در هیستوگرام ستون ها به یکدیگر چسبیده اند. اتصال ستون ها در هیستوگرام موجب می شود تا این نمودار وسیله مناسبی برای نمایش داده های ناشی از اجرای متغیرهای پیوسته باشد. متغیرهایی که با استفاده از مقیاس های فاصله ای و نسبی مورد اندازه گیری قرار می گیرند. در هیستوگرام هر ستون نشان دهنده یک طبقه از اعداد است. عرض هر ستون برابر فاصله طبقه و ارتفاع آن مساوی فراوانی همان طبقه است. هیستوگرام نموداری است مرکب از چند مستطیل که از روی جدول فراوانی داده های پیوسته ساخته میشود.در این نمودار تعداد مستطیل ها برابر است با تعداد دسته ها و ارتفاع هر مستطیل برابر است با فراوانی نسبی دسته مربوطه. اگر طول دسته ها با هم برابر برابر باشند، فراوانی دسته ای كه مسـاحت آن بـزرگتـر است، بیشتر خواهد بود. در واقع فراوانی متناسب با مساحت مستطیل هاست.

 

همچنین با استفاده از نموار هیستوگرام و رسم منحنی توزیع نرمال، می ­توانیم از شکل توزیع (نرمال بودن، وضعیت چولگی و کشیدگی) متغیر مدنظر اطلاع پیدا کنیم.

 

 

 

نمودار خطی

 

هنگامی که داده‏ها به صورت پیوسته باشد باید از نمودارهای خطی استفاده کرد. ساده ترین نوع نمودار می‏باشند.همچنین در نشان دادن ارتباط میان دو سری اطلاعات بسیار مفید هستند. هنگامی از این نوع استفاده می‌شود که اطلاعات بسیار زیادی در دست باشد. در این نمودار تنظیم اعداد بر روی محور افقی از چپ به راست و بر روی محور عمودی از پایین به بالا صورت می‌گیرد و همواره باید نقطه صفر مشخص شود و مقیاس فواصل مساوی باشد. برای رسم نمودارهای خطی می‌توان از کاغذهای شطرنجی استفاده کرد. محور افقی در این نمودار معمولاً اندازه‌های متغیر مستقل و محور عمودی صفت اندازه‌گیری شده را نشان می‌دهد.

 

نمودار دایره‌ای

 

یکی دیگر از نمودارهایی که اطلاعات موجود را به سرعت در معرض دید قرار می‌دهد نمودار دایره‌ای است. در این نوع نمودار شعاع‌های دایره به طور عمودی کشیده می‌شوند و بخش‌های تشکیل‌دهنده نمودار در جهت حرکت عقربه ساعت از بزرگ به کوچک تنظیم می‌شود. در یک دایره ۳۶۰ درجه‌ای نسبت عددها، برحسب تعداد درجه‌های هریک از بخش‌های نمودار مشخص می‌شود. نمودار دایره‌ای ساده‌ترین و در عین حال مناسب‌ترین روش برای مقایسه و نمایش داده‌های جمع‌آوری شده از متغیرهای گسسته است. این نمودار در اصل برای نشان دادن نسبت جزء به کل کاربرد دارد.

 

نمودار تصویری

 

در نمودار تصویری از انواع شکل‌های سیاه و سفید یا رنگی استفاده می‌شود و بدین ترتیب حالت حقیقی و جذاب به نمودار داده می‌شود. این نوع نمودار در حقیقت از نمودار ستونی گرفته شده است و در واقع همان اطلاعات را نیز ارائه می‌دهد. نمودار مصور به سادگی قابل خواندن است و این مزیت را دارد که شکل‌های حقیقی در آن مورد استفاده قرار می‌گیرند.

 

نمودار چندبر(چند ضلعی)

 

اگر بخواهیم متغیرهای کمی پیوسته را به صورت دقیقی نشان دهیم از نمودار چندبر فراوانی استفاده می‌کنیم. نمودار چند ضلعی کاربرد فراوانی دارد. دلیل این امر هم سهولت ساختن و توصیف آن است. برای رسم این نوع از نمودارها مرکز دسته را روی محور افقی x و فراوانی داده ها را روی محور عمودی به عنوان y در نظر می‏گیریم و با وصل کردن این نقاط به هم نمودار چندبر فراوانی بدست می آید. در نمودار چند ضلعی،طول محورهایx و y معمولا به نسبت 3 به 2 یا 4 به 3 ترسیم می شود.غالبا در ابتدا و پایان محور افقی دو طبقه در نظر گرفته می شود که فراوانی آنها صفر است،یعنی هیچ نمره ای در این طبقات واقع نشده است.اضافه کردن آنها فقط به خاطر آن است که شروع و خاتمه چند ضلعی به محور افقی ختم شود.دلیل عمده ترسیم نمودارهای چند ضلعی و هیستوگرام این است که آنها نحوه توزیع نمره ها را در روی مقیاس نمره ها نشان می دهند.به این معنی که آنها شکل توزیع نمره ها را مجسم می سازند.

 

نمودار چند ضلعی تراکمی(اجایو):

 

این نمودار وقتی مفید است که پژوهشگر علاقه مند باشد وضعیت یک نمره یا یک فرد را نسبت به بقیه نمره ها یا افراد مشخص باشد. به عنوان مثال  پژوهشگری می خواهد تعیین کند که نمره ای از چند درصد نمره ها بیشتر یا کمتر است.

 

توزیع فراوانی تجمعی، توزیعی است که تعداد مشاهدات قبل از یک نقطه معین را در مقیاس مشاهدات نشان می‌دهد. هنگامی كه جدول توزیع فراوانی در دست است از این نمودار استفاده می كنیم. در این نمودار حدود دسته ها منطبق بر محور ها x ست و در انتهای هر دسته فراوانی تجمعی (مطلق یا نسبی) دسته متناظر قرار می گیرد. این نمودار همواره به صورت صعودی است.

 

نکته:  نمودار تجمعی صعودی است و حتماً از مبدأ شروع می شود.

 

نمودار عنکبوتی یا راداری

 

نمودار رادار (همچنین به عنوان نمودار عنکبوتی، نمودار قطبی، نمودار وب یا ستاره شناخته می شود) راهی برای تجسم داده های چند متغیره است. به عبارتی، نوعي از نمودار خطي است با اين تفاوت که نمودار مزبور بجاي اينکه نسبت به محور ترسيم شود، نسبت به يک نقطه مرکزي ترسيم مي شود. يعني خط افقي در نمودار خطي ، در نمودار راداري بصورت دايره نشان داده مي‏شود. این نمودار برای ترسیم یک یا چند گروه از مقادیر ورای متغیر مشترک چندگانه استفاده می شود. این کار با دادن محور برای هر متغیر انجام میشود و این محورها به صورت شعاعی در اطراف یک نقطه مرکزی و به طور مساوی قرار دارند. داده ها از یک مشاهده تنها در امتداد هر محور طراحی شده و به چند ضلعی متصل می شوند. مشاهدات چندگانه را می توان در یک نمودار واحد با نمایش چندگانه، پوشش دادن آنها و کاهش برجستگی هر چند ضلعی قرار داد. یک مثال از نوع داده ای که می تواند به راحتی توسط نمودار رادار نمایش داده شود، می تواند خواص یک ماشین باشد، جایی که متغیرهایی که بر روی محور های فردی نشان داده می شود، سرعت، مسافت پیموده، قیمت و غیره است.

 

به نمودار راداری نمودار تار عنکبوتی یا گراف ستاره ای نیز گفته می شود که بیشتر به منظور نمایش مشاهدات چند متغیره استفاده می‏شود. یک نمودار راداری شامل مجموعه ای از پره (محور) های متساوی الزاویه بوده که هر یک بیان کننده یک متغیر می باشد. یک داده از یک متغیر بر روی محور مربوطه چنان نگاشته می شود که فاصله آن از مرکز نسبت به طول محور برابر با مقدار آن متغیر نسبت به بیشینه مقدار ممکن متغیر باشد. خطوطی نقاط مجاور را به یکدیگر متصل کرده و نهایتاً یک چند ضلعی مشخص حاصل از مشاهدات بدست می آید. بنابراین نمودار راداری تنها با یک چند ضلعی به محقق کمک کرده تا متغیر (متغیرهای) غالب را برای یک سری مشاهدات تشخیص دهد.

 

نمودار پراكنش

 

ارائه داده هاي دو متغيره كمي بوسيله نمودار پراكنش در بسياري از مطالعات با ثبت دو صفت كمي به دنبال يافتن رابطه بين دو صفت براي واحدهاي مطالعاتي مي باشيم. اگر مقادير دو صفت را با x و y نمايش دهيم آنگاه براي هر كدام از مشاهدات يك زوج مشاهده داريم. با رسم اين زوج مشاهدات در محورهاي مختصات، نمودار حاصل را نمودار پراكنش مي‌نامند. نمودار پراکندگی جز آن دسته از نمودار هایی است که می توان در ابتدای اکتشاف داده ها بر گزید.پراکندگی داده ها ، توزیع داده ها و رنج داده ها را می توان در آن دید. نمودار پراکندگی نمودار جزئیات نیست، نمودار پراکندگی نمودار کلیتی است به اسم رابطه. رابطه دو متغیر عددی را می توان بررسی کرد مثلا در واحد پشتیبانی رابطه تعداد تماس ها و تعداد سفارش ها .

 

یک نمودار پراکندگی (XY)، نقطه هایی روی خود دارد که ارتباط بین دو نوع از داده ها را نمایش می دهند. ما همچنین می توانیم “خط روند” (Trendline) (Line of Best Fit) را روی نمودار پراکندگی رسم کنیم. سعی بر آن است که خط را طوری رسم کنیم که تا حد ممکن به تمامی نقاط نزدیک باشد، و نقاط بالای خط تقریبا برابر با نقاط زیر آن شود. چگونگی خوشه ای شدن نقاط در اطراف یک خط مستقیم یا یک نوع منحنی مشخص را نشان می دهد و نیز برداشتی عینی از میزان پراکندگی داده ها پیرامون خط یا منحنی فراهم می کند. بنابراین با استفاده از نمودار پراکنش می توانیم رابطه ی بین دو متغیر را بررسی کنیم. مثل رابطه بین حقوق اولیه و معدل نمرات دانشگاه، وزن و کلسترول یا پاداش مدیر عامل و سود شرکت.

 

نمودار پراکنش یکی از بهترین راه های جستجوی روابط یا الگو ه های مختلف بین چند متغیر می باشد. فهم ان آسان بوده و اطلاعات زیادی در مورد داده ها در اختیار می کذارد. همیشه باید ابتدا داده ها را نمودار کرد و سپس در مورد روش مناسب خلاصه کردن آنها فکری نمود.

 

آیا فرق می کند کدام متغیر را در محور X و کدام متغیر را در محور Y نمودار کنیم؟ اگر یکی از متغیر ها را به عنوان متغیر وابسته و دیگری را به عنوان متغیر مستقل در نظر بگیریم معمولا مرسوم است که متغیر وابسته را در محور Y نمایش می دهیم. برای مثال اگر بخواهیم حقوق و سنوات تحصیلی را نمودار کنیم حقوق را در محور Y قرار می دهیم زیرا حقوق می تواند وابسته به سنوات تحصیلی باشد.

 

از روی نمودار پراکنش چه چیزهایی متوجه می شویم؟ اولین چیزی که باید به آن توجه نمود این است که آیا بین نقاط الگوی خاصی وجود دارد یا اینکه نقاط به صورت تصادفی بر روی نمودار پراکنده شده اند. از روی نمودار پراکنش می توانیم مشخص کنیم که آیا نمونه هایی وجود دارند که دارای ترکیب غیر معمولی از مقادیر دو متغیر باشند. اگر چنین نقاطی وجود داشت باید بررسی گردد تا مطمئن شویم واقعا صحیح است.

 

 

 

دو نموداری که در ادامه مورد بررسی قرار می گیرند یعنی نمودار جعبه‌ای و نمودار ساقه و برگ نمودارهایی هستند که کاربرد زیادی در بررسی صحت اطمینان از ورود داده ها و درستی آنها یعنی در تحلیل اکتشافی داده‌ها مورد استفاده قرار می‌گیرند.

 

نمودار جعبه ای

 

یکی از علل استفاده از روش های مصورسازی اطلاعات برای آنالیز داده ها دستیابی و درک سریع اطلاعات و الگوهای موجود مثل شناسایی الگوی فروش محصولات و ترجیحات مصرف کنندگان با توجه به ویژگی های مختلف از جمله ویژگی های جغرافیایی است. با افزایش رویکرد های ممکن برای مصورسازی اطلاعات، سوالات در خصوص اینکه کدام روش چه زمانی و در جواب چه پرسشی  باید استفاده شود، افزایش می یابند. در این بحث به معرفی نمودار جعبه ای ، نحوه خواندن آن ، همچنین یک مورد استفاده آن پرداخته شده است. نموداری که بسیاری برای ارائه داده های خود استفاده نمی کنند به این دلیل که باور دارند نمودار جعبه ای تخصصی است ولی حقیقت این است که نمودار جعبه ای یکی از ساده ترین نمودارها و جزء آن دسته از روش های مصورسازی است که به شما این امکان را می دهد تا در کمترین زمان با یک نگاه نکات بسیار مفیدی از داده ها استخراج کنید .نمودار جعبه ای بعد از هیستوگرام یکی از ابزارهای مفید و کار آمد برای درک توزیع و پراکندگی داده هاست که در موارد مختلف به صورت وسیع به کار می آید و همانطور که بررسی شد برخلاف تصور برخی افراد ، تفسیر و درک اطلاعات آن آنالیز را دچار هیچ چالشی نمی کند . 

 

نمودار باكس ويسكر نموداري است كه به كمك معيارهاي مركزي و پراكندگي، موقعيت مجموعه داده ها را به شكلي بسيار گويا و مفيد ارائه مي دهد. اين نمودار ابتدا توسط آمار شناس معروف توكي ارائه گرديد و با استفاده از يك مستطيل (باكس) در دو خط در دو طرف مستطيل (ويسكر) و به وسيله ميانه، چاركهاي اول و سوم و كمترين و بيشترين اندازه مشاهده شده رسم مي شود. با استفاده از اين نمودار مي توان مركزيت،‌ پراكندگي و چولگي داده ها را تفسير نمود. تمامی نمودارها و از جمله نمودار جعبه ای برای نشان دادن تصویری اطلاعات به جای داده های فهرستی می باشد. یکی از روش های ابتدایی برای فهمیدن توزیع یا پراکندگی داده ها در کنار نمودار هیستوگرام نمودار جعبه ای می باشد.

 

نمودار جعبه ای از یک جعبه و دو میله که از آن بیرون آمده تشکیل شده است که قسمت های مختلفی دارد که با هم بررسی می کنیم. به نمودار جعبه ای نمودار 6 خلاصه نیز می گویند زیرا از 6 بخش تقسیم می شود:

 

بخش اول » شامل ماکسیمم واقعی و مینیمم واقعی می باشد که ماکسیمم واقعی بیشترین مقدار داده در آن گروهی است که بررسی میگردد و در بالاترین نقطه قرار دارد  و مینیمم واقعی کمترین مقدار از داده های ما در همان گروه است و در پایین ترین نقطه قرار دارد.

 

بخش دوم » بخش 4/1 : نمودار جعبه ای داده ها را به 4 قسمت تقسیم می کند. 4/1 اول (%25)، 4/1 دوم (%5)، 4/1 سوم (%75)، 4/1 چهارم

 

مینیمم مؤثر (%25) : نقطه ای است که حداقل %25 یا 4/1 داده ها از آن کمتر است. نقطه میانه و میانگین (%50) : نقطه ای که حداقل نصف داده ها کمتر از %50 آن باشد "میانه" است. ماکسیمم مؤثر (%75) : نقطه ای که %75 یا 4/3 داده ها از آن نطقه مقدار کمتری دارند. خطوطی که از مستطیل خارج شده و حداکثر تا 1.5 برابر طول مستطیل (در صورت وجود مشاهده ای با این اندازه) پیش می رود را whiskers می نامند و به عنوان بزرگترین و کوچکترین مشاهده که از لحاظ آماری پرت نیستند در نظر گرفته می شوند. مقادیر پرت (outliers) که اندازه ای بین 1.5 و 3 برابر طول مستطیل از لبه بالا و پایین مستطیل اختیار می کند و به وسیله دایره برچسب می شوند و در کنار آن عددی قرار می گیرد که اشاره به شماره سطر یا ردیفی که مشاهده در ان قرار گرفته است دارد. مقادیر انتهایی (extreme) یا غیر عادی که اندازه ای بیشتر از 3 برابر طول مستطیل از لبه بالا و پایین مستطیل دارند و به وسیله ستاره نشان داده می شوند. توجه کنید که پهنای جعبه نشان دهنده ی هیچ چیز نمیباشد بلکه تنها مقیاس معنی دار در نمودار جعبه ای، مقیاس عمودی است و تمامی مقادیر در این مقیاس نشان داده می شوند.

 

نمودار جعبه را نیز مانند سایر نمودار ها هم می توانیم دسته بندی کنیم و هم سری های مختلف به نمودار جعبه ای بدهیم. در محور افقی معمولا و تقریبا همیشه داده های دسته بندی شده قرار می گیرند و محور عمودی این نمودار را داده عددی ای که قابلیت محاسبه و شمارش دارد تشکیل می دهد.

 

برای مثال وضعیتی را در نظر بگیرید که مدیر یک شرکت کانادایی با دامنه فعالیت بین المللی قصد دارد میزان فروش محصولات خود را در طول زمان در کانادا بررسی کند . 

 

•        برای او مهم است که کمترین و بیشترین هزینه ای که مشتری برای کالاهای او پرداخت کرده چقدر بوده است ؟

 

•        میزان خرید مشتری به صورت معمول چقدر است ؟ 

 

•        آیا اکثریت هزینه ی زیادی را برای کالاهای او صرف می کنند ؟

 

•        تجمع مشتریان برای کالاهای با هزینه کمتر است ؟ 

 

•        آیا تغییر پذیری در هزینه ی صرف شده توسط مشتری زیاد است ؟ 

 

 برای پاسخ به اینگونه سوالات از نمودار جعبه ای استفاده می شود . 

 

با توجه به آنچه در بالا گفته شد در یک نمودار جعبه ای باید به دنبال موارد زیر باشیم.

 

  • اگر خط میانه در وسط مستطیل نباشد نتیجه می گیریم که داده ها قرینه نیستند. اگر خط میانه به لبه بالایی مستطیل نزدیک باشد نتیجه می گیریم که داده ها به سمت مقادیر کمتر می باشد و چولگی منفی است و اگر خط میانه به لبه پایینی مستطیل نزدیک باشد نتیجه می گیریم که داده ها به سمت مقادیر بزرگتر می باشد و چولگی مثبت است.
  • اگر خطوط دو طرف مستطيل (ويسكرها) تقريباً برابر باشند توزيع داده ها به توزيع متقارن نزديك بوده و در صورت نامساوي بوده خطوط توزيع داراي چولگي است.
  • اگر در نمودار مستطیلی مقادیر پرت یا انتهایی یافتیم به وسیله شماره سطر آن را پیدا کرده و اگر این مورد ناشی از اشتباه در ورود داده هاست آن را اصلاح می کنیم.
  • همچنین برای مقایسه گروه های مختلف نیز می توان از نمودار جعبه ای استفاده کرد.

 

  • در مقايسه نمودار باكس - ويسكر دو مجموعه از داده ها مي توان پراكندگي آنها را با توجه به طول مستطيل هاي نمودار با يكديگر مقايسه نمود. مستطيلي كه طول بزرگتري دارد داراي پراكندگي بيشتر مي باشد.
  • داده هاي پرت ضعيف و داده هاي پرت قوي را با استفاده از نمودار باكس - ويسكر مي توان تعيين نمود.

 

 

 

چگونه یک نمودار باکس-ویسکر برای مجموعه داده های زیر رسم کنیم؟

 

4.3, 5.1, 3.9, 4.5, 4.4, 4.9, 5.0, 4.7, 4.1, 4.6, 4.4, 4.3, 4.8, 4.4, 4.2, 4.5, 4.4

 

گام اول: مرتب کردن داده ها به صورت صعودی، براي اين منظور مي توان از نمودار شاخه و برگ نيز استفاده نمود.:

 

3.9, 4.1, 4.2, 4.3, 4.3, 4.4, 4.4, 4.4, 4.4, 4.5, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1

 

گام دوم: مشخص کردن میانه داده ها:

 

به دلیل اینکه تعداد داده ها 17 است، بنابراین 9 امین مقدار در میان اعداد مرتب شده میانه داده ها خواهد بود

 

3.9, 4.1, 4.2, 4.3, 4.3, 4.4, 4.4, 4.4, 4.4, 4.5, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1

 

میانه عبارت است از: Q2 = 4.4

 

گام سوم: مشخص کردن میانه داده های هر یک از دو دسته زیر(چاركهاي اول و سوم داده ها):

 

3.9, 4.1, 4.2, 4.3, 4.3, 4.4, 4.4, 4.4

 

و

 

4.5, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1

 

دسته اول دارای 8 مقدار است، بنابراین میانه داده های دسته اول(چارک اول) برابر است با میانگین دو داده وسطی، یعنی:

 

Q1 = (4.3 + 4.3)/2 = 4.3

 

میانه داده های دسته دوم(چارک سوم) برابر است با

 

Q3 = (4.7 + 4.8)/2 = 4.75

 

گام چهارم: رسم يك خط افقي و مدرج کردن آن بطوری كه بتوان همه داده ها را روي آن نشان داد.

 

گام پنجم: مکان كوچكترين عدد مشاهده شده ، بزرگترين عدد مشاهده شده ، میانه Q2 ، چارک اول Q1 و چارک سوم Q3 را تعيين مي كنيم.

 

گام ششم: بالاي خط مدرج شده مستطيلي رسم مي كنيم كه طول آن برابر با Q3- Q1 (برد چاركها) بوده و از نقطه Q1 شروع و به Q3 ختم شود و عرض مستطيل به اندازه معقول در نظر گرفته مي شود. اين مستطيل را باكس مي ناميم. اندازه ميانه را به صورت خطي به موازات عرض مستطيل رسم نموده و مستطيل را به وسيله يك خط منقطع به موازات خط مدرج شده به دو قسمت تقسيم مي كنيم.

 

گام هفتم: مرزهاي داخلي و خارجي داده ها با توجه به روابط زير تعيين می کنیم.

 

مرز داخلی پایین= Q1 – 1.5 *( Q3- Q1) = 3.625

 

مرز داخلی بالا= Q3+ 1.5 *( Q3- Q1) = 5.425

 

مرز خارجی پایین= Q1 – 3 *( Q3- Q1) = 2.95

 

مرز خارجی بالا= Q3+ 3 *( Q3- Q1) = 6.1

 

گام هشتم: با استفاده از داده هاي مرتب شده، دو اندازه كوچكترين و بزرگترين داده را كه داخل مرزهاي داخلي قرار دارند، تعيين كرده و خط منقطع وسط مستطيل را تا اين دو نقطه به صورت خط پر ادامه مي دهيم. گفته شد که اين خطوط را ويسكر مي نامند كه از چاركها شروع و به نقاط فوق ختم مي شوند.

 

نکته

 

هر عددي كه خارج از مرزهاي داخلي قرار گرفته باشد را يك دادة پرت ناميه و چنانچه بين مرزهاي داخلي و خارجي قرار گيرد آن را داده پرت ضعيف ناميده و با علامت ○ نشان مي دهيم و چنانچه خارج از مرزهاي خارجي قرار گرد آن را داده پرت قوي ناميده و با علامت ● نشان مي دهيم.

 

 

 

نمودار ساقه و برگ

 

روش دیگری كه برای توصیف داده های كمی به كار برده می شود استفاده از نمودار شاخه و برگ یا شاخه و برگ می باشد. رسم نمودار شاخه و برگ به دلیل از دست ندادن اطلاعات به نمودارهای فراوانی ترجیح داده می شود. این نموداری است برای تحلیل اکتشافی داده ها که در آن، داده ها به طور هم زمان براساس مقدارشان مرتب می شوند و شکل کلّی توزیع فراوانی زمینه ای داده ها نیز به نمایش درمی آید و برای نمایش یک سری داده کمی گسسته و پیوسته بکار می رود. نمودار ساقه و برگ، شکل و پراکندگی داده ها را نمایش می دهد. هر داده یک ساقه و یک برگ دارد. معمولا برگ ، آخرین رقم داده بوده و بقیه ساقه آن را تشکیل می دهند . برای مثال در عدد 512 عدد 2 برگ و 51 ساقه است . این‌ نمودار منعكس‌ كننده‌ توزيع‌ فراواني‌ و هيستوگرام‌ است‌ و ضمن‌ نشان‌ دادن‌ شكل‌ هيستوگرام‌ ، داده‌ هاي‌ اصلي‌ را نيز نشان‌ ميدهد.

 

نمودار ساقه و برگ نموداری است که اعداد تشکیل دهنده ی آن می باشد و برای داده هایی مناسب است که اختلاف کوچکترین و بزرگترین داده از نظر تعداد ارقام زیاد نباشد.  نمودار ساقه و برگ بسیار شبیه به هیستوگرام است. اما اطلاعات بیشتری در مورد اصل مقادیر داده ها در اختیار ما می گذارد. در نمودار ساقه و برگ هر مقدار مشاهده شده به دو بخش تقسیم می شود یک یا چند رقم اصلی که ساقه (stem) نامیده می شود و یک رقم دنباله که برگ (leaf) نامیده می شود.
در نمودار ساقه و برگ هر ردیف مطابق با یک ساقه بوده و هر نمونه توسط برگ های آن نشان داده می شود. همچنین بیشتر از یک ردیف می توانند ساقه های یکسانی داشته باشند. به عنوان مثال اگر کوچکترین داده یک رقمی باشد و بزرگترین داده پنج رقمی باشد،نمودار ساقه و برگ برای آن مناسب نیست.

 

برای رسم نمودار ساقه و برگ ،ابتدا  داده ها را از کوچک به بزرگ مرتب می کنیم .هر مقدار كمی بدست آمده را به دو بخش تقسیم نموده، یك بخش را شاخه و بخش دیگر را برگ می نامیم. آن گاه برای هر شاخه برگ های مربوطه را به طور جداگانه در مقابل آن می نویسیم .اگر داده ها به صورت یک رقمی باشند در بخش ساقه عدد صفر قرار می دهیم سپس یک جدول را رسم نموده آن را به دو قسمت تقسیم نموده یک طرف ساقه نوشته یک طرف برگ . رقم آخر هر عدد برگ را نشان می دهد.

 

برای درک بهتر، فرآیند تشکیل نمودار ساقه و برگ ارائه می شود. این مثال مربوط به داده های پزشکی است.

 

80, 85, 110, 95, 95, 100, 45, 95, 130, 75, 80, 70, 80, 100, 120, 110, 125, 75, 100, 40, 75, 110, 150, 75, 95

 

در داده های بالا عدد سمت راست برای هر داده برگ می باشد؛ مثلا برای عدد 110، 0 برگ است و 11 ساقه است. برای تمام اعداد بعد از اینکه ساقه  ها مشخص شد، باید ساقه ها از کوچک به بزرگ مرتب شوند و به صورت عمودی و یا افقی به ترتیب مشخص شده نوشت. سپس برگ ها در جلوی این ساقه ها نوشته می شوند. مناسب تر آن است که برگ ها نیز به ترتیب از کوچک تا بزرگ یعنی از صفر تا 9 مرتب شوند تا نمای بصری زیبا تر و اطلاعات در مورد داده ها با سرعت و سهولت بیشتری انتقال یابند. می توان بین ساقه ها و برگ ها خطی ترسیم نمود. این نمودار خیلی به نمودار میله ای نزدیک و شبیه است. این نمودار اطلاعات مربوط به نمودارهای میله ای و هیستوگرام را داراست ولی بیشتر از این نمودارها نیز اطلاعات می دهد و برای بررسی بیشتر داده ها نیز می توان از آن استفاده کرد.

 

نکات:

 

1- ساقه یک رقمی،دو رقمی و.... میتواند باشد اما برگ همیشه تک رقمی است و از صفر تا 9 متغیر است.

 

2-اگر داده ها به صورت ممیز یا اعشار دورقمی باشد ممیز را برداشته و عدد صفر ابتدای آن مینویسیم اما اگر سه رقمی باشد کافی است ممیز را برداریم.

 

3-در نمودار ساقه و برگ تعداد کل برگ ها برابر با حجم جامعه است.

 

طريقه‌ رسم‌ :

 

1ـ تعيين‌ تعداد گروهها : معمولا" تعداد گروهها با توجه‌ به‌ تعداد داده ‌14 _ 6 گروه‌ در نظر گرفته‌ ميشود و يا معادل‌ ريشه‌ دوم‌ تعداد داده‌ ها در نظر گرفته‌ ميشود.

 

2 ـ يك‌ خط‌ عمودي‌ رسم‌ ميشود.

 

3 ـ ساقه هر گروه‌ در طرف‌ چپ‌ خط‌ عمودي‌ (ساقه‌) يادداشت‌ ميگردد.

 

4 ـ رقم‌ آخر (ساقه) در سمت‌ راست‌ خط‌ عمودي‌ نوشته‌ ميشوند.

 

5 ـ ميتوان‌ آن‌ را با داده‌ هاي‌ مرتب‌ شده‌ درست‌ نمود .در نمودارمرتب‌ شده‌ با يك‌ نگاه‌ حداكثر فراواني‌ ها و كمترين‌ وبيشترين‌مقاديرمشاهده‌شده‌مشخص‌ميگردد.

 

نکته: در نمودار ساقه و برگ نیز همواره مقدار واقعی عدد به دست نمی آید بلکه گاهی تقریبی از آن به دست می آید.

 

در نهایت این دو نمودار در یک نمایش تصویری از داده ها کاربرد دارند اما نمودار جعبه ای زمانی مورد استفاده قرار می گیرد که هدف، تاکید بر نقاط مشخصی از توزیع برای ارائه اطلاعات به صورت  خلاصه شده می باشد. همچنین این نمودار انجام‌ مقايسه‌ بين‌ چند مجموعه‌ داده‌ را به‌ آساني‌ امكان‌ پذيرمي‌سازد. نمودار ساقه و برگ برای توصیف داده های کمی به کار برده می شود و رسم آن به دلیل از دست ندادن اطلاعات به دیگر نمودارهای فراوانی ترجیح داده می شود.