نباید با تابع درصد یا رتبه صدک اشتباه شود .
در آمار ، صدک k ( امتیاز صدک یا صدک ) امتیازی است که یک درصد معین k از امتیازها در توزیع فراوانی آن کمتر میشود (تعریف انحصاری) یا امتیازی که درصد معین یا کمتر از آن میافتد (تعریف فراگیر).
به عنوان مثال، صدک 50 ( میانگین ) امتیازی است که زیر آن 50 درصد از امتیازات در توزیع (با تعریف « انحصاری »)، یا در یا کمتر از آن 50 درصد امتیازها (توسط « شامل «تعریف»). درصدها با همان واحد اندازه گیری نمرات ورودی بیان می شوند. به عنوان مثال، اگر نمرات به وزن انسان اشاره داشته باشد ، صدک های مربوطه به کیلوگرم یا پوند بیان می شود.
امتیاز صدک و رتبه صدک اصطلاحات مرتبط هستند. رتبه صدک یک امتیاز، درصد امتیازهایی است که در توزیع آن کمتر از آن است، یک تعریف انحصاری، و می تواند با یک فرمول واحد و ساده بیان شود. نمرات صدک و رتبه های صدک اغلب در گزارش نمرات آزمون از آزمون های مرجع هنجار استفاده می شود.، اما همانطور که اشاره شد، آنها یکسان نیستند. برای رتبه صدک، یک امتیاز داده می شود و یک درصد محاسبه می شود. رتبه های صدک انحصاری هستند. اگر رتبه صدک برای یک امتیاز مشخص شده 90٪ باشد، 90٪ از نمرات پایین تر بودند. در مقابل، برای صدک ها درصدی داده می شود و امتیاز مربوطه تعیین می شود که می تواند انحصاری یا فراگیر باشد. امتیاز برای یک درصد مشخص (مثلاً 90) امتیازی را نشان می دهد که کمتر از آن (تعریف انحصاری) یا کمتر از آن (تعریف فراگیر) سایر امتیازات در توزیع قرار می گیرند.
صدک 25 به عنوان چارک اول ( Q 1 )، صدک 50 به عنوان چارک میانه یا دوم ( Q 2 ) و صدک 75 به عنوان چارک سوم ( Q 3 ) نیز شناخته می شود.
هنگامی که ISP ها پهنای باند اینترنت "قابل انفجار" را صورتحساب می کنند، صدک 95 یا 98 معمولاً حداکثر 5٪ یا 2٪ از حداکثر پهنای باند را در هر ماه قطع می کند و سپس صورتحساب ها را با نزدیک ترین نرخ انجام می دهد. به این ترتیب پیک های نادر نادیده گرفته می شود و مشتری به شکل منصفانه تری شارژ می شود. دلیل اینکه این آمار در اندازه گیری توان داده بسیار مفید است این است که تصویر بسیار دقیقی از هزینه پهنای باند ارائه می دهد. صدک 95 می گوید که در 95 درصد مواقع، میزان مصرف کمتر از این مقدار است: بنابراین، 5 درصد باقیمانده، میزان مصرف بالاتر از این مقدار است.
پزشکان اغلب از وزن و قد نوزادان و کودکان برای ارزیابی رشد آنها در مقایسه با میانگین ها و صدک های ملی که در نمودارهای رشد یافت می شوند استفاده می کنند .
سرعت صدک 85 ترافیک در یک جاده اغلب به عنوان یک راهنما در تعیین محدودیت های سرعت و ارزیابی اینکه آیا چنین محدودیتی خیلی زیاد است یا پایین استفاده می شود. [1] [2]
در امور مالی، ارزش در معرض خطر یک معیار استاندارد برای ارزیابی (به روشی وابسته به مدل) مقداری است که انتظار نمیرود ارزش پرتفوی در یک دوره زمانی معین کاهش یابد و یک مقدار اطمینان داده شود.
نمایش قانون سه سیگما . منطقه آبی تیره نشان دهنده مشاهدات در یک انحراف استاندارد (σ) به دو طرف میانگین (μ) است که حدود 68.3٪ از جمعیت را تشکیل می دهد. دو انحراف معیار از میانگین (آبی تیره و متوسط) حدود 95.4 درصد و سه انحراف معیار (آبی تیره، متوسط و روشن) حدود 99.7 درصد را تشکیل می دهند.
روش های ارائه شده در بخش تعاریف (زیر) تقریبی برای استفاده در آمار نمونه های کوچک هستند. به طور کلی، برای جمعیت های بسیار بزرگ که از توزیع نرمال پیروی می کنند ، صدک ها اغلب با ارجاع به نمودار منحنی نرمال نشان داده می شوند. توزیع نرمال در امتداد یک محور با مقیاس انحراف استاندارد یا سیگما ترسیم می شود.) واحدها از نظر ریاضی، توزیع نرمال به بی نهایت منفی در سمت چپ و بینهایت مثبت در سمت راست گسترش می یابد. با این حال، توجه داشته باشید که تنها بخش بسیار کمی از افراد در یک جمعیت خارج از محدوده -3 σ تا +3 σ قرار می گیرند. به عنوان مثال، با قد انسان، تعداد کمی از افراد بالاتر از سطح قد +3 σ هستند.
صدک ها ناحیه زیر منحنی نرمال را نشان می دهند که از چپ به راست افزایش می یابد. هر انحراف معیار نشان دهنده یک صدک ثابت است. بنابراین، با گرد کردن به دو رقم اعشار، -3 σ صدک 0.13، -2 σ صدک 2.28، -1 σ صدک 15.87، 0 σ صدک 50 (هم میانگین و هم میانه توزیع)، + 1 σ صدک 84.13، +2 σ صدک 97.72 و +3 σ صدک 99.87. این مربوط به قانون 68–95–99.7 استیا قانون سه سیگما توجه داشته باشید که در تئوری صدک صفر در بینهایت منفی و صدک صدم در بینهایت مثبت قرار میگیرد، اگرچه در بسیاری از کاربردهای عملی، مانند نتایج آزمایش، محدودیتهای طبیعی پایین و/یا بالا اعمال میشوند.
هیچ تعریف استانداردی از صدک وجود ندارد، [3] [4] [5] با این حال همه تعاریف زمانی که تعداد مشاهدات بسیار زیاد و توزیع احتمال پیوسته است، نتایج مشابهی به دست میدهند. [6] در حد، همانطور که اندازه نمونه به بی نهایت نزدیک می شود، صدک 100 p ( 0 p 1) تقریبأ معکوس تابع توزیع تجمعی (CDF) است که در نتیجه تشکیل شده است، در p ارزیابی می شود، زیرا p تقریب CDF است. این را می توان نتیجه قضیه گلیونکو-کانتلی دانست . برخی از روش های محاسبه صدک در زیر آورده شده است.
صدک های درون یابی و نزدیکترین رتبه، انحصاری و فراگیر برای توزیع 10 امتیازی
فرمول ها یا الگوریتم های زیادی [7] برای امتیاز صدک وجود دارد. Hyndman و Fan [3] 9 مورد را شناسایی کردند و اکثر نرم افزارهای آماری و صفحه گسترده از یکی از روش هایی که توصیف می کنند استفاده می کنند. [8] الگوریتمها یا مقدار امتیازی را که در مجموعه امتیازها وجود دارد برمیگردانند (نزدیکترین روشهای رتبهبندی) یا بین نمرات موجود درونیابی میکنند و انحصاری یا فراگیر هستند.
PC: صدک مشخص شده است | 0.10 | 0.25 | 0.50 | 0.75 | 0.90 |
---|---|---|---|---|---|
ن: تعداد امتیازات | 10 | 10 | 10 | 10 | 10 |
OR: رتبه ترتیبی = PC × N | 1 | 2.5 | 5 | 7.5 | 9 |
رتبه: >OR / ≥OR | 2/1 | 3/3 | 6/5 | 8/8 | 10/9 |
امتیاز در رتبه (به استثنای / غیرحضوری) | 2/1 | 3/3 | 4/3 | 5/5 | 7/5 |
این شکل یک توزیع 10 امتیازی را نشان میدهد، نمرات صدکی را نشان میدهد که از این الگوریتمهای مختلف به دست میآیند، و به عنوان مقدمهای برای مثالهای ارائهشده بعد عمل میکند. سادهترین روشها، روشهای نزدیکترین رتبه هستند که امتیازی را از توزیع برمیگردانند، اگرچه در مقایسه با روشهای درونیابی، نتایج میتوانند کمی خام باشند. جدول روشهای نزدیکترین رتبه، مراحل محاسباتی روشهای انحصاری و فراگیر را نشان میدهد.
PC: صدک مشخص شده است | 0.10 | 0.25 | 0.50 | 0.75 | 0.90 |
---|---|---|---|---|---|
ن: تعداد امتیازات | 10 | 10 | 10 | 10 | 10 |
OR: PC×(N+1) / PC×(N−1)+1 | 1.1/1.9 | 2.75/3.25 | 5.5/5.5 | 8.25/7.75 | 9.9/9.1 |
LoRank: یا کوتاه شده | 1/1 | 2/3 | 5/5 | 8/7 | 9/9 |
HIRank: یا گرد شده است | 2/2 | 3/4 | 6/6 | 9/8 | 10/10 |
LoScore: امتیاز در LoRank | 1/1 | 2/3 | 3/3 | 5/4 | 5/5 |
HiScore: امتیاز در HiRank | 2/2 | 3/3 | 4/4 | 5/5 | 7/7 |
تفاوت: HiScore - LoScore | 1/1 | 1/0 | 1/1 | 0/1 | 2/2 |
مد: بخش کسری از OR | 0.1/0.9 | 0.75/0.25 | 0.5/0.5 | 0.25/0.75 | 0.9/0.1 |
امتیاز درونیابی (exc/inc) = LoScore + Mod × Difference | 1.1/1.9 | 2.75/3 | 3.5/3.5 | 5/4.75 | 6.8/5.2 |
روشهای درونیابی، همانطور که از نام آن پیداست، میتوانند امتیازی را که بین امتیازات توزیع است، برگردانند. الگوریتمهای مورد استفاده برنامههای آماری معمولاً از روشهای درونیابی استفاده میکنند، برای مثال، توابعpercentile.exc وcentile.inc در Microsoft Excel. جدول Interpolated Methods مراحل محاسباتی را نشان می دهد.
مقادیر صدک برای لیست مرتب شده {15، 20، 35، 40، 50}
یک تعریف از صدک، که اغلب در متون ارائه می شود، این است که صدک P- امیک لیست از N مقادیر مرتب شده (مرتب شده از حداقل به بزرگترین) کوچکترین مقدار در لیست است به طوری که بیش از P درصد داده ها به شدت کمتر از مقدار و حداقل P درصد داده ها کمتر یا مساوی باشد. به آن ارزش این ابتدا با محاسبه رتبه ترتیبی و سپس گرفتن مقدار از لیست مرتب شده مطابق با آن رتبه به دست می آید. رتبه ترتیبی n با استفاده از این فرمول محاسبه می شود
جایگزینی برای گرد کردن که در بسیاری از کاربردها استفاده می شود، استفاده از درون یابی خطی بین رتبه های مجاور است.
همه انواع زیر دارای موارد مشترک زیر هستند. با توجه به آمار سفارش
ما به دنبال یک تابع درونیابی خطی هستیم که از نقاط عبور کند. این به سادگی توسط انجام می شود
جایی که⌊ایکس⌋از تابع کف برای نمایش بخش جدایی ناپذیر x مثبت استفاده می کند ، در حالی کهایکسمد1از تابع mod برای نمایش بخش کسری خود (باقی مانده پس از تقسیم بر 1) استفاده می کند. (توجه داشته باشید که هر چند در نقطه پایانیایکس=ن،تعریف نشده است، نیازی به این نیست زیرا در ضرب می شودایکسمد1=0.) همانطور که می بینیم، x نسخه پیوسته زیرنویس i است که v را به صورت خطی بین گره های مجاور درون یابی می کند.
دو روش وجود دارد که در آن رویکردهای مختلف متفاوت است. اولین مورد در رابطه خطی بین رتبه x ، رتبه درصد است پ=100پو ثابتی که تابعی از اندازه نمونه N است :
نیاز اضافی وجود دارد که نقطه میانی محدوده باشد(1،ن)، مربوط به میانه ، رخ می دهد درپ=0.5:
و تابع تجدید نظر شده ما اکنون فقط یک درجه آزادی دارد که به شکل زیر است:
راه دومی که در آن واریانت ها با هم تفاوت دارند، در تعریف تابع نزدیک به حاشیه استمحدوده p :باید نتیجه ای در محدوده تولید کند یا مجبور به تولید شود[1،ن]، که ممکن است به معنای عدم وجود مکاتبات یک به یک در منطقه وسیع تر باشد. یکی از نویسنده ها انتخابی را پیشنهاد کرده است جایی که ξ شکل توزیع مقدار شدید تعمیمیافته است که حد ارزش نهایی توزیع نمونهبرداری شده است.
نتیجه استفاده از هر یک از سه نوع موجود در لیست مرتب شده {15، 20، 35، 40، 50}
(منابع: تابع "prctile" Matlab، [9] [10] )
جایی که
علاوه بر این، اجازه دهید
.
رابطه معکوس به یک منطقه باریکتر محدود می شود:
(منبع: برخی از بسته های نرم افزاری، از جمله NumPy [11] و Microsoft Excel [5] (تا و شامل نسخه 2013 با استفاده از تابع PERCENTILE.INC). به عنوان یک جایگزین توسط NIST [8] اشاره شده است )
توجه داشته باشید کهایکس↔پرابطه یک به یک است برای، تنها یکی از سه نوع دارای این ویژگی است. از این رو پسوند "INC"، برای شامل ، در تابع اکسل.
(نوع اولیه توصیه شده توسط NIST . [8] توسط مایکروسافت اکسل از سال 2010 با استفاده از تابع PERCENTIL.EXC پذیرفته شد. با این حال، همانطور که پسوند "EXC" نشان می دهد، نسخه اکسل هر دو نقطه پایانی محدوده p را حذف می کند ، به عنوان مثال،، در حالی که نسخه "INC"، نوع دوم، اینطور نیست. در واقع هر عددی کوچکتر از1ن+1نیز مستثنی است و باعث خطا می شود.)
معکوس به یک ناحیه باریکتر محدود می شود:
همچنین ببینید: میانه وزنی
علاوه بر تابع صدک، یک صدک وزنی نیز وجود دارد که در آن درصد در وزن کل به جای تعداد کل محاسبه می شود. هیچ تابع استانداردی برای صدک وزنی وجود ندارد. یک روش رویکرد فوق را به روشی طبیعی گسترش می دهد.
فرض کنید وزن های مثبت داریمبه ترتیب با مقادیر نمونه مرتب شده N ما مرتبط است. اجازه دهید
مجموع اوزان سپس فرمول های بالا با گرفتن تعمیم می یابند
چه زمانی،
یا
برای ژنرالسی،
و
صدک وزنی 50% به عنوان میانه وزنی شناخته می شود .
منبع
https://en.wikipedia.org/wiki/Percentile
ریاضیات...برچسب : نویسنده : 9math1342d بازدید : 1062