صدک :: ریاضیات

آخرین مطالب

امکانات وب

صدک

نباید با تابع درصد یا رتبه صدک اشتباه شود .

در آمار ، صدک k ( امتیاز صدک یا صدک ) امتیازی است که یک درصد معین k از امتیازها در توزیع فراوانی آن کمتر می‌شود (تعریف انحصاری) یا امتیازی که درصد معین یا کمتر از آن می‌افتد (تعریف فراگیر).

به عنوان مثال، صدک 50 ( میانگین ) امتیازی است که زیر آن 50 درصد از امتیازات در توزیع (با تعریف « انحصاری »)، یا در یا کمتر از آن 50 درصد امتیازها (توسط « شامل «تعریف»). درصدها با همان واحد اندازه گیری نمرات ورودی بیان می شوند. به عنوان مثال، اگر نمرات به وزن انسان اشاره داشته باشد ، صدک های مربوطه به کیلوگرم یا پوند بیان می شود.

امتیاز صدک و رتبه صدک اصطلاحات مرتبط هستند. رتبه صدک یک امتیاز، درصد امتیازهایی است که در توزیع آن کمتر از آن است، یک تعریف انحصاری، و می تواند با یک فرمول واحد و ساده بیان شود. نمرات صدک و رتبه های صدک اغلب در گزارش نمرات آزمون از آزمون های مرجع هنجار استفاده می شود.، اما همانطور که اشاره شد، آنها یکسان نیستند. برای رتبه صدک، یک امتیاز داده می شود و یک درصد محاسبه می شود. رتبه های صدک انحصاری هستند. اگر رتبه صدک برای یک امتیاز مشخص شده 90٪ باشد، 90٪ از نمرات پایین تر بودند. در مقابل، برای صدک ها درصدی داده می شود و امتیاز مربوطه تعیین می شود که می تواند انحصاری یا فراگیر باشد. امتیاز برای یک درصد مشخص (مثلاً 90) امتیازی را نشان می دهد که کمتر از آن (تعریف انحصاری) یا کمتر از آن (تعریف فراگیر) سایر امتیازات در توزیع قرار می گیرند.

صدک 25 به عنوان چارک اول ( Q 1 )، صدک 50 به عنوان چارک میانه یا دوم ( Q 2 ) و صدک 75 به عنوان چارک سوم ( Q 3 ) نیز شناخته می شود.

فهرست

برنامه های کاربردی [ ویرایش ]

هنگامی که ISP ها پهنای باند اینترنت "قابل انفجار" را صورتحساب می کنند، صدک 95 یا 98 معمولاً حداکثر 5٪ یا 2٪ از حداکثر پهنای باند را در هر ماه قطع می کند و سپس صورتحساب ها را با نزدیک ترین نرخ انجام می دهد. به این ترتیب پیک های نادر نادیده گرفته می شود و مشتری به شکل منصفانه تری شارژ می شود. دلیل اینکه این آمار در اندازه گیری توان داده بسیار مفید است این است که تصویر بسیار دقیقی از هزینه پهنای باند ارائه می دهد. صدک 95 می گوید که در 95 درصد مواقع، میزان مصرف کمتر از این مقدار است: بنابراین، 5 درصد باقیمانده، میزان مصرف بالاتر از این مقدار است.

پزشکان اغلب از وزن و قد نوزادان و کودکان برای ارزیابی رشد آنها در مقایسه با میانگین ها و صدک های ملی که در نمودارهای رشد یافت می شوند استفاده می کنند .

سرعت صدک 85 ترافیک در یک جاده اغلب به عنوان یک راهنما در تعیین محدودیت های سرعت و ارزیابی اینکه آیا چنین محدودیتی خیلی زیاد است یا پایین استفاده می شود. [1] [2]

در امور مالی، ارزش در معرض خطر یک معیار استاندارد برای ارزیابی (به روشی وابسته به مدل) مقداری است که انتظار نمی‌رود ارزش پرتفوی در یک دوره زمانی معین کاهش یابد و یک مقدار اطمینان داده شود.

توزیع نرمال و صدک ها [ ویرایش ]

نمایش قانون سه سیگما . منطقه آبی تیره نشان دهنده مشاهدات در یک انحراف استاندارد (σ) به دو طرف میانگین (μ) است که حدود 68.3٪ از جمعیت را تشکیل می دهد. دو انحراف معیار از میانگین (آبی تیره و متوسط) حدود 95.4 درصد و سه انحراف معیار (آبی تیره، متوسط و روشن) حدود 99.7 درصد را تشکیل می دهند.

روش های ارائه شده در بخش تعاریف (زیر) تقریبی برای استفاده در آمار نمونه های کوچک هستند. به طور کلی، برای جمعیت های بسیار بزرگ که از توزیع نرمال پیروی می کنند ، صدک ها اغلب با ارجاع به نمودار منحنی نرمال نشان داده می شوند. توزیع نرمال در امتداد یک محور با مقیاس انحراف استاندارد یا سیگما ترسیم می شود. $سیگما$ ) واحدها از نظر ریاضی، توزیع نرمال به بی نهایت منفی در سمت چپ و بینهایت مثبت در سمت راست گسترش می یابد. با این حال، توجه داشته باشید که تنها بخش بسیار کمی از افراد در یک جمعیت خارج از محدوده -3 σ تا +3 σ قرار می گیرند. به عنوان مثال، با قد انسان، تعداد کمی از افراد بالاتر از سطح قد +3 σ هستند.

صدک ها ناحیه زیر منحنی نرمال را نشان می دهند که از چپ به راست افزایش می یابد. هر انحراف معیار نشان دهنده یک صدک ثابت است. بنابراین، با گرد کردن به دو رقم اعشار، -3 σ صدک 0.13، -2 σ صدک 2.28، -1 σ صدک 15.87، 0 σ صدک 50 (هم میانگین و هم میانه توزیع)، + 1 σ صدک 84.13، +2 σ صدک 97.72 و +3 σ صدک 99.87. این مربوط به قانون 68–95–99.7 استیا قانون سه سیگما توجه داشته باشید که در تئوری صدک صفر در بی‌نهایت منفی و صدک صدم در بی‌نهایت مثبت قرار می‌گیرد، اگرچه در بسیاری از کاربردهای عملی، مانند نتایج آزمایش، محدودیت‌های طبیعی پایین و/یا بالا اعمال می‌شوند.

هیچ تعریف استانداردی از صدک وجود ندارد، [3] [4] [5] با این حال همه تعاریف زمانی که تعداد مشاهدات بسیار زیاد و توزیع احتمال پیوسته است، نتایج مشابهی به دست می‌دهند. [6] در حد، همانطور که اندازه نمونه به بی نهایت نزدیک می شود، صدک 100 p ( 0 p 1) تقریبأ معکوس تابع توزیع تجمعی (CDF) است که در نتیجه تشکیل شده است، در p ارزیابی می شود، زیرا p تقریب CDF است. این را می توان نتیجه قضیه گلیونکو-کانتلی دانست . برخی از روش های محاسبه صدک در زیر آورده شده است.

روش های محاسبه [ ویرایش ]

صدک های درون یابی و نزدیکترین رتبه، انحصاری و فراگیر برای توزیع 10 امتیازی

فرمول ها یا الگوریتم های زیادی [7] برای امتیاز صدک وجود دارد. Hyndman و Fan [3] 9 مورد را شناسایی کردند و اکثر نرم افزارهای آماری و صفحه گسترده از یکی از روش هایی که توصیف می کنند استفاده می کنند. [8] الگوریتم‌ها یا مقدار امتیازی را که در مجموعه امتیازها وجود دارد برمی‌گردانند (نزدیک‌ترین روش‌های رتبه‌بندی) یا بین نمرات موجود درون‌یابی می‌کنند و انحصاری یا فراگیر هستند.

روش‌های نزدیک‌ترین رتبه (انحصاری/شامل)
PC: صدک مشخص شده است	0.10	0.25	0.50	0.75	0.90
ن: تعداد امتیازات	10	10	10	10	10
OR: رتبه ترتیبی = PC × N	1	2.5	5	7.5	9
رتبه: >OR / ≥OR	2/1	3/3	6/5	8/8	10/9
امتیاز در رتبه (به استثنای / غیرحضوری)	2/1	3/3	4/3	5/5	7/5

این شکل یک توزیع 10 امتیازی را نشان می‌دهد، نمرات صدکی را نشان می‌دهد که از این الگوریتم‌های مختلف به دست می‌آیند، و به عنوان مقدمه‌ای برای مثال‌های ارائه‌شده بعد عمل می‌کند. ساده‌ترین روش‌ها، روش‌های نزدیک‌ترین رتبه هستند که امتیازی را از توزیع برمی‌گردانند، اگرچه در مقایسه با روش‌های درون‌یابی، نتایج می‌توانند کمی خام باشند. جدول روش‌های نزدیک‌ترین رتبه، مراحل محاسباتی روش‌های انحصاری و فراگیر را نشان می‌دهد.

روش های درون یابی (انحصاری / فراگیر)
PC: صدک مشخص شده است	0.10	0.25	0.50	0.75	0.90
ن: تعداد امتیازات	10	10	10	10	10
OR: PC×(N+1) / PC×(N−1)+1	1.1/1.9	2.75/3.25	5.5/5.5	8.25/7.75	9.9/9.1
LoRank: یا کوتاه شده	1/1	2/3	5/5	8/7	9/9
HIRank: یا گرد شده است	2/2	3/4	6/6	9/8	10/10
LoScore: امتیاز در LoRank	1/1	2/3	3/3	5/4	5/5
HiScore: امتیاز در HiRank	2/2	3/3	4/4	5/5	7/7
تفاوت: HiScore - LoScore	1/1	1/0	1/1	0/1	2/2
مد: بخش کسری از OR	0.1/0.9	0.75/0.25	0.5/0.5	0.25/0.75	0.9/0.1
امتیاز درونیابی (exc/inc) = LoScore + Mod × Difference	1.1/1.9	2.75/3	3.5/3.5	5/4.75	6.8/5.2

روش‌های درون‌یابی، همانطور که از نام آن پیداست، می‌توانند امتیازی را که بین امتیازات توزیع است، برگردانند. الگوریتم‌های مورد استفاده برنامه‌های آماری معمولاً از روش‌های درون‌یابی استفاده می‌کنند، برای مثال، توابعpercentile.exc وcentile.inc در Microsoft Excel. جدول Interpolated Methods مراحل محاسباتی را نشان می دهد.

روش نزدیکترین رتبه [ ویرایش ]

مقادیر صدک برای لیست مرتب شده {15، 20، 35، 40، 50}

یک تعریف از صدک، که اغلب در متون ارائه می شود، این است که صدک P- ام $(0<Pleq 100)$ یک لیست از N مقادیر مرتب شده (مرتب شده از حداقل به بزرگترین) کوچکترین مقدار در لیست است به طوری که بیش از P درصد داده ها به شدت کمتر از مقدار و حداقل P درصد داده ها کمتر یا مساوی باشد. به آن ارزش این ابتدا با محاسبه رتبه ترتیبی و سپس گرفتن مقدار از لیست مرتب شده مطابق با آن رتبه به دست می آید. رتبه ترتیبی n با استفاده از این فرمول محاسبه می شود

${displaystyle n=leftlceil {frac {P}{100}}times Nrightrceil .}$

استفاده از روش نزدیکترین رتبه در لیست هایی با کمتر از 100 مقدار متمایز می تواند منجر به استفاده از یک مقدار برای بیش از یک صدک شود.
یک صدک محاسبه شده با استفاده از روش نزدیکترین رتبه، همیشه عضوی از لیست مرتب شده اصلی خواهد بود.
صدک 100 به عنوان بزرگترین مقدار در لیست مرتب شده تعریف می شود.

روش درونیابی خطی بین نزدیکترین رتبه ها [ ویرایش ]

جایگزینی برای گرد کردن که در بسیاری از کاربردها استفاده می شود، استفاده از درون یابی خطی بین رتبه های مجاور است.

وجوه مشترک بین انواع این روش [ ویرایش ]

همه انواع زیر دارای موارد مشترک زیر هستند. با توجه به آمار سفارش

${displaystyle {v_{i},i=1,2,ldots ,N:v_{i+1}geq v_{i},forall i=1,2,ldots ,N-1} ،}$

ما به دنبال یک تابع درونیابی خطی هستیم که از نقاط عبور کند $(v_{i}،i)$ . این به سادگی توسط انجام می شود

${displaystyle v(x)=v_{lfloor xrfloor }+(x{bmod {1}})(v_{lfloor xrfloor +1}-v_{lfloor xrfloor })، برای همه xin [1,N]:v(i)=v_{i}{text{, for }}i=1,2,ldots ,N,}$

جایی که⌊ایکس⌋ $lطبقه xrطبقه$ از تابع کف برای نمایش بخش جدایی ناپذیر x مثبت استفاده می کند ، در حالی کهایکسمد1 ${displaystyle x{bmod {1}}}$ از تابع mod برای نمایش بخش کسری خود (باقی مانده پس از تقسیم بر 1) استفاده می کند. (توجه داشته باشید که هر چند در نقطه پایانیایکس=ن ${displaystyle x=N}$ ، $v_{lطبقه xrطبقه +1}$ تعریف نشده است، نیازی به این نیست زیرا در ضرب می شودایکسمد1=0 ${displaystyle x{bmod {1}}=0}$ .) همانطور که می بینیم، x نسخه پیوسته زیرنویس i است که v را به صورت خطی بین گره های مجاور درون یابی می کند.

دو روش وجود دارد که در آن رویکردهای مختلف متفاوت است. اولین مورد در رابطه خطی بین رتبه x ، رتبه درصد است پ=100پ $P=100p$ و ثابتی که تابعی از اندازه نمونه N است :

$x=f(p,N)=(N+c_{1})p+c_{2}.$

نیاز اضافی وجود دارد که نقطه میانی محدوده باشد(1،ن) $(1,N)$ ، مربوط به میانه ، رخ می دهد درپ=0.5 $p=0.5$ :

${displaystyle {begin{aligned}f(0.5,N)&={frac {N+c_{1}}{2}}+c_{2}={frac {N+1}{2}} بنابراین 2c_{2}+c_{1}&=1end{تراز شده}}،}$

و تابع تجدید نظر شده ما اکنون فقط یک درجه آزادی دارد که به شکل زیر است:

$x=f(p,N)=(N+1-2C)p+C.$

راه دومی که در آن واریانت ها با هم تفاوت دارند، در تعریف تابع نزدیک به حاشیه است $[0,1]$ محدوده p : $f(p,N)$ باید نتیجه ای در محدوده تولید کند یا مجبور به تولید شود[1،ن] $[1,N]$ ، که ممکن است به معنای عدم وجود مکاتبات یک به یک در منطقه وسیع تر باشد. یکی از نویسنده ها انتخابی را پیشنهاد کرده است ${displaystyle C={tfrac {1}{2}}(1+xi )}$ جایی که ξ شکل توزیع مقدار شدید تعمیم‌یافته است که حد ارزش نهایی توزیع نمونه‌برداری شده است.

نوع اول، C = 1/2 [ ویرایش ]

نتیجه استفاده از هر یک از سه نوع موجود در لیست مرتب شده {15، 20، 35، 40، 50}

(منابع: تابع "prctile" Matlab، [9] [10] )

${displaystyle x=f(p)={begin{cases}Np+{frac {1}{2}},forall pin left[p_{1},p_{N}right], 1،برای همه pin چپ[0,p_{1}راست]،N،برای همه pin چپ[p_{N},1راست].پایان{موارد}}}$

جایی که

$p_{i}={frac {1}{N}}left(i-{frac {1}{2}}right),iin [1,N]cap mathbb {N}$

$بنابراین p_{1}={frac {1}{2N}},p_{N}={frac {2N-1}{2N}}.$

علاوه بر این، اجازه دهید

. $P_{i}=100p_{i}.$

رابطه معکوس به یک منطقه باریکتر محدود می شود:

$p={frac {1}{N}}left(x-{frac {1}{2}}right),xin (1,N)cap mathbb {R}.$

نوع دوم، C = 1 [ ویرایش ]

(منبع: برخی از بسته های نرم افزاری، از جمله NumPy [11] و Microsoft Excel [5] (تا و شامل نسخه 2013 با استفاده از تابع PERCENTILE.INC). به عنوان یک جایگزین توسط NIST [8] اشاره شده است )

$x=f(p,N)=p(N-1)+1{text{, }}pin [0,1]$

$بنابراین p={frac {x-1}{N-1}}{text{, }}xin [1,N].$

توجه داشته باشید کهایکس↔پ $x فلش راست چپ p$ رابطه یک به یک است برای $pin [0,1]$ ، تنها یکی از سه نوع دارای این ویژگی است. از این رو پسوند "INC"، برای شامل ، در تابع اکسل.

نوع سوم، C = 0 [ ویرایش ]

(نوع اولیه توصیه شده توسط NIST . [8] توسط مایکروسافت اکسل از سال 2010 با استفاده از تابع PERCENTIL.EXC پذیرفته شد. با این حال، همانطور که پسوند "EXC" نشان می دهد، نسخه اکسل هر دو نقطه پایانی محدوده p را حذف می کند ، به عنوان مثال، $pin (0,1)$ ، در حالی که نسخه "INC"، نوع دوم، اینطور نیست. در واقع هر عددی کوچکتر از1ن+1 ${displaystyle {frac {1}{N+1}}}$ نیز مستثنی است و باعث خطا می شود.)

${displaystyle x=f(p,N)={begin{cases}1{text{, }}pin left[0,{frac {1}{N+1}}right] p(N+1){text{, }}pin left({frac {1}{N+1}},{frac {N}{N+1}}راست) N{text{, }}pin left[{frac {N}{N+1}},1right]end{cases}}.}$

معکوس به یک ناحیه باریکتر محدود می شود:

$p={frac {x}{N+1}}{text{, }}xin (0,N).$

روش صدک وزنی [ ویرایش ]

همچنین ببینید: میانه وزنی

علاوه بر تابع صدک، یک صدک وزنی نیز وجود دارد که در آن درصد در وزن کل به جای تعداد کل محاسبه می شود. هیچ تابع استانداردی برای صدک وزنی وجود ندارد. یک روش رویکرد فوق را به روشی طبیعی گسترش می دهد.

فرض کنید وزن های مثبت داریم $w_{1},w_{2},w_{3},dots ,w_{N}$ به ترتیب با مقادیر نمونه مرتب شده N ما مرتبط است. اجازه دهید