Cómo determinar el tipo de distribución posible de datos

Cuando tienes datos almacenados en tu sistema o proceso, el siguiente paso es determinar qué tipo de distribución probable uno tiene. Los tipos de distribución posible son: uniforme discreta, Bernoulli, binomio, binomio negativo, Poisson, geométrica, uniforme continua, normal (curva de campana), exponencial, gamma y beta. La reducción de incluso unos pocos tipos de la lista de posibilidades determina cual es el valor R al cuadrado más cercano mucho más rápido.

Grafica los datos para una representación visual del tipo de datos.

Uno de los primeros pasos para determinar qué distribución de datos uno tiene y por lo tanto el tipo de ecuación a utilizar para modelar los datos, es para descartar lo que no puede ser. • Si hay algún pico en el conjunto de datos, no puede ser una distribución uniforme discreta. • Si los datos tienen más de un pico, no es Poisson o binomio. • Si tiene una sola curva, no hay picos secundarios, y tiene una pequeña pendiente en cada lado, podría ser una distribución Poisson o gamma. Pero no podrá ser una distribución uniforme discreta. • Si los datos se distribuyen de manera uniforme, y es sin inclinar hacia un lado, es seguro excluir una distribución gamma o Weibull. • Si la función tiene una distribución uniforme o un pico en el medio de los resultados graficados, no es una distribución geométrica o una distribución exponencial. • Si la ocurrencia de un factor varía con una variable ambiental, probablemente no sea una distribución Poisson.

Después de que el tipo de distribución de probabilidad se ha reducido, haz un análisis de R cuadrado de cada posible tipo de distribución de probabilidad. El que tenga el mayor valor R cuadrado es probablemente el correcto.

Elimina un dato atípico. A continuación, vuelve a calcular R cuadrado. Si el mismo tipo de distribución de probabilidad aparece como la coincidencia más cercana, luego hay un alto grado de confianza de que se trate de la distribución de probabilidad correcta para utilizar en el conjunto de datos.

×