Variabilidad de datos

Hola.
Mi pregunta es la siguiente:
Tengo un set datos (+/- 350), y necesito averiguar, como estimar o calcular la varibilidad de estos datos, ya he determinado desviación estándar, máximo, mínimo, promedio, gráficos, histogramas, en fin varias cosas..., el asunto es que necesito una guía o criterio (lo que aplique) para "entender" el asunto de variabilidad, me gustaría comprender, determinar, y finalmente poder hablar con más precisión del tema.
Agradecería si me puedes, ayudar.
Saludos,
{"lat":80.1787134962282,"lng":47.8125}

1 respuesta

Respuesta
1
No se bien a que te refieres con (+/- 350). Pero si lo que quieres interpretar es la variabilidad de unos datos lo puedes hacer con la desviación típica, que se interpreta como la dispersión que tienen los datos alrededor de la media. En el caso de que quieras comparar esa variabilidad con la de otra variable utiliza el coeficiente de varición {Desv. Típica / media} este coeficiente es adimensional y permite comparar variabilidades, la desv. Típica no es buena para eso porque viene influencia por la escala de medida de la variable.
   En cuanto a la media, moda, mediana, son medidas de centralización y por lo tanto no te van a decir nada acerca de la variabilidad, al igual que mínimo y el máximo, sin embargo con el mínimo y máximo puedes calcular el rango, {máximo - mínimo} que también te permite ver si tus datos están todos en un rango de valores grande o pequeño. También puede que hallas oído por ahí la desviación respecto a la media o respecto a la mediana, estas no se suelen utilizar ya que sus propiedades no son nada buenas, por eso mejor no verlo.
  En cuanto a los gráficos te ayudarán a ver si existen huecos en tu distribución de datos y si existen outlets (datos alejados) para ello te recomiendo el diagrama de caja y bigotes (box & whiskers plot) y el diagrama de tallo y hojas. El histograma también te ayudará para ver estos aspectos pero se suele utilizar para ver la forma que tiene nuestra distribución, recuerda que si quieres comparar dos variables te recomiendo que las tipifiques de antemano para verlas en el histograma, pero cuidado que al tipificar hay estadísticos como el coef. De variación que ya no se puede calcular.
Estimado.
En primer lugar, agradezco vuestra rapidísima respuesta. Lamento no haber respondido de igual manera en este mensaje.
Algunas aclaraciones a mi pregunta; con (+/- 350) quise decir que cuento con 350 datos  aproximadamente (mediciones) por cada set (fuente de mediciones = A,B,C y D). Estas fuentes de mediciones son independientes entre sí, y representan la misma variable (flujos) obtenida de su respectiva fuente.
A continuación, te muestro los valores que tengo para estas cuatro fuentes de datos -no supe con pegarlos de mejor forma -
                                   A       <a>  B           C            D </a>
<a>máximo                     654     690       605        610 </a>
<a>mínimo                        30       55         53         55 </a>
<a>rango                       624      635       551       555 </a>
<a>promedio                  458      467      424       472 </a>
Desv típica               72,6     84,9     79,6      71,3
<a>Coef Variac, %       15,84   18,20   18,77    15,11</a>
Lo que aún no comprendo con claridad es, la interpretación de estos valores;
¿Los valores de Desv típica obtenidos, son altos o bajos, es decir, los datos están muy dispersos entre sí?
¿Con este nivel de datos, se puede hablar de datos confiables, o es necesario otro tipo de análisis, por ejemplo el de eliminación de datos outlet (diagrama de caja y bigotes)?
Agradeciendo tu atención.
Saludos
La desv. Std no es muy elevada mirala comparada con la media y verás que noes muy grande para el rango de variación de los datos, En cuanto al Coeficinete de variación, decirte que lo tienes mal calculado ya que es desv. Típica entre la media para el grupo A da 0.1585, Con los datos que proporcionas no se si tus valores poseen outlets por lo que no te puedo comentar nada sobre eso. De todas formas dime que es lo que quieres conseguir con esos datos.
Hola,
Respecto a tus indicaciones; entendí que la desv stad es baja (indica una baja dispersión de los datos).
Quiero saber si existen (además saber como se hace) datos que se pueden considerar outlets en las mediciones. Como lo planteas, es cierto que con esta información, no se puede hacer más, ahora si estás de acuerdo, te puedo enviar la planilla (excel) con los datos.
Por último, los CV los calculé como: desv std/media*100, es decir, los expresé en % (tal vez no se acostumbra de esta manera).
Si te parece el envío de datos, necesitaría alguna direeción de correo.
Desde ya, gracias por tu desinteresado apoyo, y atención.
Saludos.
Para ver los outlets lo más fácil es un digrama de caja y bigotes(box & whiskers) y los puntos aislados fuera de la caja y los bigotes son outlets. Con el diagrama de tallo y hojas también se ven y con el histogra a una frecuencia adecuada se puede ver también.
En cuanto al CV la expresión es Desv.Std/media, nunca se multiplica por 100 ya que no es ningún porcentaje.
Estimado, agradezco sinceramente toda la atención y orientación (rapidísima) respecto a mis consultas. Me parece, un gran gesto de tu parte participar con la dedicación que lo haces en este tipo de iniciativas solidarias.
Nuevamente gracias y cordiales saludos.
Suerte.

Añade tu respuesta

Haz clic para o

Más respuestas relacionadas