¿Me podrías ayudar con unos datos de estadística básica?

Un lingüista quiere estudiar cuáles son las vocales más usadas dentro de las palabras en un texto de alrededor de tres mil palabras. Contar palabra por palabra sería demasiado trabajo. Por lo que se analizará un subconjunto representantivo.

Me podrías ayudar a resolver las siguientes cuestiones?

1) Cuál es la población de estudio?

2) Cuáles son los individuos de esa población?

3) De cuántos individuos consta la población? Numéralos comenzando por el 00.

4) Cuál es la variable o cuáles son las variables a estudiar?

5) Cuál debe ser el número de elementos necesarios para tomar una muestra de 5% y un porcentaje de confianza de 95%? Para calcularlo, considera que Z=1.96 y que la variabilidad positiva es igual a la negativa.

Con el resultado anterior me están pidiendo que obtenga la muestra a partir de una tabla de números aleatorios. Y que elabore una lista de los datos obtenidos de la muestra de acuerdo con las variables que señale en el inciso d.¨

Pero no sé como hacer esto, me podrías ayudar. Mil gracias.

ATENTAMENTE

CELIA

-

1 Respuesta

Respuesta
1

No sé como tienes que contestar los apartados 1, 2 y 3. Hazlo como te hayan enseñado, para mí se contesta a los tres a la vez diciendo que la población son las alrededor de 3000 palabras que hay en un texto.

4) Las variables serán 5 (suponiendo un idioma de 5 vocales). Serán

Xa en número de aes de una palabra, Xe el número de es, Xi el número de ies, Xo para las oes y Xu para las ues.

5) La fórmula que se usa para estos casos en que se conoce el número de individuos de la población pero no se conoce la varianza es esta:

http://es.wikipedia.org/wiki/Tama%C3%B1o_de_la_muestra

$$n = \frac{k^2 * N*p*q} {e^2 (N-1)+ k^2pq}$$

donde N es la población, e es el error, k es una contante tal que entre -k y k se concentra una probabilidad igual al nivel de confianza en una distribución normal N(0,1)

Como hay igual probabilidad a izquierda y derecha se toma el valor de la tabla que da 0.975 en la tabla que es de sobras conocido que es 1.96. Finalmente p y q son las llamadas variabilidad positiva y negativa que no nos dan, en ese caso se hace p=q=0.5

Y ya no hay más que sustituir los datos en la fórmula.

$$\begin{align}&n=\frac{k^2 Npq} {e^2 (N-1)+ k^2pq} =\\ &\\ &\frac{1.96\times3000\times0.5\times0.5}{0.05^2(2999)+1.96^2(0.5)(0.5)}=\\ &\\ &\frac{1470}{7.4975+0.9604}=\frac{1470}{8.4579}=173.80\end{align}$$

Luego se necesitarán 174 palabras.

Lo último que te piden no sé cómo vamos a hacerlo, se supone que son las vocales en un determinado texto, tendríamos que tener ese texto. Después, dejemos eso de las tablas aleatorias. Con un programa de ordenador generaríamos números aleatorios distintos entre 0 y 2999 y tomaríamos la palabras correspondientes y haríamos el recuento para ver cual es la vocal que más se utiliza estimar la media, etc. Por supuesto que el texto también tendría que estar en el ordenador y las palabras estarían puestas en una tabla.

Y eso es todo.

Añade tu respuesta

Haz clic para o

Más respuestas relacionadas