Estadística de palabras conocidas

Tengo una lista con 100 000 palabras y quiero saber que porcentaje conozco a partir de una muestra con un error del 1%. ¿Cuántas palabras tiene que haber en la muestra?

1 Respuesta

Respuesta
1
En la wikipedia tienes la fórmula para calcular el tamaño de la muestra:
http://es.wikipedia.org/wiki/Tamaño_de_la_muestra
n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))
N será el temaño de la muestra, esta por calcular.
Que es un valor que depende del nivel de confianza que asignemos. Si queremos que el intervalo de confianza sea 95% será 1,96. Si el 99% será 2,58.
Para calcularlo buscamos en la tabla de la distribución normal N(0,1) el valor de la variable que hace que la distribución valga (100 + IntervaloConfianza) / 200. Por ejemplo, para IC = 95% tenemos (100+95)/200 =0,975 y si en la tabla buscamos tendremos que
Tabla(1,96) = 0,975, luego 1,96 es el valor que buscado.
N es el tamaño de la población
P es la probabilidad de acierto, si se desconoce se usa 0,5
Que es la probabilidad de no acertar 1-p
E es el error que podemos tolerar. Es la diferencia entre el resultado de la muestra y el resultado que se daría consultando a toda la población.
Pues ahora basta con sustituir nuestros datos en la fórmula. Primero lo haremos con intervalo de confianza del 95%.
k = 1,96; N = 100000; p = 0,5; q = 0,5; e = 0,01
n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))
n = (((1,96^2) · 100000 · 0,5 · 0,5) / ((0,01^2)*99999 + (1,96^2) · 0,5 · 0,5) =
(3,8416 · 25000) / (9,9999 + 3,8416 · 0,25) = 96040 / 10,9603 = 8762,5339
Tomaremos el entero superior para garantizar el resultado.
El tamaño de la muestra para un intervalo de confianza del 95% es 8763
En http://www.fisterra.com/mbe/investiga/9muestras/9muestras2.asp
Tienes una calculadora en Excel para hacer estos cálculos. Usándola para el intervalo de confianza del 99% nos da n = 14229

Añade tu respuesta

Haz clic para o

Más respuestas relacionadas