Frecuencia de letras

Letra K¿Cuáles son las diez letras más frecuentes en castellano? Intente hacer un ránking, así, a pura intuición, y luego compárelo con este listado. Desafortunadamente no aclaran de qué manera construyeron la lista; el tema del sitio —que ofrece recursos para la criptografía— sugiere que tomaron texto en uso, como novelas o artículos periodísticos, pero ciertas singularidades —por ejemplo, la pequeña cantidad de Q— parecen indicar que más bien la construyeron a partir de una lista de palabras, como la de un diccionario. (Por cierto, ¿cuál será la frecuencia de cada letra en el Quijote, por ejemplo?)

11 comentarios Hacer un comentario

  • 1. Christian Sánchez  |  Nov 5 2007, 3:49 am

    Éste es el número de letras del Quijote y su frecuencia (realizado con un simple programita en Pascal):
    e 229188 14,0%
    a 200492 12,2%
    o 162512 9,9%
    s 125726 7,7%
    n 108440 6,6%
    r 100953 6,2%
    i 90070 5,5%
    l 89141 5,4%
    d 87237 5,3%
    u 79471 4,9%
    t 61749 3,8%
    c 59435 3,6%
    m 44658 2,7%
    p 35464 2,2%
    q 32483 2,0%
    y 25115 1,5%
    b 24146 1,5%
    h 19920 1,2%
    v 17855 1,1%
    g 17225 1,1%
    j 10530 0,6%
    f 7581 0,5%
    z 6491 0,4%
    ñ 425 0,0%
    x 377 0,0%
    w 2 0,0%
    k 0 0,0%

    Total=1636686

  • 2. hernan  |  Nov 5 2007, 11:48 am

    Es verdad, la ‘q’ deberia ser mas frecuente que la ‘b’, por ej. Parece que en efecto la lista está mal hecha, no toma en cuenta la frecuencia de las palabras.

    Las mas frecuentes en un novela más moderna (“Niebla”, de Unamuno)

    35729 e
    29736 a
    25986 o
    19433 s
    15793 i
    15618 n
    15461 r
    13076 u
    12603 l
    11606 d
    9944 t
    9075 c
    8295 m
    5811 p
    4240 q
    3606 y
    3415 b
    3192 g
    2988 h
    2978 v

    $ wget http://www.micampus.com.mx/librostxt/Niebla.txt
    $ cat Niebla.txt | tr ‘áéíóú’ ‘aeiou’ | tr ‘A-Z’ ‘a-z’ | sed ‘s/\(.\)/\1\n/g’ | grep ‘[a-z]‘ | sort |uniq -c |sort -nr | head -15

  • 3. Pablo  |  Nov 5 2007, 1:48 pm

    Cuál es la tabla de frecuencias para todos los textos escritos hasta hoy en juegosdeingenio.org?

    Se podrían incluir caracteres que no sean letras? (números, operaciones aritméticas, etc)

  • 4. Leandro  |  Nov 5 2007, 3:43 pm

    Le pegué a 9 de las 1ras 10, nunca hubiese pensado en la “d”

  • 5. Lucre Lucre  |  Nov 6 2007, 1:31 am

    Acerté con 8, lo que se dice todo un suceso intuitivo en mi vida! Subestimé a la “u” y la “d”, en sus lugares elegí la “c” y la “m”, creo no estuve tan lejos.

  • 6. Maxi  |  Nov 6 2007, 10:35 am

    Fuente: Wikipedia
    http://es.wikipedia.org/wiki/Frecuencia_de_aparici%C3%B3n_de_letras

    Ordenadas de mayor a menor frecuencia de aparición obtenemos: E A O S R N I D L C T U M P B G V Y Q H F Z J X W K

    A partir de los datos anteriores, se puede decir que:

    Las vocales ocuparán alrededor del 45% del texto.
    La E y la A son identificables fácilmente dado su porcentaje de aparición.
    Las consonantes más frecuentes son: S,R,N,D,L,C (aparecen con una frecuencia de un 37%)
    Las seis letras menos frecuentes son: F,Z,J,X,W,K (sumadas tienen una frecuencia que no llega al 2%)

  • 7. diego  |  Nov 6 2007, 12:29 pm

    Gracias! Al fin pude confirmar que, efectivamente, las teclas más gastadas de mi celular son las de mayor frecuencia de mi idioma natal! =P

  • 8. Ivan  |  Nov 6 2007, 3:17 pm

    Gracias, Christian y Hernán, por la información. Son curiosas las pequeñas diferencias. (Por ejemplo, la I y la U tienen más frecuencia en Niebla que en el Quijote.) ¿Será que un autor inadvertidamente tiene preferencias por ciertas letras? ¿Podría servir eso para establecer la autenticidad de una obra o un capítulo en disputa?

    Y gracias, maxi, por señalarnos el artículo de Wikipedia. (Donde vemos que se incluyó ya la estadística sobre el Quijote.) Por lo que estamos viendo, para aceptar una tabla de frecuencias debemos saber sobre qué corpus se hizo la estadística, y la información de esa página no lo aclara. (Además de cometer otro grave error: olvida la Ñ.)

    El comentario de Diego podría inspirar una redistribución de las letras en las teclas de los teléfonos celulares o móviles, para lograr que se gasten uniformemente. A la manera del teclado qwerty.

    No sé, Pablo, cuál es la letra más usada en juegosdeingenio.org, pero tengo el placer de anunciar que la palabra más usada
    es «que». Si alguien conoce un plugin para WordPress que cuente las letras de los posts, por supuesto que me gustaría probarlo.

  • 9. Ivan  |  Nov 6 2007, 3:43 pm

    En el artículo de la Wikipedia en inglés sobre letter frequencies se dice que la frecuencia de uso de letras, además de otras estadísticas textuales como longitud de palabras o repetición de dígrafos, son de hecho usadas para determinar la autoría de textos.

    Espero no encontrarme con la sorpresa de también fue ya inventada esta otra creación mía, un polvo oscuro y oloroso que estalla cuando entra en contacto con una chispa.

  • 10. Pablo  |  Nov 7 2007, 10:18 am

    Esto de la frecuencia de letras se presta para una jugosa pérdida de tiempo…
    - Cuál es la novela castellana en la que aparece más frecuentemente la letra “ñ”?
    - Cual es el poema de Borges en que la razón entre la frecuencia de “i” y la frecuencia de “p” es más próxima al número pi? (en ‘Niebla’ i/p = 15793/5811 = 2,7177… casi igual al número “e”!!)

  • 11. cousteau  |  Nov 21 2007, 4:26 pm

    hernan, muy bueno tu programa en bash (lo único que he tenido que cambiar las comillas tipográficas por apóstrofos manualmente). ¿Se podría hacer algo parecido para grupos de dos o tres letras?

Hacer un comentario

(no se publica)

Es posible que su comentario deba ser aprobado antes de la publicación. Sea paciente. Si lo desea puede usar un poco de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> , pero si todo esto no tiene sentido actúe normalmente. Evite escribir todo con mayúsculas. Sea amable.


Esta es una anotación de juegosdeingenio.org, un weblog dedicado a los juegos de ingenio, los acertijos y todo lo demás. Debajo de algunas notaciones aparecen comentarios de otros lectores; usted puede dejar el suyo o bien escribirle directamente al responsable. Las anotaciones más recientes se pueden ver en la página inicial.