Cómo te lee una IA
Dos miradas al motor de toda IA de texto: cómo parte lo que escribes en tokens, y cómo ubica las palabras en el espacio según su significado. Todo corre en tu navegador.
Una IA no lee letras: parte tu texto en tokens (pedacitos) y trabaja con esos. Cada token cuesta dinero y tiempo. Escribe algo y mira cómo lo corta: fíjate en los acentos, el RUT y los emojis.
¿Ves cómo «María» o el RUT se parten en varios pedazos? El inglés suele entrar casi una palabra por token, pero el español (con tildes, ñ y números largos) se fragmenta más. Por eso el mismo texto en español gasta más tokens (y cuesta más) que en inglés. Esto es lo que mide la Calculadora de costos.
Preguntas frecuentes
¿Qué es un token?
Es el pedacito en que una IA parte el texto para procesarlo: puede ser una palabra, un trozo de palabra o un signo. Los modelos no leen letras sueltas, leen tokens, y cobran por token (de entrada y de salida). Por eso entender cuántos tokens ocupa tu texto te dice cuánto costará y cuánto contexto cabe.
¿Por qué el español gasta más tokens que el inglés?
Porque los tokenizers se entrenaron mayormente con texto en inglés. Las tildes, la ñ, los signos de apertura (¿¡) y los números largos como un RUT se parten en varios tokens, mientras que en inglés una palabra suele entrar casi entera. El mismo contenido en español puede costar un 20-40% más de tokens.
¿Qué es el mapa 3D de palabras?
Una IA convierte cada palabra en un vector (una lista de cientos de números) llamado embedding, donde las palabras de significado parecido quedan cerca. Eso es lo que hace posible la búsqueda semántica y los agentes que 'entienden' tus documentos. Acá proyectamos esos vectores a 3D para que puedas verlo: las palabras se agrupan solas por tema.
¿Esto sube mi texto a algún lado?
No. La tokenización corre en tu navegador, y el mapa 3D usa un modelo de IA que también se descarga y ejecuta en tu equipo. Nada de lo que escribas sale de tu computador.