Todos los Libros Serán Digitales. Tercera y Última Parte.

Para fines de esta década, Google culminará su meta de digitalizar y subir al Internet la totalidad de los millones de libros que se han publicado en la historia de la humanidad. En la parte final de esta serie de Cavilaciones veremos algunas de las cosas que podemos lograr con la información digital que hace menos de 5 años eran imposibles. Quienes no leyeron las partes anteriores pueden hacerlo en el blog que aparece al final.

Podríamos pensar que tener acceso a todos los libros del mundo es algo mágico y surreal. Podemos encontrarlos sin esfuerzo con búsquedas sencillas usando el nombre del autor, el título del libro, la compañía editorial o el año de publicación. Pero esto es trivial. El verdadero poder del contenido en forma digital es que puede indexarse. Esto nos permite, por ejemplo, averiguar en un instante en qué libros aparecen algunas frases. Por ejemplo, puedo saber cuáles libros contienen “Revolución de 1910” y “La Decena Trágica”. Anteriormente este tipo de investigación requería horas, días, meses y hasta años en bibliotecas y archivos, primero para averiguar cuáles libros eran los relevantes, y después para saber si contenían información que yo pudiese utilizar. Hoy puedo hacer este trabajo en unos cuantos minutos.

La herramienta Ngram Viewer (Visor de N-Gramas) de Google sirve para buscar la presencia de palabras en libros publicados en varios idiomas desde 1500 hasta la fecha. Utilicé esta herramienta para encontrar la frecuencia en que aparece la frase “transmisión automática” en los libros en español desde 1900 hasta el 2000 y el resultado se muestra en la gráfica.

Las transmisiones automáticas se lanzaron al mercado en los años 1950, que es en donde podemos observar que la frecuencia aumenta muy rápido llegando a un máximo a principios de los años 1960. Después supongo que las transmisiones automáticas dejaron de ser novedosas y la frecuencia baja a un nivel que se mantiene casi igual desde entonces. La única forma práctica que esto puede investigarse es con información digitalizada. Esta herramienta y otras son populares en estudios sobre el lenguaje y las ciencias sociales. Una investigación en Estados Unidos, por ejemplo, la utilizó para determinar cómo ha cambiado el inglés conforme ha avanzado la equidad de género. Estamos apenas en la etapa seminal del desarrollo de este tipo de herramientas para buscar y analizar información. En el blog de Cavilaciones incluyo más detalles de Ngram Viewer.

No solo los libros están digitalizándose. En los países avanzados los documentos públicos son cada día más accesibles a través del Internet. Ejemplos son la información de los registros civiles tales como actas de nacimiento, de matrimonio y de divorcio, los títulos de propiedad, los resultados de juicios, los registros de arrestos. La secuencia es similar en la mayoría de los casos. Se empieza con un proceso de computarización para evitar el papeleo y mejorar la eficiencia. Es mucho más fácil encontrar un documento digital que uno de papel en un repositorio de expedientes que puede ocupar un edificio entero. Ya que la información está en papel para consumo interno, el siguiente paso es subirla al Internet y hacerla disponible al público. El paso final es digitalizar todo lo que existía en papel antes de la automatización.

Una aplicación muy interesante en Estados Unidos es genealogy.com que sirve entre otras cosas para armar árboles genealógicos aprovechando los registros civiles digitales. ¿Cuándo podremos lograr algo similar en nuestro país?

Notas Extras para el Blog de Cavilaciones

Según Wikipedia, “un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio de los lenguajes naturales, de las secuencias de genes y de las secuencias de aminoácidos”.

La dirección de Internet de Ngram Viewer es:

http://books.google.com/ngrams/graph?content=transmisión+automática&year_start=1900&year_end=2000&corpus=10&smoothing=3

Cambien la frase para ver otros resultados. Si quieren graficar más de una frase sepárenlas con comas. Abajo está una gráfica del resultado dos frases.

Si hacen click en los rangos de años de la tabla de la parte inferior de la gráfica se muestra la lista de libros en donde se encontraron las referencias a las frases.

Una respuesta a “Todos los Libros Serán Digitales. Tercera y Última Parte.

  1. Estimado Ivan:
    Esta herramienta n-gram es sumamente util. si tienes mas tips deberias de tener un cuarto documento. la realidad es que el adolecente y universitario o incluso investigador ahora conciera que todo lo sabe por que encuentra miles de documentos y todo esta ahi ellos dicen: “solo que eres tonto para buscar”. Esta herramienta permite segregar datos en una maraña de paginas, de los millones de pagina que aparecen en una busqueda, saludos. Javier

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *