Bibliotecas publicas digitales/Book Scan

0) Introducción - Bibliotecas publicas digitales

Dentro del catalogo de los grandes avances históricos, las bibliotecas públicas forman parte de uno de los fenómenos de los cuales nos sentimos mas orgullosas, seguramente junto a la educación y la salud publica, la declaración universal de los derechos humanos, el método científico, la wikipedia o el software libre.

Se trata de una de esas infraestructuras casi invisibles que solo vamos notando cuando empiezan a desaparecer. Durante mucho tiempo, las bibliotecas publicas se han constituido como el lugar desde el cual poder acceder al conocimiento aunque solían ser demasiado dependiente de los presupuestos siempre inestables de los estados del “bienestar” o de los recursos limitados de algunos ricos mecenas.

Internet ha volcado nuestras interpretaciones de lo que tomábamos como dado y posible. El sueño de poder acceder todas a todo el conocimiento se volvió a nuestro alcance. Parecía sólo una cuestión de difusión. Saber vislumbrar cuando las curvas de distribución de los ordenadores personales y el acceso a Internet acabarían por unirse para hacer que ese acceso universal al conocimiento se volviese realidad. Sin embargo, el desarrollo de las bibliotecas publicas en la era de Internet parece ir directamente en la dirección opuesta, haciendo que puedan fácilmente desaparecer.

Muchas bibliotecas publicas no pueden recibir, y a menudo tampoco comprar, los libros editados por grandes editoriales1. Los libros que ya conforman su catalogo deben ser a veces destruidos después de prestarlos 26 (?!?) veces. Se esta perdiendo la batalla del mercado dominado por nuevos actores como Amazon, Google y Apple.

Pero las revoluciones emancipadoras también forman parte de los fenómenos de los cuales podemos mostrarnos mas orgullosas. Empoderar las personas para que cuenten con los medios necesarios para alcanzar sus sueños. No podemos renunciar a las bibliotecas publicas en la edad de Internet, ni al sueño de un acceso universal a todo el conocimiento humano. Por ello activistas, documentalistas, ciudadanas, artistas, hackers, y muchas otras, están creando las circunstancias para volver sus sueños realidad y de paso contar como dijo Melvil Dewey con “escuelas libres y bibliotecas libres para cada alma”.3 La propuesta es la siguiente: Hagamos unos catalogo de todos los libros que ya hemos descargado y compartámoslo! Al fin y al cabo una biblioteca publica consiste en: > Un acceso libre para cada miembro de la sociedad a libros > Unos catálogos de los libros y documentos disponibles > Unas personas bibliotecarias

Con libros preparados para ser compartidos, meticulosamente categorizados, cada persona puede volverse una bibliotecaria. Cuando todas somos bibliotecarias, las bibliotecas publicas se encuentran en todos los lugares. Así de sencillo.

Muy poco habría sido posible si Sean Dockray no hubiese empezado Aaaaarg.org, Dušan Barok Monoskop, Sebastian Luetgert y Jan Gerber Pirate Cinema & pad.ma, Kenneth Goldsmith UbuWeb, Henry Warwick Alexandria project, Piratbyrån The Pirate Bay y si los hackers detrás de Library Genesis no nos hubiesen dado la oportunidad de descargar su catalogo de casi millón de libros. En los siguientes enlaces pueden encontrar varios ejemplos de bibliotecas publicas digitales.

+ info: http://monoskop.org/Monoskop http://ubu.com/ http://aaaaarg.org/(repositorio de libros) http://thepublicschool.org/ http://libgen.org/libreria genesis http://cataleg.xarxabibliosocials.org/portal/ http://625lineas.com/epl/ http://theanarchistlibrary.org/ http://knol.pw/ (Para comprar el libro que buscas a precios super reducidos) http://wolnelektury.pl/ http://www.reddit.com/r/scholar (Una nube para documentos academicos) http://www.mi2.hr Imperial Library of Trantor. Repositorio de libros disponible solo en la red Tor. https://xfmro77i3lixucja.onion.to/(Se puede acceder desde la clearnet mediante esta pasarela) http://pad.ma http://ge.tt http://ge.tt/2YaYETU

1) Fabricar y aprender a usar (y cuidar) un escáner de libros.

La primera fase del encuentro consistio en montar el escaner de libros [1] diseñado y construido por Voja Antonic en el marco del proyecto Memoryoftheworld.org. Partiendo de un manual [2] desarrollado en inglés el pasado més de octubre durante un hackaton organizado en Utrecht [3] unas participantes del encuentro se dedicaron a su traducción en castellano [4]. El manual también se encuentra en formato latex para imprimir [5].

Comentarios sobre el escaneo y procesamiento (Roman):

- después de renumerar los ficheros en "left camera" y "right camera", conviene COPIARLOS a "all" en vez de moverlos; haciendo esto nos queda una copia de resguardo en ambas carpetas, por si algo va mal en "all"

- cuando ponemos los ficheros renumerados en la carpeta "all" conviene chequear que el número de ficheros corresponde al número del último fichero en la carpeta, por ejemplo si el último fichero en la carpeta es "387.jpg" el número de ficheros debe ser 387.

Finalmente, el legendario inventor Voja Antonić nos dio una charla sobre la prehistoria de la cultura hacker en los últimos años 70 y primero 80 en la antigua Yugoslavia. Antonić nos habló de cómo se podía ser hacker en un contexto en el que todavía ni siguiera existían los ordenadores personales, y cómo se difundía y comunicaba la innovación antes del acceso masivo a internet. Nos habló de cómo diseñó el primer ordenador personal DIY en Yugoslavia, el mítico Galaksija, y del sentido ético del trabajo de un ingeniero que fue pionero en muchas cosas en su entorno, pero que donó todo su trabajo al dominio público. Puedes escuchar la charla que dio en este enlace [6] (Recorded by Acoustic Mirror).

+ info: [1] http://www.memoryoftheworld.org/es/blog/2012/10/28/our-beloved-bookscanner/ [2] http://ge.tt/6GcAE4c1 [3] http://www.monnik.org/workshops/free-libraries-for-every-soul-hackathon/ [4] http://titanpad.com/Manual-de-escaneado-de-libros [5] https://www.writelatex.com/976064myydnm#/2253265/ [6] https://archive.org/details/20140418VojaAntonicTalkHackTheBiblioCalafou http://www.diybookscanner.org(Una pagina mantenida por un aficionado a los escaneres de libros) http://www.tabakalera.eu/es/proiektuak/scanner-ibiltaria-3/(Scanner libre construido con impresora 3D en Tabakalera (Donosti) y proyecto de scanner itinerante) http://hackerspace.be/ScanBot(Hacker Space Bruxelles scanner)

Pase de Cine: "Farenheit 451"

2) Programas y aplicaciones libres para construir catálogos

Ningún libro debería dejar nunca la red de catálogos. Si se transfiere debería ir de un catalogo situado en un punto hacia otro catalogo situado en otro punto [0]. La primera pieza de nuestro mosaico rompecabezas es la herramienta de software que permitirá a cada usuario final crear y mantener su catalogo de libros. Hemos encontrado, así como otros 10 millones de usuarios, esa herramienta. Se trata de Calibre [1]. Con ella es fácil volverse un bibliotecario.

La siguiente etapa es conectar los bibliotecarios Calibre entre si. En general, estos usan sus catálogos Calibre dentro de sus ordenadores personales dentro de redes de área locales. Hemos desarrollado herramientas para que pueden conectarse entre ellos sin problemas. Cuando lo hacen pueden sincronizar sus catálogos, recomendar y compartir libros [2] plugin let's share books. Los bibliotecarios se vuelven cyber-bibliotecarios.

Las herramientas contemplan desde enlaces magnéticos para importar libros directamente desde el blog en el cual son recomendados hacia Calibre; ayudas para buscar y descargar grandes repositorios de libros directamente desde Calibre (e.g. Library Genesis, Ebookee, Aaaaarg.org…); una herramienta para contextualisar libros con contenidos de la Wikipedia así como también se encuentra un navegador experimental para navegar dentro de grandes catálogos.

El desarrollo de software cubre un amplio espectro de tecnologías: hackear la wikipedia, extensiones para el navegador web, librerías JavaScript, herramientas de red, enrutadores, NAS (networked attached storage) así como también dispositivos embebidos. El grupo de trabajo Bookmagnet esta trabajando en un conjunto de herramientas, estándares y convenciones acerca de como compartir libros en las futuras bibliotecas publicas p2p.

Sobre artículos académicos: - Código DOI que identifica cada artículo. Encuentras el artículo con su código pero debes pagar (JStore, por ejemplo). Entonces copias el código DOI y lo buscas en LibGen o en Scholar (http://www.reddit.com/r/scholar) <http://www.reddit.com/r/scholar%29>

Sobre Catalogación: - CDU: Clasificación Decimal Universal. 0-9 grandes temas. La mayoría de bibliotecas catalogan así; Copia i Difon ha tomado esta base. - PMB: programa que conecta con los metadatos vía z93. Conecta con grandes bibliotecas.

Conceptos: - Libros huérfanos: http://en.wikipedia.org/wiki/Orphan_works - "Patrimonio Editorial"

+ info: [0] http://www.memoryoftheworld.org/es/blog/2012/11/26/catalogo-de-punto-a-punto/ [1] http://calibre-ebook.com/y http://www.cobdc.net/programarilliure/crea-servidor-ebooks-calibre/ [2] https://github.com/marcellmars/letssharebooks+ http://manual.calibre-ebook.com/gui.html#connect-share. Todos los libros compartiéndose en tiempo real mediante el plugin letssharebooks de calibre: https://library.memoryoftheworld.org/+ https://chat.memoryoftheworld.org/ http://helibtech.com/Open%20SourceHELibTech wiki (open source library software page) http://www.esi.ac.uk/meetings/1114/videos/4807(Modelo de negocio par un sistema de manntenimiento de bibliotecas de código abierto) http://www.lsoft.com/SCRIPTS/WL.EXE?SL1=LIS-OSS&H=JISCMAIL.AC.UK(Lista de correo acerca de sistemas y programas de código abierto para bibliotecas) http://ki.ber.kom.uni.st>> redirected to: http://protopage.com/kiberkomunist(pagina web de Marcell Mars, desarollador del proyecto memoryoftheworld.org)

GPrename y Scan tailor

El proceso de digitalización de la Biblioteca Pública se divide así en los siguientes pasos: 1. Creación digital de imágenes de páginas de un libro, 2. Transferencia manual de archivos de imagen al ordenador para post-producción, 3. Renombramiento automático de archivos, ordenando páginas pares e impares, rotación de imágenes y subida a un almacenamiento en la nube, 4. Transformación manual de las imágenes en archivos .tiff en ScanTailor 5. Reconocimiento óptico de caracteres y creación de archivos PDF en gscan2pdf

Una vez que las páginas del libro han sido fotografiadas, tienen que ser transferidas al ordenador y preparadas para post-producción. esta documentación se centrará en una que puede ser usada en la mayoría de los sistemas operativos: ScanTailor. ScanTailor se puede descargar desde http://scantailor.sourceforge.net/. Puedes ver un vídeotutorial más detallado de ScanTailor en: http://vimeo.com/12524529.

+ info: http://gprename.sourceforge.net/ http://scantailor.org/

Reconocimiento óptico de caracteres (OCR) : De las imagenes a las palabras

Antes de que los archivos gráficos terminen en un e-book, queremos transformar la imagen del texto en texto real que pueda ser encontrado mediante un buscador, subrayado, copiado y transformado. Esta funcionalidad la proporciona el Reconocimiento Óptico de Caracteres (ORC por sus siglas en inglés). Esta tarea es difícil técnicamente, y depende del idioma, el guión, la fuente usada en el texto y la calidad de la impresión. Desafortunadamente no hay muchas herramientas de OCR que sean buenas en esto. Hay, sin embargo, una solución software libre relativamente buena: Tesseract (http://code.google.com/p/tesseract-ocr/) <http://code.google.com/p/tesseract-ocr/%29>, que tiene un buen rendimiento, un buen manejo de idiomas y que puede ser entrenado incluso para obtener mejores resultados, aunque tiene problemas. Soluciones comerciales y propietarias (como por ejemplo Abby FineReader) a veces proporcionan mejores resultados.

Tesseract es un motor OCR libre. Fue desarrollado originalmente por Hewlett Packard como software propietario entre 1985 y 1995. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett Packard y la Universidad de Nevada, Las Vegas. Tesseract es desarrollado actualmente por Google y distribuido bajo la licencia Apache, versión 2.0. Tesseract está considerado como uno de los motores OCR libres con mayor precisión disponibles actualmente. En 1995, Tesseract era uno de los tres mejores motores OCR en cuanto a precisión, además está disponible para Linux, Windows y Mac OS X, sin embargo, sólo ha sido probado por los desarrolladores en Windows y Ubuntu. Hasta la versión 2, Tesseract sólo podía aceptar como entrada imágenes de una sola columna en formato TIFF. En estas primeras versiones no se incluía análisis de patrones, y por tanto, las imágenes con múltiples columnas o anotaciones producían resultados ilegibles. Desde la versión 3, Tesseract soporta el formato en el texto y el análisis del patrón de la página. A través de la biblioteca Leptonica, se consigue la compatibilidad con nuevos formatos de imagen, además, se puede detectar si el texto proporcional o monoespaciado. Tesseract puede procesar inglés, francés, italiano, alemán, español, portugués brasileño y neerlandés, y puede ser entrenado para funcionar con otros idiomas.

HowTo:

Batch processing of TIF files with Tesseract 3.03 for this. [0]. On Debian unstable and testing you can install Tesseract like this:

  # This installs installs tesseract:
  apt-get install tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng
  # This converts all the files IN THE CURRENT DIRECTORY to OCRed PDF

files:

  time for i in *tif; do b=`basename "$i" .tif`; tesseract -l spa "$i"

"$b" pdf; done

  # This merges all the PDF files into a single PDF.
  pdftk *pdf cat output merged.pdf

(.)Ubuntu Trusty Tahr 14.04 ya tiene la versión de Tesseract 3.0.3 en paquetes .deb

  • Renaming in KDE*

On the last tab "4. Filename" select "Filename: Custom name" and enter "#{1;2}" for left camera, #{2;2}" for right camera (without the double quotes...) and enter ## as a Prefix.

Under "Number" make sure that "Start Index" is 0 and "Number of digits" is 3 (should be for books under 1000 pages ??)

3) Canales de encuentro Te puedes suscribir a esta lista para publicar información de interés para el desarrollo de bibliotecas publicas digitales. hackthebiblio@lists.riseup.net

Puedes encontrarnos en el chat: https://chat.memoryoftheworld.org/