Enfoque: Informática
Wikipedia rumbo a un idioma universal
El futuro empezó el 1 de abril de 2020. Ese día, el informático Zdenko Vrandecic hizo pública su visión: conseguir que Wikipedia –la enciclopedia on-line– no solo sea diez veces más grande, sino también más fiable y más actualizada. Wikipedia Abstracta es el nombre del proyecto. Por su objetivo y por la fecha en la que se publicó, el Día de los Inocentes en el mundo anglosajón, la idea de una Wikipedia abstracta casi suena a broma: lo que este informático quiere es inventar una especie de lenguaje universal. De esta manera, todos los artículos de la Wikipedia escritos, por ejemplo, en inglés podrían leerse también en suajili, y a la inversa.
A Vrandecic, un informático de 42 años, en el mundillo especializado se lo conoce como ‘Denny’. Nos recibe de buen humor y rodeado de cajas. Acaba de dejar su trabajo en Google y se ha trasladado a la localidad de Berkeley para centrarse en su nuevo proyecto, ahora como empleado de la Fundación Wikimedia.
El gigantesco libro de consulta on-line que es la Wikipedia comprende hoy más de 55 millones de artículos, 100 veces más entradas que la mayor enciclopedia impresa de todos los tiempos. En total hay más de 300 Wikipedias en diferentes idiomas y dialectos, desde el albanés hasta el yoruba y el zulú, pasando por el escocés y el yidis.
Pero ese tamaño y esa variedad engañan, advierten los expertos. El crecimiento explosivo ha quedado atrás, el número de contribuyentes activos se ha estancado. La fiabilidad de las entradas va en aumento, pero a cambio de una maraña de reglas que se lo ponen muy difícil a los nuevos autores. La mayoría de las entradas están elaboradas por hombres blancos procedentes de sociedades ricas. Los Países Bajos, por ejemplo, tienen más autores que toda África.
La versión más grande es la de lengua inglesa, con más de seis millones de entradas. La alemana, con unos 2,5 millones de artículos, ocupa la segunda posición. Pero sorprendentemente hay más de un millón de entradas redactadas solo en alemán que carecen de versión en inglés. Versiones en otros idiomas están igualmente aisladas unas de otras, son como islas en un vasto océano.
Y eso es lo que quiere cambiar Vrandecic: desea que todas las entradas de la enciclopedia sean accesibles a todo el mundo, que todas las personas puedan disfrutar del conocimiento atesorado por la humanidad, incluido el de las regiones más apartadas del planeta.
El fracaso y las burlas Cuando Wikipedia nació, esta idea habría sido impensable. La enciclopedia on-line llegó a Internet el 15 de enero de 2001, hace ya 20 años. Todo empezó con un fracaso. Jimmy Wales, hombre de negocios estadounidense, dirigía desde Florida una especie de revista en línea dirigida al público masculino llamada Bomis, con contenidos de deporte y erotismo. Esta base le permitió crear en el año 2000 una enciclopedia comercial on-line bajo el nombre de Nupedia. Pero la cosa no funcionó. Así que Wales abandonó su idea de negocio y transformó la enciclopedia en un proyecto amateurvoluntario. Y llegó la sorpresa: empezó a crecer a un ritmo increíble.
Al principio, la Wikipedia era objeto de muchas burlas, «el equivalente académico a un Big Mac», decían. Pero, para pasmo de los críticos, los estudios demuestran que los artículos de la Wikipedia tienen una fiabilidad similar a los de la Encyclopædia Britannica. Los servidores de Wikipedia están gestionados por la matriz Wikimedia, una organización sin ánimo de lucro con sede en San Francisco y que se financia mediante unas donaciones que alcanzan un valor de 110 millones de dólares al año.
Sin embargo, aunque la Wikipedia es un éxito, muchos de sus problemas siguen sin resolverse. «La mayoría de las entradas están redactadas de una forma enrevesada –se lamenta Vrandecic–. El otro día estaba con mi hija en el parque, y por curiosidad me puse a mirar la entrada de ‘margarita’. Solo entendí la mitad porque no tengo un doctorado en Biología».
Como la comunidad de autores voluntarios no parece tener ganas de simplificar los textos, Vrandecic confía en que su programa de traducción sea capaz de elaborar versiones sencillas de una forma automática.
Vrandecic es un hombre polifacético. En la universidad estudió una dupla de carreras tan poco habitual como Informática y Filosofía. Y más tarde desarrolló Wikidata, una base de datos puros. Wikidata se usa de forma global, independientemente de cada idioma. La intención de Vrandecic es extender el principio en el que se basa Wikidata a artículos enteros de la enciclopedia.
Las ‘alucinaciones’ ¿Y por qué no recurre a programas de traducción automáticos, como Google Translate? «Solo funcionan bien si los dos idiomas cuentan con enormes cantidades de textos en formato legible por máquina», responde. Cuanto menor es la cantidad de textos digitalizados, mayor es la cantidad de morralla que producen. En el mundo especializado se suele hablar de ‘alucinaciones’ para referirse a esos resultados que no tienen ni pies ni cabeza.
Por eso, Vrandecic está desarrollando algo tan ambicioso. «Queremos formular las entradas de la Wikipedia de manera que sean independientes de un lenguaje natural –dice–. Tomemos, por ejemplo, el concepto ‘la mitad’, que se puede expresar de una forma precisa e independiente de cualquier idioma mediante la fórmula ‘50%’. En el siguiente paso, a partir de ese ‘50%’ ya se podría generar el ingles ‘half’ o el francés ‘la moitié’».
Los nombres de lugares, por su parte, se pueden sustituir por códigos alfanuméricos. Por ejemplo, en Wikidata la ciudad de San Francisco tiene adjudicado el ‘Q62’. Los autores podrían utilizar estos datos, áridos pero sólidos, para formular a partir de ellos una entrada perfectamente legible de la Wikipedia en el idioma propio.
Lo del idioma universal es un sueño muy antiguo de la humanidad. El filósofo René Descartes ya propuso en el siglo XVII una «lingua universalis», una lengua de la verdad que permitiera «enumerar todos los pensamientos de los hombres y ponerlos en orden», además de «distinguirlos de forma que sean claros y simples».
«Nosotros somos mucho más modestos, nuestra lengua aspira a ser simple y funcional», dice Vrandecic. Por ejemplo, un armazón de datos puros sobre San Francisco podría ser más o menos así: «instance: San Francisco (Q62), class: object_with_modifier_and_of(».
Esta serie de expresiones de raíz informática no se parecerá a la lengua soñada por Descartes, no tendrá nada de armónica sucesión de pensamientos. Un software de renderizado será el encargado de transformar las series de elementos en un lenguaje comprensible para las personas, dando pie a un ‘artículo resumido’ que luego será pulido por los autores de las entradas de la enciclopedia.
Heather Ford, profesora de Medios Digitales en la Universidad Tecnológica de Sídney, ve un problema: en su opinión, la Wikipedia Abstracta es tan exigente que contribuirá a seguir reforzando el dominio de los países desarrollados en la enciclopedia.
Al contrario, replica Vrandecic: mediante una traducción precisa, las entradas elaboradas en idiomas minoritarios podrían encontrar un acceso más fácil a la Wikipedia inglesa. Además, las traducciones no serían un sustitutivo, sino una herramienta adicional para los autores, que siempre conservarían el control sobre sus textos: «Lo que quiero es que una entrada sobre la cultura amhara venga del amhara, y que una entrada sobre las danzas bengalíes también esté escrita por bengalíes».
Está previsto que la Wikipedia Abstracta presente sus primeros resultados para 2023.