La Telaraña Semántica

por Juan C. Dürsteler
Este artículo esta publicado en la revista Inf@Vis!. La revista digital de InfoVis.net N°26 del 22 de enero de 2001
La Telaraña o Web semántica se presenta como la nueva revolución de Internet. La promesa es convertir información en conocimiento.
La telaraña mundial (www) o Web, para el caso, es un espacio de información que ha permitido nuevos niveles de comunicación humana. Por ello mismo la información que existe en la misma se ha diseñado básicamente para el consumo humano y utiliza un lenguaje que hace difícil su utilización por parte de las máquinas para el intercambio y elaboración efectiva de datos.
Las aplicaciones de comercio electrónico, por ejemplo, requieren el flujo de datos entre proveedores, distribuidores, comercios e incluso con el usuario final. Actualmente los intercambios consisten en simples transacciones de datos separados por tabuladores o aplicaciones muy específicas.
La visión que hay detrás de la idea de la Telaraña Semántica es la de que los datos que hay en la red estén definidos de tal forma que puedan ser utilizados y comprendidos por las máquinas sin necesidad de intervención humana. La web se convertiría en un espacio auto-navegable y auto-comprensible. Pero la cosa aún va más allá, de lo que se trata es de convertir la información en conocimiento codificando los datos con metadatos, datos sobre los datos legibles de forma automática.
Esta codificación viene de la mano de la definición de diferentes Ontologias. Una Ontología es, en este contexto (no confundir con el concepto filosófico), la especificación de una conceptualización, esto es de un conjunto de definiciones de conceptos. Las Ontologías se expresan mediante lenguajes de representación como el Resource Description Framework (RDF) que, en la telaraña semántica, se construyen encima de XML.
La creación de Ontologías está dando lugar al desarrollo de Editores de Metadatos o Editores Ontológicos como Protégé o Webonto y a sistemas para favorecer la interoperabilidad, la transformación entre unas ontologías y otras. También se trabaja activamente en el procesado de las mismas mediante motores de inferencia que permiten deducir nuevos conocimientos sobre conocimientos ya especificados.
El potencial de esta futura telaraña mundial es enorme. En principio crear software sería cuestión de encontrar los componentes apropiados en la red junto con la especificación de cómo enlazarlos. Un agente apropiado (no necesariamente humano) podría realizar esta operación.
Pero para las organizaciones podría ser un verdadero salto cualitativo al permitir codificar su conocimiento interno y usarlo apropiadamente para su relación a través de la red con sus proveedores y clientes
La realización de esta visión, tras la cual están, entre otros, Tim Berners-Lee (vale la pena leer sus escritos sobre el tema) y la organización SemanticWeb, necesitará de la estandarización, de la incorporación de las muchas herramientas y tecnologias sobre las que se esta trabajando y de la adopción de unos y otras por parte del mercado.
El primer ejemplo de standard oficial es el ISO/IEC 13250 sobre Mapas Temáticos y ya existen algunas empresas que ofrecen consultoría y herramientas como Ontopia. Las empresas de la red eléctrica en los EEUU han adoptado RDF para intercambiar modelos de generación de corriente. No obstante, aun hay mucho camino por recorrer.
Por otro lado la comunidad europea está incentivando la investigación sobre este campo dentro del V programa marco de investigación.
La diferencia entre información y conocimiento es lo que hace efectiva una organización. La web semántica podría resultar un paso de gigante para pasar de una a otro, pero de momento habrá que esperar y ver.
La Web Semántica: Agentes que cambiarán al mundo -y no serán como 007
Seminario de Opinión Pública FLACSO 2002
por Alejandro Piscitelli [1]
Este trabajo se encuentra publicado en Datos UBA

1. Tejiendo la red
En Mayo de 2001 el genial Tim Berners Lee[2] hizo una presentación magistral en la décima conferencia del consorcio World Wide Web (W3C) en Hong Kong, advirtiendo que Internet estaba lejos de su madurez [3].
En dicha conferencia propuso para mejorar la Red a nivel global, facilitar la integración de distintos lenguajes Web para trabajar conjuntamente, dotarla de funciones móviles de conexión con diferentes dispositivos, y por último, llevar los beneficios de Internet a entornos rurales y países en vías de desarrollo.
También habló de cuestiones técnicas, desde recordar la aprobación oficial de la especificación XML como estándar del consorcio W3C, hasta la próxima aprobación de nuevos estandares altamente necesitados como XHTML (Extensible Hypertext Markup Language), SVG (Scalable Vector Graphics), CSS (Cascading Style Sheets para XML), y MathML (Mathematical Markup Language).
Otra tecnología que recibió la atención del consorcio por su proyección entre las empresas fue la RDF (Resource Description Framework), que vuelve compatibles diversas aplicaciones entre sí para el intercambio de información de una computadora a otra a través de la Web. Este sistema utiliza XML para realizar intercambios de descripciones de cualquier recurso en la Web, incluídos los que no utilizan XML.
Sobre este tema aparentemente abtruso Tim junto a James Hendler y Ora Lassila publicaron una fascinante nota en el Scientific American de junio del 2001 titulada The Semantic Web A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities [4] que nos srvirá de pasto para la reflexión en esta nota.
Encontrar un restaurant que visitamos hace un tiempo, identificar una farmacia abierta de noche tarde o ver cuales son los vuelos que salen para el Chaco no debería ser tan difìcil como encontrar una aguja en un pajar.
Nada de esto debería haber sucedido si la información necesaria para tomar estas microdecisiones estuviera disponible en Internet, pero no del modo como la tenemos hoy en la web (cuando la tenemos), sino perteneciendo a una derivación o estado futuro de la misma, que Berners-Lee y sus colegas llaman justamente La Web Semántica.
2. Un contenido a la medida de los humanos
La mayoría del contenido hoy disponible en la web fue diseñado para que los humanos lo leyéramos. El excelente buscador Google -que atesora mas de 2.000 millones de páginas y 300 millones de imágenes- nos da una información relativamente útil pero apenas puede identificar titulares o links. Es naturalemente incapaz de procesar la semántica.
Esta es la aspiración del engendro que Berners-Lee está ayudando a concebir. Dotar de estructura a la riqueza del contenido de las páginas web tejiéndolo en un tipo de entorno que sea recorrible por agentes de software, de manera tal que pueda desarrollar tareas muy requeridas por los usuarios, en su ausencia y a su pedido.
Desde la trivialidad de encontrar un restaurante al que fuimos hace 3 o 4 años atrás, hasta saber donde está la farmacia de turno mas cercana al mismo, o grabar la parte final de las nominaciones de Gran Hermano III o de Los Simuladores a pesar de que ya no estamos en nuestra casa, o coordinar reuniones de cátedra con los ayudantes hasta llegar a sofisticadas interacciones en rondas de negocios, están en su mira.
Mas aún será posible organizar automáticamente tratamientos o sesiones de fisioterapia, sin necesidad de ningún robot sofisticado como Hal 9000, sino simplemente trabajando con scripts incrustados en las páginas web que tomen rangos de fechas en el formato yyyy-mm-dd y lo devuelvan en horarios de citas posibles y deseables.
He aquí el futuro evolutivo posible de la web, transformar el caos actual propio de la información inconexa y rara vez útil en el momento de tomar decisiones (mejorando nuestra productividad), en un entorno especialmente diseñado para que las máquinas se comuniquen entre si, y nos liberen de decisiones redundantes que consumen tiempo, paciencia y ciclos de neuronas.
El rasgo definitorio de la web es su universalidad. Los links pueden llevarnos de cualquier lado a cualquier lado y son indiferentes a la calidad de la información que vinculan, asi como a los usos posibles que se les pueden dar. La web que tenemos es particularmente indiferente a la calidad de la información, e incluso a su tipología. Le da lo mismo un advertorial de cinco segundos o un paper brillante como el Berners Lee y sus colegas, o la homepage de algún desconocido que creyó haber llegado el momento de promocionarse en Internet.
Donde la indiferencia y deconexión es mas grande aun es entre la existencia superficial de las páginas html (los 50 Terabytes a los que accedemos mas o menos rápidamente con los buscadores) y los 750 Terabytes de la web profunda, contruida por bases de datos y programas y salidas a medida [5]. Hasta hoy la web se había desarrollado como un medio para que la gente accediera a documentos en vez de a datos e información procesada automáticamente. Berners-Lee está trabajando buscando revertir esa dirección.
Si el desafío es tan interesante es porque en el mismo confluyen cuestiones tradicionales de la inteligencia artificial como la representación del conocimiento con un objetivo que es la obsesión Berners-Lee [6], a saber que la gente común pueda usar plenamente estos recursos computacionales, hasta ahora en manos de los expertos o de los mogules de los negocios.
Porque efectivamente para que la web semántica funcione es necesario que las computadoras tengan acceso a grupos estructurados de informaciones y a conjuntos de reglas de inferencia que les puedan servir para ejecutar razonamientos automatizados.
Lamentablemente la representación del conocimiento está actualmente en un estado comparable al del hipertexto antes del advenimiento de la web.
Se trata de una idea maravillosa (gracias a Vannevar Bush y Ted Nelson) y existen buenos ejemplos de como podría funcionar, pero falta mucho para que cambie al mundo. Parece potencialmente revolucionaria pero eso esta por demostrarse. Y hacia ellos vamos (Berners-Lee y todos los que queramos seguirlo).
3. Porque descentralización es la palabra clave
La palabra clave es descentralización. Nada de cerebros de 2 Toneladas buscando alcanzar toda la información posible, como esos horribles robots que mordieron el polvo en las canchas de fútbol del MIT, antes de ser reemplazados por las hormigas artificiales de Rodney Brooks, por COG y por CYC [7].
Los sistemas de representación del conocimiento de esas máquinas obligaban a que todo el mundo compartiera las mismas funciones de conceptos comunes tales como "padre" o "vehículos". Con la tendencia a la descentralización estos sistemas ya no son mas viables, amén de los límites que los mismos tienen en cuanto a la variedad de preguntas que pueden responder.
Los sistemas tradicionales estaban demasiado atados a evitar a cualquier costo las paradojas desatadas por la incertidumbre gödeliana que le quitaba fuerza a los sistema ya sea volviéndolos inconsistentes, ya sea tornándolos incompletos.
La web semántica (repitiendo el mismo esquema que la web superficial y sus temidos mensajes 404 "objeto not found") parte de que la indecibilidad y la ambigüedad son parte constitutiva de la experiencia de la vida.
Hay muchos que todavía hoy se quejan de lo quebradiza y resbalizada que es la web, de sus inconsistencias, de que a lo mejor hay información muy buena asechando por ahí, pero que jamás la encontraremos [8].
Es el precio que debemos pagar por la descentralización. Debemos estar dispuestos a cambiar seguridad por sorpresa, exactitud por novedad, expectativas prefijadas por el asombro permamente o eventualmente por el tedio o la desesperación.
El poder de la web tradicional no está en su estructuración armónica sino en su expresividad. La redundancia asoma con la misma fuerza que en la vida real, y si bien es cierto que los buscadores nos atosigan con información secundaria o repetida, también es verdad que pescan perlas que mas que justifican el pajar que rodea a la aguja encontrada.
El gran desafío para la web semántica será proveer un lenguaje que dé cuenta tanto de los datos como de las reglas de razonamiento acerca de los datos de cualquier sistema de presentación de conocimiento que pueda ser exportado a la web.
Lo que la web necesita hoy es una lógica que permita usar reglas y hacer inferencias que hagan posible elegir cursos de acción y contestar preguntas (no como el tonto del buscador supuestamente inteligente y de sentido común AskJeeves).
La demanda no es nada fácil y se complica por decisiones ingenieriles y de programación nada fáciles de resolver -o siquiera de enunciar.
La lógica debe ser lo suficientemente poderosa como para describir las propiedades de los objetos, pero no tanto como para que los agentes sean inmovilizados por las paradojas.
Las dos tecnologías que se ocuparán de estas difíciles tareas serán el eXtensible Markup Language (XML) y el Resource Description Framework (RDF). XML nos permite crear nuestros propios tags—etiquetas ocultas como
Los Scripts, o programas, pueden utilizar estos tags en formas muy sofisticadas, pero el escritor de los scripts debe saber para que usa cada tag el redactor de la página. Sin embargo hasta aquí no hemos tocado el terrible problema del significado de las páginas.
Este viene expresado por los RDF, que lo codifican en conjuntos de tripletes, cada triplete es el equivalente computacional del sujeto, el verbo y el predicado de una oración básica. Los tripletes se pueden escribir usando tags de XML.
En el lenguaje del RDF, un documento sostiene (hace afirmaciones) de que cosas determinadas (gente, páginas Web o lo que queramos) tienen propiedades (tales como "es una hija de", "es el autor de") con ciertos valores (otra persona, otra página web). Lo bueno de la propuesta es que esta estructura describe la mayor cantidad de información que es procesada rutinariamente por las máquinas.
El sujeto y el objeto se identifican con un Universal Resource Identifier (URI), tal como los que se usan en los links de las páginas Web. También los verbos se identifican gracias a URIs, lo que permite que cualquier persona pueda definar un nuevo verbo definiendo un URI para el mismo en la web.
Hay que evitar por todos los medios el uso de metáforas, homónimos y sinónimos en la asignacion de URIs ya que eso solo puede traer confusiones sin par.
Lo que en el mundo real es fácilmente distinguible para los humanos (dirección), un agente puede confundir entre dirección postal, dirección personal, el lugar del director, la gestión de la empresa, etc (¿pero la vida real no es pura metáfora?).
Aquí la cosa se pone un poco técnica pero vale la pena seguirla (si funciona algún día será una maravilla). Los tripletes de RDF forman webs de información acerca de cosas relacionadas.
Dado que los RDF usan URIs para codificar esta información en un documento, los URIs aseguran que los conceptos no son solo palabras en un documento, sino que están unidos a una definición única que todos podemos encontrar en la web.
Imaginemos -nos dice Berners Lee- que tenemos acceso a una variedad de bases de datos con información acerca de gente que incluye sus direcciones. Si queremos encontrar a la gente que vive en un determinado código postal, debemos saber qué campos en cada base de datos representan nombres y cuales representan códigos de área. El RDF puede especificar que "(campo 5 en la base de datos A) (es un mapa del tipo) (código postal))," usando los URIs en vez de frases para cada término.
4. De la filosofía a la técnica y vuelta. Cuestiones ontológicas
No deja de ser extraño que cuanto mas penetramos en las cuestiones técnicas y abstractas de la web semántica, en realidad lo que hacemos es volvernos cada vez mas filosóficos. No hay duda de que existen afinidades profundas entre Internet y la filosofía tal como lo detectaramos cuando nos encontramos con los ontólogos Yang y Filo de Yahoo! en los albores de la categorización de los sitios de la red [9].
Efectivamente. No alcanza con tener bases de datos codificadas en Internet, porque dos pueden usar diferentes identificadores para el mismo concepto, como es el caso por ejemplo de los códigos postales[10].
Un programa comparador o combinador de información entre dos bases de datos tiene que saber que estos dos términos están siendo utilizadados para significar la misma cosa. En principio sería harto deseable que el programa pudiera descubrir esos significados comunes cada vez que los encuentra en las bases mas distintas o alejadas concebibles.
Para solucionar este importante problema la Web Semántica acude a un tercer concepto (los dos anteriores fueron los RDF y los URIS), es decir a los conjuntos de información llamados ontologías. En la jerga de la Inteligencia Artificial una ontología es un documento o archivo que define formalmente las relaciones entre los términos. La ontología mas básica de la web tiene una taxonomía y un conjunto de reglas de inferencia.
Segun Berners-Lee la taxonomía define clases de objetos y las relaciones que los unen. Así una dirección puede definirse como un tipo de lugar y los códigos de las ciudades pueden definirse como válidos solo para lugares.
Aunque a nosotros nos suene demasiado abstracto y matemático las clases, subclases y relaciones entre entidades son una herramienta muy poderosa para el uso de la web.
Se pueden expresar gran cantidad de relaciones entre entidades asignándoles propiedades a las clases y permitiendo que las subclases hereden esas propiedades. Si los códigos postales tiene que ser del tipo ciudad, y las ciudades generalmente tienen sitios Web, podemos discutir los sitios web asociados a un código de ciudad aunque no haya ningún link de un código de ciudad que apunte directamente a un sitio web.
Las reglas de inferencia en la ontologías proveen mas poder aun. Una ontología puede expresar la regla "Si un código de ciudad está asociado a un código de estado, y si una dirección es el código de ciudad, entonces esa dirección tiene el código de estado asociado". Un programa podría entonces sin dificultad deducir que una dirección de la Universidad de Cornell University, al estar en la ciudad de Ithaca, debe estar en el Estado de Nueva York, que queda en USA, y debería por lo tanto estar formateado según los estandares de USA. La computadora no "entiende" nada de lo que está procesando, pero puede manipular los términos de modo mucho mas eficiente produciendo ganancia para la inteligibilidad humana.
Las ontologías pueden mejorar el uso de la web en muchos sentidos. Desde facilitar las búsquedas haciendo que los buscadores se fijen en páginas concretas y no en palabras ambiguas. Mucho mas interesante es el caso en que las ontologías pueden vincular informaciones en una página a las estructuras de conocimiento y a las reglas de inferencia asociadas.
Esto ya se puede comprobar visitando la página http://www.cs.umd.edu/~hendler. Al dirigirnos a esa dirección veremos la página común "Dr. James A. Hendler." Como humanos que (todavía somos) encontraremos un link que lleva a una corta nota biográfica y nos cuenta que Hendler recibió su doctorado en Brown University adonde George Landow y otros llevaron adelante su monumental proyecto sobre hipertexto.
Esto que nosotros hacemos espontáneamente sería una tarea infernal para una computadora que para obtener esa información necesitaría de una programa colosal. Por eso las computadoras en vez de ver es apagina ven un pagina de ontología que define la información acerca de departamentos de ciencia de la computación.
También este lenguaje permite desarrollar programas jamas de dar cuenta e preguntas sofisticadas cuya respuesta no esta en una sola pagina.
5. La cuestión de los agentes
El verdadero poder de la Web Semántica será finalmente visible cuando la gente cree muchos programas que coleccionen contenido web provenientes de distintas fuentes, procesen la información y la intercambien brindando resultados para potros programas. La eficacia de ese software crecerá exponencialmente a medida que cada vez haya mas contenido web legible para las máquinas y servicios automatizados (que incluirán otros agentes).
Uno de los rasgos mas importantes del funcionamiento de la web va a ser el intercambio de "pruebas" escritas en el lenguaje unificador (se trata del lenguaje que hace posible las inferencias lógicas hecha posibles a través del uso de reglas de inferencia tal como es especificado por las ontologías) de la Web Semántica.
Otro rasgo fundamental del sistema serán las signaturas digitales, es decir bloque encriptados de datos que serán utilizados por las computadoras y los agentes para verificar que la información adjunta ha sido brindada por una fuente específica confiable. Los agentes debe ser muy escépticos acerca de lo que leen en la Web Semántica hasta tanto hayan podido chequear exhaustivamente las fuentes de información.
Es cierto que ya existen muchos servicios web sin semántica pero de este modo los agentes no pueden saber que sabe hacer cada uno. Ello solo sucederá cuando haya un lenguaje común para describir los servicios y depositarlos en directorios semejantes a las paginas amarillas [11].
7. La pretenciosa ambición de imaginar la evolución del conocimiento humano como totalidad
Es cierto que la Web Semántica, es mas flexible que estos esquemas. Los agentes del consumidor y del productor pueden llegar a entenderse intercambiando ontologías, que brindan el vocabulario necesario para la discusión. Los agentes incluso pueden inventarse nuevas capacidades de razonamiento al descubrir nuevas ontologías. La semántica también hace posible hacer uso de un servicio que solo cumple en parte con un pedido.
Un proceso típico supondrá la creación una "cadena de valor" en donde subconjuntos de información pasan de un agente a otro, sumando valor hasta construir el producto final requerido por el usuario. Claro que para pedidos realmente portentosos no alcanzará con la semántica y requeriremos de inteligencia artificial.
Daremos el paso final [12] cuando la Web Semántica rompa con el mundo virtual y entre al mundo físico. Los URIs pueden apuntar a cualquier lado, por lo que podemos usar el lenguaje RDF para describir aparatos tales como celulares y televisores. Y esos aparatos pueden promocionar su funcionalidad (que hacen y como se los controla) como si se tratara de agentes de software. Cuando eso suceda la programación automatizada de actividades del hogar será pan comido -aunque estúpido el ejemplo lo demuestra, llegará el día en que el horno de microondas le pregunte al sitio web del fabricante de comida congelada cuales son los mejores parámetros para su cocción [13].
Sería ser obtusamente reduccionista suponer que la web será el emporio de las decisiones individuales. Berners-Lee un teólogo de la información cree que su criatura puede ayudar a la evolución del conocimiento en su conjunto.
Berners-Lee sabe que las innovaciones se difunden demasiado lentamente y que la tensión que existe entre la efectividad de pocos y las necesidades de mucho están en el origen de muchos de nuestro problemas actuales.
En este proceso juega un rol central la recombinacion de subculturas cuando se necesita un lenguaje común mas amplio.
Es cada vez mas común que dos grupos independientemente desarrollen conceptos similares y su mutua descripción los beneficiará a ambos
Según Berners-Lee la web semántica al dejar que cualquier concepto se defina univocamente por un URI, permite que cualquiera exprese nuevos conceptos inventados con mínimo esfuerzo. La existencia de un lenguaje lógico universal permitiría que esos conceptos sean finalmente integrados en una Web universal [14].
8. No todas son Flores en el camino de Tim
Es probable que logremos mucho de lo que promete Berners-Lee. Pero también es muy probable que mucho no se logre. Porque hay una ambición leibniziana en este diseño, huna expectativa enciclopedista, y sobre todo una concepción acerca de la naturaleza de la interacción social, de la transparencia comunicativa, de la adhesión al principio de cooperación de Grice, a la búsqueda de una lengua universal, que son mas una reconstrucción racional de filósofos que una intención efectiva de los usuarios.
Por ello -y buscando encuadrar todo lo dicho en una perspectiva mayor-- nos apoltronamos un viernes de Octubre del 2001 a las 8 de la mañana en el hermoso auditorio que la Diputación de Barcelona tiene en las colinas en las afueras en Cerdanoyala, dispuestos a gozar (y a sufrir por el horario y la velocidad de transmisión de los oradores) con los aportes que un quinteto de especialistas de renombre mundial nos brindarían sobre la web semántica -complementado o enmendándole la plana al gran gurú Tim Berners-Lee.
Porque efectivamente en una seguidilla de presentaciones, unas mejores y otras no tanto, unas mas integrales y otras mas técnicas, unas mas entusiastas y las otras mas efectistas, nos encontramos cuerpo a cuerpo con Hans-Georg Storck, reponsable de la investigación de la Web Semántica en la Comunidad Europea, Francis Heylighen, co-director del Centro Transdisciplinar del Laboratorio Leo Apostel de la Universidad Libre de Bruselas; Johan Bollen, investigador del Proyecto "El Cerebro Global", James Hendler, investigador de la Universidad de Maryland, experto en el proyecto de la web semántica y Cliff Joslyn impulsor del proyecto "Principia Cibernética" y experto en Sistema de Conocimiento Distribuido.
No vamos a detallar aquí cada intervención [15], ni las anécdotas que se suscitaron en los corrillos, mesas de café y almuerzo, así como en los viaje de ida y vuelta por una carretera llena de rulos y de movimientos convulsivos para estómagos vacíos a la ida y llenos a la vuelta.
Pero si queremos resumir unas ideas básicas esbozadas mas arriba, porque las promesas de la web semántica son mas que interesantes, pero su viabilidad (por diversos motivos que inventariaremos a continuación) están en cuestión. Se trata de una paradoja nada menor que algo tan necesitado no tenga garantizado para nada un futuro promisorio y provechoso para todos.
El primer requisito para la existencia de una web semántica funcional es el establecimiento de estándares que permitan que los usuarios añadan tags descriptivos explícitos (metadata) al contenido que hay en la web, haciendo fácil identificar que es lo que se está buscando.
Después llegará el momento de desarrollar distintos programas que sean capaces de volver convertibles y accesibles la metadata existente en los distintos sitios webs.
El tercer paso consistirá en que la gente pueda desarrollar aplicaciones específicas capaces de lograr hacer inferencias de los datos recabados, permitiendo actuar en forma dinámica generando acciones.
Detrás de todo este empeño está el intento de valorizar los contenidos actuales de la red, dispersos, inconexos, y fundamentalmente redundantes y muy poco prácticos en el momento de tener que tomar decisiones. Pretensión mas que entendible, pero literalmente pretenciosa por no decir enormemente ambiciosa y difícilmente realizable.
Tim, Berners Lee contrató a Eric Miller para dar los primeros pasos sistemáticos en la construcción de este gigante que supuestamente nos ayudaría a convertir estas canteras de información que todavía hoy seguimos explotando con pala y pico, en sistemas automatizados potentes y hasta ahora solo existentes en la ciencia-ficcion.
A esta altura hay algo que ya aprendimos. Los ingenieros de este proyecto de conocimiento distribuido suponen con un poco de razón, y un tanto no menor de exageración, que las máquinas "deberían" poder manipular la información que los humanos procesamos tan lentamente, de un modo mucho mas fluido y exitoso, que como lo hemos estado haciendo en esta primera década de vida inicial de la web.
En el mundo idealizado de la web semántica al tener todas las notas periodísticas perfectamente encabezados sus contenidos se hará muy fácil distinguir entre noticias escritas por Carlos Saul Menem (bueno al menos las firmadas por el) y aquellas que hablen de Carlos Saul Menem, cosa imposible de hacer hoy.
El principio general es que cada vez que uno escriba una nota del tipo que fuera en su computadora personal llene los distintos campos que el word procesa para una recuperación rápida de la informacion.
Lamentablemente yo no lo hecho jamás por lo que mi capacidad de recuperación de información en mi disco rígido es igual a la de la actual web pre-semántica, solo puedo encontrarlos por el título, si es que este tiene algo que ve con el contenido (y muchas veces no tiene demasiado que ver).
Obviamente nada de esto puede hacerse con los tags actuales del html porque este lenguaje solo brinda una cosmética de presentación (después de todo hasta ahora la web solo sirvió para publicar informacion) pero nada dice acerca de qué hacer con el contenido.
Ese es precisamente el objetivo de la web semántica: decir en que consiste la información. Los tags designarán a una pieza de texto como perteneciente a las categorías tema, autor, dirección, precio, costo de envio. No otra cosa son los metadatos, sino estos datos de datos que permiten ubicar fácilmente y cruzar todo tipo de categorías.
No hay nada nuevo en los metadata, son la estopa de la que esta hecha la ciencia de la información (library science) en USA y todos los fanáticos de los libros venimos discutiendo hace décadas cual sistema de metadata (si el Dewey o el de la Biblioteca del Congreso) es el mas adecuado para encontrar la información que estamos buscando en los anaqueles.
Nadie puede relativizar la importancia de la web al permitir intercambiar archivos entre distintas maquinas, una osadía que nadie imaginaba que podría resolverse fácilmente a fines de los años 80. Pero ahora eso es noticia antigua, y lo que necesitamos son herramientas mas potentes y sobretodo una segmentación mucho mas sabrosa y eficiente de la piezas de información existentes en el ciberespacio.
¿Las conseguiremos? Veremos veremos veremos. Si nos guiamos por lo que ya hizo Berners-Lee al inventar a la web, cuando no esperaba nada, y lo logró casi todo, estaríamos en el buen camino. Pero esta vez la apuesta es mucho mas fuerte y los desafíos inimaginablemente mas intrincados. Continúemos.
Navegador Mozilla Firefox
© Fernando Irigaray, Marcelo de la Torre, Jorge Yunes,
Diego Rolle, Carlos Rossano y Pablo Mancini (2002-2005)
