Academia.eduAcademia.edu
iTienen alguna utilidad las técnicas de Inteligencia Artificial e n el desarrollo de la investigación e n Arqueologia Teórica? Yo pienso que si, y por eso un buen dia de Noviembre de 1990 empece a escribir este libro. En un principio pensaba limitarme a escribir una simple introducción a 10s Sistemas Expertos y cómo debian usarse en Arqueologia; creia que era un tema adecuado para un libro, y que encontraria un amplio mercado para el, lo que facilitaria su publicación. Sin embargo, como todo libro que se precie, Arqueologia Automática pronto empezó a adquirir vida propia, por lo que su apariencia actual es muy distinta de mis proyectos iniciales. 2Qué hace un libro como &te e n una colección de trabajos sobre Arqueologia Mediterránea? La razón más evidente es porque la prictica totalidad de 10s casos y programas de ordenador que e n 61 se estudian hacen referencia de una manera u otra a la Arqueologia de la cuenca mediterránea. No todo en Arqueologogia se reduce a la descripción de piedras polvorientas y cacharros rotos más o menos bonitos. Y este libro pretende ia entendida como una reflexión acerca de cómo hacemos arser un ejemplo d e ello: ~ r q i e o l o ~ MediterrinA queologia e n el mediterráneo, y una propuesta teórico y practica acerca de que arqueologia debemos hacer para estudiar las sociedades que han vivido, a lo largo de la Historia, en algun lugar de ese mar que puedo ver a través de mi ventana. En este libro no se propone ninguna renovación radical de lo que hemos convenido en denominar Arqueologia, sino que se presentan algunas de las técnicas de programación que podemos aplicar al estudio de 10s metodos de inferencia en Arqueologia. La idea general es relativarnente sencilla: el libro expone la noción de problema que se deriva de 10s recientes trabajos e n Psicologia Cognitiva, aplicindola a la caracterización de 10s problemas arqueológicos (en especial aquello que hacen referencia al pasado del Mediterráneo). A continuación se detallan las diferentes técnicas informáticas encargadas de resolver problemas de diagnóstico, diseño y monitorización, intentando siempre explicar las semejanzas entre esas tkcnicas y 10s modos de razonamiento clásicos: deducción, inducción, analogia. He intentado escribir un libro F%cilde leer, sin embargo la materia de la cua1 trata es ciertamente difícil, y requerir%del lector una atención constante, múltiples lecturas complementarias y, sobre todo, desprenderse de muchos de los apriorismos que sobre informática, lógica o filosofia de la ciencia haya aprendido. Los dos primeros capitulos son, probablemente, 10s más dificiles de todo el libro. ¡Que nadie se asuste! Constituyen tan s610 una introducción general al tema. Todas y cada una de las cuestiones que tratan son desarrolladas, con diversos ejemplos arqueológicamente relevantes, en 10s capitulos siguientes. Al final del libro descubrirá el lector que aquello q u e no acababa de entender al principio, se ha hecho mucho mas claro. Pienso que el libro puede ser comprendido por cualquier estudiante con algunos conocirnientos básicos de Arqueologia y de Lógica de Predicados. Puede interesar también al lector farniliarizado con la Inteligencia Artificial, en tanto que introduce un dominio de aplicación hasta hace poco insospechado. Este segundo tipo de lector encontrar5 a faltar referencias a 10s metodos debiles (weuk methods) de resolución de problemas. Esa omisi6n es voluntaria. En general, se trata de tkcnicas interesantes para representar el pensamiento cotidiano, el sentido comun, pero que me han parecido completamente fuera de lugar e n una obra cuyo objetivo es la simulación informática del razonamiento cientifico. No está de mis insistir en el hecho que este libro es una introducción, de ahi que haya abordado tan solo la superfice del tema. Nadie debe esperar convertirse en un experto en Inteligencia Artificial despuks de haber leido las páginas que siguen. Habré cumplido con 10s objetivos que me planteé al escribirlo si alguno de sus lectores potenciales considera que de ha sabido a poco'l y se decicle a desarrollar por su cuenta alguno de 10s temas. Con ese fin aparece al final de cada capitulo una serie de lecturas recomendadas. Adern%s,el Ane- xo final incluye una lista de programas de ordenador ~~asequibles,,, para que el arqueólogo empiece a ejercitarse e n el arte de programar arqueólogos automaticos. Tampoco debe confundirse este libro con un recetario de cocina. No ofrezco ni técnicas perfectas, ni fórmulas milagrosas que solucionen todos 10s problemas que la Arqueologia Mediterránea tiene planteados; sino una descripción ((desdedentro. del razonamiento arqueológico. Aunque hay algunas referencias practicas, no es éste un libro para aprender a construir un Sistema Experto o que explique cómo se usa una Red Neuronal. Para el10 lo mejor es referirse a 10s manuales que acompañan 10s diferentes programas recomendados al final del texto. La utilidad del libro radica, meramente, e n reconocer que existe una manera distinta de estudiar qué es y cómo es la Arqueologia. Los resultados de ese estudio es algo que dejo e n manos de aquellos lectores que elijan desarrollar 10s contenidos del libro. Hoy por hoy la Arqueologia Automatica es mas una promesa futura que una realidad; es un dominio por explorar que proporcionará resultados extraordinarios e impredecibles e n 10s próximos años. Animo a 10s lectores a no ser simples espectadores de esos avances, sino a participar activamente e n la aplicación y desarrollo de la Inteligencia Artificial e n Arqueologia. A lo largo de la elaboración de estas páginas he recibido la ayuda de bastantes investigadores, la mayoria de 10s cuales han tenido la amabilidad de ponerme al dia acerca de sus trabajos. Deseo expresar mi agradecimiento, por tanto a: Christiane Bron-Pury (IJniversité de Lausanne), Costis Dallas (Benaki Museum, Salónica), Francois Djindjian (CNRS, Paris), Jim Doran (University of Essex), Henri-Pau1 Francfort (CNRS, Paris), J. Ganascia (Université de Paris), Jean Claude Gardin (CNRS, Paris), Paul Gibson (University of York), Amador González (Universidad Politécnica de Madrid), Marie-Salomé Lagrange (CNRS, Paris), Jean Le Dizes (CETE-Mediterranée), Ruth Maicas (Universidad Autónoma de Madrid), Mike Palmer (University of Essex), Raquel Piqué (Universitat Aut6noma de Barcelona), Paul Reilly (IBM Research Center), Robert Reynolds (Wayne State University, Detroit), Steve Shennan (University of Southampton), Wiktor Stoczowski (CNRS, Paris), Arthur Stutt (The Open University), Vanda Vitali (Ontario Museum), Bert Voorrips (Universidad de Amsterdam). Ninguno d e ellos es responsable de las inexactitudes u omisiones que yo hubiese podido cometer al comentar sus investigaciones. Empezado e n París, conclui este libro e n Barcelona. En ambas ciudades recibi el apoyo y la amistad de 10s miembros de dos soberbias organizaciones cientificas: el Equipe de Recherche No. 315 del Centre National 'de la Récherche Scientifique (bajo la dirección de Henri-Pau1 Francfort), y el departament de Historia de les Societats Precapitalistes i Antropologia Social de la Universitat Autonoma de Barcelona, convertido recientemente e n División de Prehistoria. Con Aureli Alvarez, Jordi Estévez, Luis Lumbreras, Raquel Piqué y Asunción Vila tuve ocasión de discutir muchos de 10s temas que aquí aparecen, y de llevar a la practica aplicaciones que antes creia irealizables. En la Universidad Aut6noma de Barcelona, utilicé a mis alumnos del curso de doctorado ~Técnicasde como conejillos de indias: si eran capaces de entender el contenido del lnteligencia Artificial e n Arqueologia~~, libro, otros lectores podrian. Ana Delgado, Elisenda Curia, Maria Pallarés y Mercedes Párraga, especialmente, supieron ensenarme que un profesor n o siempre acierta cuando cree estar acertado. Gracias a ellos y ellas, el volúmen inicial de más de 400 paginas, llenas de fórmulas matemiticas y demostraciones de teoremas de lógica formal, se ha convertido e n 10 que el lector tiene hoy e n sus manos. Mis companeras y compañeros del equipo ~Guadalhorce~~ (Maria Eugenia Aubet, Pedro Báscones, Elisenda Curia, Ara Delgado, Antonio Fernandez, Mereces Párraga, Apen Ruiz y Magda Salas (el nombre del equipo deriva del nombre del yacimiento fenicio que excavan) son también deudores de mi gratitud, ya que aceptaron una tecnologia -excéntrica. por el mero hecho de ser yo el que la defendia, y además acogieron al excéntrico tecnólogo que la proponia. Su amistad y colaboración me han permitido no s610 acabar un libro que parecia no tener fin, sino que todos ellos me ensenaron que la arqueologia no acaba ni en el método ni e n la técnica. Mis amigos y mi familia también han contribuído lo suyo. Con unos he discutido de todo lo divino y lo humano, y muchas de esas discusiones aparecen de una forma u otra en este libro. Los otros se han limitado a soportarme, 10 cual, conociendome, es todo un mérito. Y finalmente, pero n o en í~ltimolugar, a a&uien (!) sin cuya ayuda todo el proyecto habria quedado e n el reino de 10s sueños. Aun cuando pueda parecer una herejia, doy las gracias a mi ex-sufrido ordenador (un Macintosh SE/30, adaptado a mi imagen y semejanza), del cua1 me "divorcié" hace u n año, sustituyendolo por un flamante Power Mac 6100, con el cua1 vivo aparejado, para estupor de mi familia. Entre virus (jel pavoroso WDEF-B!) y otras incomprensiones hemos podido trabajar juntos, aunque sin entendernos del todo. Y como no solo d e investigaciones vive el investigador, es preciso agracedecer a la fuente de toda ayuda crematística que nos permita sobrevivir: el Ministerio Espanol de Educación y Ciencia ha sufragado toda la investigación mediante la concesión de una Beca Postdoctoral en el Extranjero y de una Beca de Reincorpora- - ción de Doctores y Tecnólogos. Algunas de las aplicaciones fueron desarrolladas con software adquirido para dirigido por la Profesora M.E. Aubet y subvencionado por la DGICIT (~B090-0680). el ~ProyectoGuadalhose~~, Creo que debiera dedicar este libro a 10s arqueólogos automúticos que, un dia u otro, nos sustituirán en la ingrata tarea de estudiarnos a nosotros mismos. Sin embargo, como aún no existe ninguno capaz de llevar a cabo esa tarea, tendré que dejar este libro sin dedicatoria. Comentarios bibiiograf~cos Como se ver5 más adelante, todos 10s capitulos de este libro cuentan con una selección de libros y a d culos de consulta recomendada. ¿Es posible sugerir un titulo acorde con 10 dicho en esta introducción? Aunque pueda parecer sorprendente, la respuesta a esa pregunta es un rotundo si. Y se trata de una novela: Hermes and the Golden í%inking Machine, de Alexander Tzonis, que podriamos traducir por Hermes y la Dorada MÚquina Pensante. Publicada por el prestigioso Massachussets Institute of Technology (que no es, evidentemente, una editorial dedicada a la comercialización de novelas de evasión) cuenta la historia de un arqueólogo (Hermes Steganos), famoso por ser el primer0 en aplicar técnicas de Inteligencia Artificial en el estudio de la iconografia de la cedmica griega de pinturas negras, que vuelve a utilizarlas... para resolver el asesinato de su tío. No cuento quien es el asesino, porque para eso est5 la novela. Lo interesante de la misma (y por eso la publicó el MIT) es la sencillez y precisión con que explica las técnicas de Inteligencia Artificial. Si además afiadimos que el asunto trata de arqueólogos y dem& cacharros, su lectura pasa a ser muy recomendable. Utrlizamos la palabra qx-oblema))e n distintas ocasrones de la vida cotrdrana: como una cuestión o interrogante por resolver como un conjunto de hechos o circunstancias que dificultan la consecución de un objetivo como una proposición dirigida a averiguar el modo de obtener un resultado cuando ciertos datos son conocidos. Todos esos usos diferentes del término parecen tener algo e n común: ((unproblema es una dificultad que no puede resolverse automiticamente, sino que requiere una investigacion conceptual o empirica>'.En otras palabras, nos planteamos un problema en cuanto nos hallamos en una situación en la que queremos obtener o hacer algo no conocemos las acciones que hay que emprender para obtener lo que queremos o hacer lo que deseamos. Si aplicásemos esta idea general al ámbito cientifico, tendríamos que concluir que toda interpretación, todo significado, no son mas que la solución a un determinado problema. Un ejemplo clhico e n nuestra disciplina seria: ~~iCuá1 es la cronologia del objeto con el número de inventario CA-56917/85? En términos formales representaremos este interrogante por rnedio de la siguiente proposición: y ¿Cu51 es el valor de x, para que la expresi6n (<Cronologiade CA-56917/85 - = - (x)>nsea verdadera? S610 hay un modo de resolver este problema: disponiendo de un conjunto de soluciones posibles alternativa~(cronologias que puede tener ese objeto arqueológico) y decidiendo cuál de ellas es la mas apropiada e n el caso en cuestión, segí~nciertos criterios bien especificados. En otras palabras, ((dadoun clominio D, es necesario encontrar en un conjunto X de soluciones posibles, 10s elementos x que cumplan un conjunto de condiciones K(x) bien especificadas y definidas por el propio enunciado del problema.. iQué es D ? El tema o el dominio del saber e n el cua1 se ha planteado el problema. Es decir, un conjunto de unidades de conocimiento tanto factuales (hechos, axiomas, hiphtesis) corno procedurales (reglas para producir nuevas unidades de conocimiento). Este conjunto suele denominarse genemdor o espacio del problema. El generador de un problema arqueológico est%formado por el conjunto de hechos científicos vilidos, interpretaciones posibles e hipotesis de trabajo e n un dominio concreto; asi, e n el ejemplo cronol6gico anterior, el espacio del problema estaria formado por un conjunto finito de categorias, representando cada una de ellas una fase cronológica u horizonte cultural e n el cua1 el artefacto CA-56917/85 pudiera incluirse. El estado inicial de un problema coincide con lo que 10s 16gicos denominan explanans, esto es, aque110 que queremos interpretar. El estado inicial de un problema arqueológico es olmio: el registro arqueológico, el artefacto o la disposici6n de artefactos que queremos interpretar. En términos operativos, dicho estado inicial no es mis que un conjunto de rasgos descriptives. En otros dominios, la definicion del estaclo inicial no es siempre tan evidente. No debemos confundir el término solución con el térniino objetiuo. El primer0 hace referencia al explanandum y suele denominarse estadojinal del problema. Al igual que el estado inicial, ese estado final no consiste en un simple predicado del tipo d g l o xx'>,sino e n el conjunto de caracteristicas de ciertos objetos del si- glo xx:<<blancos, estrechos, 8 cm. de largo, con forma de tubo, malolientes, rellenos de hojas de la planta Nicotina Tabacum finamente picadas).. En otras palabras, el Estado Final de un problema est5 definido por todas aquellas caracteristicas que diferencian esa solución precisa de las demis posibles. Cuanto mas generales sean 10s tCrminos que describen esa solución, tanto m%s amplio ser% su ámbito de aplicación, y respondera a mas problemas. Ahora bien, para que una unidad de conocimiento asi caracterizada sea realmente una solución precisamos de un conjunto de criterios de validacibn o requisitos para aceptarla como vilida; ese conjunto de requisitos constituye el objetiuo , que puede ser definido en términos sencillos como: <<aquella que desea obtenerse.. En cierto sentido podria decirse que 10s objetivos son las entidades estrictamente opuestas a 10s operadores, que suelen definirse como a n i d a d de conocimiento necesaria para alcanzar un firi.. Segun esto, todo objetivo estaria representado por la detección de una <<falta de información. para obtener algo, e n tanto que los operadores estdrían representados por el -uso>'de ciertza información para poder llenar ese vacio de conocimiento. Ni que decir tiene que el conocimiento al que se refieren objetivo y operador son distintos, puesto que uno depende del otro. [Jsando de nuevo el ejemplo inicial, calcular la cronologia del a ~ g f a c t oCA-5691 7/85,>es el objetivo .el artefacte CA-5691 7/85],es el estado inicial, caracterizado por: <ldecoracióna base de motivos geometricos, altura 11,25 cm.. . epresencia de cerarnica pintada, decoración con motiuos geométricos, borde exvasado, altura entre 1O y 1~5cm., ...,,es el operador 6iglo IX antes de nuestra era. es la solución, A muchos lectores puede sorprenderles esta caracterización del mecanisrno de solución de un problema: jno habiamos definido un problema como (~aquello que deseamos obtener y n o sabemos cón~o?Ahora resulta que ese m o sabemos como>'est2 constituido, e n realidad, por un conjunto de soluciones posibles, una de las cuales se convertir5 en la solucicin id6nea al final de un procedimiento especifico de búsqueda y selección. Lo cierto es que no hay problema que pueda responderse si no se conocen previamente, de una manera u otra, un cierto número de sol~~ciones; y este principio es valido en cualquier ámbito del saber, incluso e n 10s más formalizados, corno las matematicas. La expresión -conjunta de soluciones posibles), puede resultar confusa. Es evidente que e n muchos casos -sobre todo en Arqueologia- las soluciones posibles estin totalmente definidas, y que el mecanisrno de soluci6n se limita a una bílsqueda entre todas ellas y la selección de la mejor. Es, precisamente, eSd metifora de la ~~bí~squecla~~ de solución 10 que da razón de ser al simil geomtttrico en el termino ~espaciolldel problema. El procedimiento o argumento utilizado para elegir una de las soluciones constituye el operador del problema. En otros ámbitos del saber, especialmente e n las disciplinas mas formalizadas, las soluciones posibles son tantas, que un operador basado en la búsqueda y selección de la mejor entre ellas no resultaria efectivo. En Matemáticas, por ejemplo, el conjunto de las soluciones posibles a una ecuaci6n -el Generador de ese problema- esta cc~nstituidopor el conjunto de 10s Números Reales. No hay manera de construir un operador que busque en ese conjunto infinito, porque esa búsqueda no acabaria nunca. En Inteligencia Artificial denominamos a esa dificultad explosión combinatoria. Para evitarlo, podemos hacer que el generador coincida con el operador. Es decir, que el conjunto de soluciones no este definido en terminos de las caracteristicas individuales de cada solucicin, sino en términos de kas. operaciones necesarias para f<producirla>, o (generarla,, , usando como material de construcción el estado inicial. Aunque pueda parecerlo, este procedimiento no est5 reñido con la necesidad de hiisqueda y selecci6n, s610 que ahora la búsqueda no tendri lugar entre soluciones, sino entre operadores posibles. De todo lo dicho hasta aquí se deduce que 10s problemas científicos deben estar enunciados, necesariamente, e n un dolninio concreto, puesto que sin conocimiento previo nunca habri solución. La solución a un problema -ya sea arqueol6gico o propio de la vida cotidiana- surge d e la manipulación de un conjunto de uniclades de conocimiento, las cuales pueden llegar a ser muy numerosas. Cuanto mis estn~cturadoesté ese conjunta de unidades de conocimiento, nlás se parezca a una Teoria Científica y mis integrado est6 el operador en esa Teoria, m i s Ficil ser%resolver el problema y m8s adecuadas las soluciones obtenidas. Por consiguiente, puede considerarse la resolución de un problema como el conjunto de acciones sucesivas que conducen de la descripción empírica de un fenómeno arqueológico a su inteqretación o significado. Esas acciones= son, e n realidad, la aplicación de distintos operadores cuya funcicin es poner e n contacto el estado inicial (descripción del fenómeno) con el estadofinal (o interpretación considerada válida). En definitiva, para resolver un problelna necesitamos: la definicion de un espacio del problema o generador que contenga todas las interpretaciones posibles a un fen6meno dado. Ese espacio es, en realidad, una Teoria Científica acerca de ciertos fenómenos. la especificación de uno o mas estados que sean interpretaciones aceptables (válidas) de ese fenomeno la especificación de un conjunto de reglas (u operadores) derivadas de la Teoria e n la cua1 se ha definido el problema, que describan las acciones permitidas para pasar de la descripción empírica del fenómeno a su interpretación . No obstante, no tene~nossuficiente con estos requisitos; para que un problema sea soluble es preciso que esté bien e.~tructumdo,y para ello: 1. el conjunto de todas las soluciones posibles ( X ) -o espacio delproblema - y las condiciones de cada soluciBn real [K(x)] han de ser totalmente conocidas por el agente encargado de resolver el problema; 2. debe existir un criterio definido para verificar cualq~liersolución propuesta, y un procedimiento <*mecanizable~'para aplicar ese criterio; 3. en el espacio del problema ha de estar representado el estado inicial y su estado final, as1 como todos 10s operadores necesarios para ponerlos en relacion; 4. los cambios o transiciones permitidos en 10s estados de un problema (generados por un <(operador. o regla especifica) pueden representarse e n el espacio de estados del problema -conjunta de t d a s las soluciones posibles-, como transiciones entre estados sucesivos, es decir, como soluciones parciales entre el estado inicial y el estado final del problema; 5. cualquier información que el agente encargadi, de resolver el problema pueda usar ha de estar representada en uno o mis estados del mismo; 6. todas esas condiciones exigen una cantidad de cálculos y un tielnpo d e computaci6n practicables. iCómo se resuelven 10s Problemas cientificos? La resolución de un problema einpieza sielnpre con la identificación de la dificultad que debe resolverse. Una vez identificada recurrimos a la informacicin disponible (conocimiento previo) y decidimos el punto d e partida del procedimiento ~'mecánico~~ de resolución, es decir, construimos un estado inicial sobre el cua1 aplicaremos el operador o 10s operadores necesarios. A continuaciOn estiiwarnos la diferencia existente entre nuestro punto de partida y al punto al que queremos llegar (el objetivo), eligiendo para el10 u11 procedimiento u operador que reduzca esa diferencia y permita que nus trasladetnos del punto de partida hasta el punto de ilegada o solución (Fig. 1.1.). Tanto el estado inicial como el estado final de ese proceso constituyen una representacidn del conocimiento previo: en el primer caso, el conocimiento que define la situaci6n en la que se ha detectado una dificultad, en el segundo caso, el conocimiento que resolverá esa dificultad. En el caso de la arqueologia, la situación e n la que se detecta una dificultad coincide con aquello que se quiere interpretar; por ejemplo, la cronologia de un registro arqueológico especifico. El estado inicial est5 definido, obviamente, por una descripción de ese que deseamos resolver. El estado inicial registro aryueológico, porque es allí donde identificamos la ~'dificultadi) esta de un modo u otro implicito en el enunciado del problema; es decir, aparece determinado por el objetivo a resolver y por el conociiniento previo de que se dispone. representar^^ la situacibn inicial, por tanto, equivale a describi~la.Representar el resukado, por su pal-te, exige construir un conjunto de sofuciones posibles a partir de un conjunto de conocimiento previo. Como veremos a continuación, gran pat-te de ia eficiencia del procedirniento de resoluci6n se basa e n la ~construcción'~ de ese conjunto, es decir, e n el isomorfismo entre las soluciones posibles y el conocimiento del cua1 proceden. La solución a un problema e s unafinción de su estado inicial; es decir, dada una dificultad concreta (objetivo), la solución dependerá de la situación en la que se haya identificado esa dificultad. Esta afirmación es una consecuencia evidente de la caracterización de 10s mecanismos de resolución como búsqueda y selección de la mejor solución posible. Por tanto, la solución concreta que obtengamos habrá de estar determinada por el estado inicial que hayamos empleado como punto de arranque del procedimiento de solución. Un ejemplo necesita AL I + OBJETIVO: dificultad que hay que resolver v lmpone + PREVI0 es parte de Representación es parte de POSIBLES (Generador) . v ENUNCIADO DEL PROBLEMA Representacion 4 I Fzg 1.I Esquema General del Proceso de Resoluczón de u n P~roblema trivial: supongamos una situación cualquiera e n la que hemos identificado una dificultad, puede ser la cronologia de una fase de ocupación concreta e n un yacimiento prehistórico, o la clase social a la que debiera asignarse determinada tumba. Para resolver cualquiera de esos problemas debemos encontrar una unidad de conocimiento particular que dependa de la dificultad identificada, es decir, las categorias &glo IX'>6 [CaudilloTribal>', 7511 pongamos por caso, serían soluciones apropiadas de 10s estados iniciales ((Fasede Ocupacitin 8'8 6 ~~Tumba si y s610 si existiese algun tipo de dependencia entre ambas. El diccionari0 define la relación de dependencia como ~subordinación~' o consec ecu en cia^^ : B depende de A si B es consecuencia de A. A su vez, el tkrmino ~'consecuenciab) suele definirse como <<proposición que deriva de otra". Dicho de otro modo, la soluci6n depende del estado inicial porque ha sido producida (o elegida) apartir de un estado inicial. Al caracterizar el procedimiento de resolver un problema como búsqueda y selección de una entre varias soluciones posibles, estamos dando a entender que la solución a un probleina es una enticlad virtual -no existente- hasta la formulación de u n estado inicial capaz de seleccionarla: el estado final existe porque existe un estado inicial capaz de seleccio?zarla.Ahora bien, esta capacidad de seleccibn no s610 depencle del estado inicial mismo, sino del operador que va a ponerlo en relación con la solución. Es precisamente el hecho de apliT car un operador lo que estable la q~f~~nciónt' o dependencia e n cuestión. Concluiremos, entonces, que la relación existente entre estado inicial y solución coincide con la aplicación de un operador. En realidad, ese operador se limita a representar la función entre ambos, traduci6ndola a un fornlato ejecutable, esto es, como una secuencia ordenada de reglas, acciones e instrucciones. Esa relación (y el operador que la representa) es un elemento de conocimiento cientifico, que forma parte del conjunto de conocimiento e n el que se ha enunciado el problema, el estado inicial y el conjunto de soluciones posibles. Esta relación entre estado inicial y estado final, y que hemos definido, a falta de un término mejor, como de <<dependencia.,no tiene por que ser una relación formal o matematica. Al menos no siempre. El objetivo de este libro es precisamente analizar la gran diversidad de f~~nciones o relaciones posibles existentes entre un estado inicial y una solución posible, la mayoría de ellas incluidas eri el mal llamado y peor comprendido =sentido comun>'.Las cinco modalidades de operador antes enunciadas (Correspondencia, Siinulación, Ordenaci6n, Transformación, Formal) ya nos indican la extrerna diversidad de 10s mismos. Esas relaciones tampoco son nevidentes. o ficiles de establecer. No olvidemos que los problemas surgen de la identificación de cierta dificultad; por lo tanto, la relación entre un estado inicial y un estado final no es nunca obvia, sino no se llamaria dificulrad. Como hemos descrito el procedimiento de resolver problernas en tanto que una busqueda y selecci6n del mejor resultado de entre un conjunto de soluciones posibles, el punto clave en la resolución radica e n determinar si existe o no alguna relacicin entre 10s datos iniciales y la solución propuesta. En la vida cotidiana, pocas veces nos molestarnos en definir esa relación, pues actuamos por ensayo y error o bien recurrimos a nuestra experiencia: si la situación es semejante a alguna antes experimentada, actuaremos de igual forma que 10 hicimos en aquel momento. La resolución de problemas científicos suele estar basada muchas veces en el ensayo y error, si bien lo rnis aconsejable seria establecer la relaci6n entre datos iniciales y resultado mediante: experitnentaciOn deducción aprendizaje A nivel de la resoluci6n del problema, es decir, una vet que se ha obtenido por experimentación, deducción o aprenclizaje una lista de posibles operadores, se procede de nuevo por búsclueda y selección del mas idóneo entre ellos, esto es, de aquel que tnejor reproduzca la relaci6n existente entre el estado inicial y el estado final que resolveri el problema. En definitiva, para poder buscar y seleccionar una soluciOn, es preciso que antes busquemos y seleccioneanos un operador, operaciOn para la que necesitaremos, tatnbien, algí~ntipo de de busqueda de la relación u operador. conocimiento previo que nos permita llevar a cabo esa <~suboperacihn)) Si lo que se desea es alcanzar cierto objetivo (resolver un problema), debe formularse la tarea de alguna manera, esto es, las diversas acciones (operadores) han cle disponerse de algíin modo racionalmente ligado al objetivo. Y esa orclenacihn s610 puecle llevarse a cabo recurriendo al conocimiento disponible. Incluso el hecho de buscar el conocimiento necesario para disponer el conjunto de acciones necesarios forma parte de las acciones que satisfaran el objetivo. Cuanto m8s yroblen~%tica sea la solución, rnenos conocimiento estar%disponible, y mas difícil resultar%su acceso. En este sentido ~(prohlem%tico>, significa '(pobre e n con oci mi en to^^. Descomposición de un Problema Aceptemos, pues, que "establecer))una relación cualquiera entre el estado inicial y uno de 10s estados finales posibles equivale a resolver definitivamente un problema. La imaginacicin y la creatividad, tantas veces exigida por 10s filósofos criticos de la Inteligencia Artificial, radica precisamente e n ese carácter laxo y muy libre de la relación. Lo que importa es que haya algun tipo de asociación, no que esa asociación siga un criteri0 preestablecido o muy riguroso formalmente. Obviarnente, cuanto mas <'formalizable.sea la relación, mayor ualidez otorgarernos a la soluci6n. Consideremos el siguiente ejemplo: qCu51 es la cronologia de la espada de hronce erlcontrada en el yacimiento (A)?>'.Dado que la situación inicial ya est%definida (una descripción de la espada), pues es ella la que nos ha sugerido la necesidad de resolver una dificultad, lo primero que tendretnos que hacer es deducir del conocimiento a nuestra disposicihn (fruto de nuesti-a experiencia o de lecturas sobre la materia) el conjunto de soluciones posibles. Definimos la relación entre el estado inicial y una de entre todas esas soluciones alternativas como una asociacicin simple: la solución elegida ha de contener entre sus características clefinitorias algunos de 10s rasgos descriptivos del objeto. Por ejemplo, el estado inicial 'espada de bronce caracterizada por la forma peculiar de su hoja y pomo, la primera estrangulada e n su tercio superior, y el segundo acabado e n cola de pez~)se asociari con aquella de las soluciones que contengan entre sus características la expresión .<Hojaestrangulada en su tercio superior y pomo en forma de cola de pez,b. Este problema no podr%ser resuelto si: no hemos encontrado ningí~ntérmino de comparación entre estado inicial y estado final, esto es, ninguna de las soluciones posibles mantiene relación de dependencia alguna con el estado inicial. Por ejemplo, si ninguna solución contuviese esa mención a las espadas con un tipo de hoja y pomo determinado. hemos encontrado mas de una solución posible que comparte caracteristicas con ese estado inicial, y no sabemos cual de ellas elegir como g~mejor>, solución. Las soluciones 6iglo IX>', <cSiglox', y Siglo ~<XIVX contienen la característica <<presencia de espadas con hoja estrangulada en su tercio su¿Cual de las tres soluciones, siglos IX, x 6 xrv es la coperior y pomo en forma de cola cle rrecta? En el primer caso, existe i~lcompatibilidadentre el estado inicial y el estado final, y por tanto no puede encontrarse el operador necesario; en el segundo, el Único operador disponible proporciona demasiadas soluciones opuestas entre si (una espada no puede datarse simultaneamente e n tres épocas distintas). En ambos casos aparece la necesidad de descomponer el problema. En otras palabras, 10s '~fallosb,en la resolución dan lugar a que nos planteemos subproblemas cuyo objetivo es, precisamente, resolver la nueva dificultad aparecida. En el caso que aquí nos ocupa ese ~~sul>objetivo)l consiste e n reducir la distancia entre el estado inicial y alguna de las soluciones, es decir, buscando un estado interrnedio, relacionado a su vez con la descripción de la espada y con la solución id6nea y que haga <<de puente. entre uno y otro (Fig. 1.2.). La detecci6n de una unidad de conocimiento entre los clatos iniciales y la solución permitiria clescornponer la aplicaci6n del operador, y con ello el establecimiento de la relacicin entre arnbas, en dos acciones sucesivas: un primer operador entre el estado inicial 57 el estddo intermedio y un segundo -distinto probablernente del primero- entre ese estado intermedio y el estado final. intermedio Fzg 1 2 Elementos en 10s que se descomponc u n problema La descomposición del problema constituye, a su vez, un problema, cuyo propósito ser5 buscar y seleccionar un estado interrnedio que recluzca la distancia entre el Estado Inicial y el Estado Final. Esa búsqueda tend r i lugar e n un espacio de estados intermedios posibles, ohviamente distinto del espacio de soluciones alternativa~,por consiguiente, el espacio del problema estara constituido, no s610 por el conjunto de las soluciones, sino también por el conjunto de todas las descornposiciones posibles. El procedimiento de descomposición puede esquematizarse, entonces, del siguiente modo: Descomponer el problema Si se clesea alcanzar el objetivo G y no se cumple la condición previa C Entonces, alcance previarnente el subobjetivo C'. Los subobjetivos son unidades de conocirniento preespecificadas cuyo objetivo es, precisamente, resolver 10s errores de ejecuci6n. Se trata de un conocimiento acerca del procedimiento para resolver el problema antes que a c e r a de la soluci6n correcta del problema; nos referiremos a 61 como meta-conocimiento. Es importante destacar que, sin ese meta-conocimiento, no puede haber solución en el caso de problemas medianamente complejos. La aparici6n de errores de ejecucicin durante la resoluci6n de un problema depende de los fallos e n el mecanismo de decisión del operador m i s conveniente o de la solución m%sadecuada. Podemos encontrarnos, entre otros, con 10s siguientes: la aplicación de un operador impide decidir cual es la mejor soluci6n, ya que el espacio del prohle- n ~ (la a diversidad de soluciones alternativas) es demasiado grande: varias soluciones posibles son adecuadas para ese estado inicial, la aplicación de un operador no da lugar a solución , pues ninguna de las soluciones existentes e n el espacio del problema parece mantener relación alguna con su estado inicial, el Único operador aplicable indica que el estado inicial no es el adecuado en ese espacio del problema (la descripción del ajuar de una tumba no nos permite responder a preguntas metafísicas acerca de la vida y la rnuerte), puede registrarse un conflicto entre dos o m2s operadores aplicables que proporcionan soluciones opuesvas. Todos esos errores de ejecución se resuelven por medio de bí~squeday selección de conocimiento e n un subespacio especifico. Es decir, el agente que resuelva el problema debe tener acceso a una fuente de información alternativa en la cual encontrar2 el conocimiento que permitir2 resolver la dificultad y alcanzar el objetivo primario. Cada uno de 10s cuatro tipos de error &a lugar a un subproblema peculiar, con un subespacio propio, que puede contener, segí~nsea el caso, nuevos operadores, nuevos estados iniciales, etc. En resumen, para poder resolverlo, todo problema precisa de un sistema de subespacios asociados, cada uno de ellos particular a un subobjetivo especifico. La apariencia externa de ese sistema es la de una compleja red en la que estin integrados todos 10s subproblemas posibles, unidos entre si por medio d e relaciones de <cooperación'>, pues cada subprohlema, con ayuda de 10s demis contribuye a encontrar la, solución idónea al estado inicial . Veamos un ejemplo. La Figura 1.3. representa un problema que requiere tres descomposiciones (o tres subproblemas, coino queramos decirlo) para poder evaluar la relaci6n de dependencia entre el estado inicial y el estado final. Problema General ESTADO INICIAL I A (?) b ESTADO FINAL 1 Y Primera Descomposicion ESTADO INTERMEDIOI ESTADO INTERMED102 ESTADO INTERMED103 Tercera Descomposicion ESTADO INTERMEDI06 I Segunda Descomposición ESTADO INTERMED104 ESTADO INTERMED105 Fzg 1 3 EJ7emplode Arbol dt. descomposzcaón asoczado a un problema arqueológzco El problema general es el siguiente: qCuúl es la cronologia de la espada de bronce ballada en el yacirniento (A)?. El estado inicial está constituido por la descripción morfornétrica de dicha espada, y las soluciones posibles (cronologias) están expresadas en términos de la cerámica característica e n cada una de las sucesivas fases cronológicas: - cerámica con decoración pintada (SIGLO IX) - cerámica con decoración incisa (SIGLO VIII) - cerámica con decoración excisa (SIGLO VII) En este caso existe, obviamente, incompatibilidad entre el estado inicial y 10s tres estados finales posibles. Para resolverla habremos de clescomponer el problema definiendo un primer subobjetivo: iQué ceramica esta asociada a la espada de bf*onceencontmda en elyucimiento (A)? Ahora bien, el operador h g a r de hallazgo de la espada'>no es aplicable porque desgraciadamente desconocemos dónde se encontro la espada. Pertenece a la coleccicin privada cle un aficionada local y nadie se acuerda de cu%ndoy dónde se desenterr6. Los estados intermedios posibles son tres, uno por cada tipo de cerámica que pudiera haberse encontrado junto a la espada. Necesitamos de una nueva descomposición para poder elegir una de las tres soluciones. Recurriremos ahora a un operador analhgico: ¿Que espada mofomét~camentesemejante a la del yaczmiento (A) ha sido encontrada asociada a uno de 10s tres tz$os anteriores? Supongamos que disponemos d e dos ejemplos, una espada asociada a cerarnica pintada e n el yacimiento (B) y otra asociada a cerámica incisa en el yacimiento (C), siendo las espadas halladas e n A, B y C semejantes entre si. Tamblén se repite el problema de la decisión, por lo que plantearemos un tercer subproblema, que nos proporcionar2 la informacicin necesaria para resolver el segundo problema: ,Cual de las espadas encontrada en (Bj y en (Cj es mas semejante -en t6rminos de similaridad materndtica- a la encontrada en (A)? La respuesta a este subproblema es única: s6Io la espada encontrada en (A) es m i s semejante a la encontrada e n (B) que a la encontrada en (C). La solución a este subproblema contribuir2 a solucionar la segunda (<Bspadaencontrada en (B) asociada a ceramica pintada.) y primera' descomposición (<Espadaencontrada en (A) asociada a cerhmica pintada.) hasta llegar al problema general, cuya solución será: La espada de bronce encontrada en el yacimiento A puede datarse en el siglo IX. La selección de fos subproblemas y de 10s subespacios en 10s cuales deberemos busdar 10s estados intemedios es abordada por las estructurus de control delproblema, o conjunt0 de operadores encargados de gestionar el meta-conocimiento. Esos operadores, que regulan las transiciones entre subproblema y subproblema y controlan la ~colaboración~ entre todos ellos son en realidad =meta-operadores)), ya que utilizan unidades d e meta-conocimiento. Operadores de ese tipo serin, por ejemplo: - Seleccionar el Subespacio mis conveniente para solucionar la dificultad (x). - Crear un nuevo estado inicial a partir de las caracteristicas concretas de la dificultad encontrada. - Buscar de entre toclos los posibles el estado intermedi0 que mis se ajuste a la incompatibilidad detectada La Descomposicicin de 10s problemas es un tipo de inferencia capital para poder encontrar soluciones e n problemas minimamente complejos. Es más, me atrevería a decir, incluso, que un problema que no requiera descomposición e n subprobIemas proporciona soluciones <(trivialesn. Hay que tener siempre en cuenta, por tanto, que la relación [estado inicial/estado final1 no tiene por que establecerse directamente entre el estado inicial y el estado final; una simple aplicacicin del operador sobre el estado inicia1 no tiene por qué conducirnos a la solución. No debiéramos extrañarnos si 10s problemas arqueológicos requieren un centenar o m i s de descomposiciones. Los arquehlogos hemos experimentado esta situacicin e n demasiadas ocasiones, cuando 10s objetivos a alcanzar estan muy aiejados de la naturaleza fragmentaria e incompleta de 10s restos arqueol6gicos; 10s esfuerzos por construir Teorias de Alcance Medio (Binford 1983, Raab y Goodyear 1984, Torrence 1986, entre otros) se enmarcan e n este contexto de co aproximar^^ el estado inicial al estado final mediante la adicicin controlada de conocimiento. El espacio de resolución resultante es tan complejo que no hay investigador que pueda establecer procedimientos de búsqueda y selección e n 61. Esa es la justificacicin principal de este libro: 10s ordenadores y las técnicas de Inteligencia Artificial son 10s instrumentos por excelencia para resolver problemas complejos en la disciplina que sea. Comentarios bibliográficos El primer gran clksico acerca del tema de la resoluci6n de problemas es el libro de Polya (1945). Con posterioridad el tema fue completamente reformulado por Newell y Simon (1972) y por Sacerdoti (1977), trabajos e n 10s que se fundamenta la Teoria moderna de la resolucion de problemas. Obras de referencia actualizadas son 10s libros de Pearl(1985) , LauriGre (1986), Torasso y Console (1988), Brown y Chandrasekaran (1989), Gilhooly (1990). 2. ORDENADORES Y CEREBROS. UNA INTRODUCCION A LA INTELIGENCIA ARTIFICIAL ' , solución a un problema en la mente humana y en el ordenador El capitulo anterior puede haber dado la impresión al lector que la resolución de problemas es muy simple y esencialmente mecanica. Nada rnis lejos de la realidad. Supongo que todos tenemos la misma experiencia en darnos de cabeza contra problemas insolubles, tanto e n la vida cotidiana como e n la practica profesional. Mi propósito en este capitulo es mostrar algo de la complejidad asociada a la resolución de cualquier problema, aunque se trate del n ~ %sencillo. s El aspecto ~~meciínico~~ en el que he insistido en el capitulo anterior y e n el que insistir6 a 10 lar-go de este lilxo se debe tan s610 a la necesidad de programar un ordenador para que sea capaz de si~nular,aunque sea solo en parte, la manera e n que 10s cientificos dan soluciones a sus problemas. El estudio de como 10s seres humanos resuelven 10s problemas que se les plantean en la vida cotidiana suele confundirse con el estudio de los mecanis~nosde razonamiento. IJsualmente, se diferencian ambos dominios por la especificidad de 10s mecanismos psicológicos de la soluci6n de problemas, comparada con 10s mecanismos, mucho rnás generales, del razonamiento hurnano. En capitulos posteriores analizaremos esas diferencia~,asi como su relevancia e n la metodologia de las Ciencias Sociales; por ahora nos liruitaremos a estudiar la <'psicologia)) o contenido <'cognitivo>~ de la resoluci6n de prohlt.mas. SegDn algunos autores ((lascaracterísticas de la mernoria humana y de sus mecanismos de funcionamiento determinan que el espacio del problema y la l~ilsquedaentre 10s estados que constituyen ese espacio, sea un rasgo invariante en todo mecanisme de solución de problernas; esto es, que cualquier resoluci6n de un problema tiene lugar en el espacio del mismo. (Newell y Simon 1972: 789). Aceptemos, momentáneamente, este punto de partida, dado que se considera que es un resultado empirico: la casi totalidad de 10s estudios psicológicos revelarian que 10s individuos resuelven los problemas de ese modo (mis adelante veremos que eso solo es cierto e n parte). iQu6 son, psicol6gicamente hal>lando, 10s <<estados. de un problema y por que configuran un ~espacio., esto es, un conjunto mas o rnenos estructuraclo? Cualquiera de 10s estados de un problema representa lo que e r entiende ~ aquí la informaci6n que exisun sujeto sabe acerca del problema en un momento dado; por ~ ~ s a hse te e n la inemoria y a la que se puede acceder. Los distintos estados de un problema son, pues, partículas de conocimiento específicas, llamadas co?zccplos,los cuales estan compuestos, a su vez, por unidades de información elementales, a las que denominaremos simbolos. Consideraremos, ademis, que todo el conocimiento existente en la niemoria tiene una apariencia relacional, ya que est%expresado en tkrrninos de 10s simbolos que 10 definen y de las operaciones mentales necesarias para cu activar)^ esos simbolos, esto es, para acceder a la informaci6n almacenada e n la memoria. Vimos en el capitulo anterior que la resolución de problemas se representalm en términos de estados sucesivos y de 10s operadores necesarios para ~~buscarlos~~ o 'definirlosn en un espacio previamente especificado. Usaremos idkntico nlodelo para referirnos a la resoluci6n de 10s problemas en la mente humana, s610 que ahosa el espacio del problema est%configurado por el conjunto estructurado de conceptos existentes en la memoria del sujeto, y la manera e n que se accede a ellos equivaldrií a 10s operadores para pasar de estado a estado. Dado que 10s conceptos estin definidos en funci6n cte 10s símbolos empleados para su activación, la resoluciOn de un problerna podrá representarse mediante una secuencia finita de operaciones elementales con simbolos. Esas operaciones elementales se refieren a la ~~activación~ o acceso a la información, almacenada en la memoria en forma relacional. Las operaciones con las unidades minimas de conocimiento pueden ser inconscientes; e n otras palabras, no sabemos cómo hemos producido la solución, si bien esa solución parece obvia. Este hecho se debe, esencialmente, a la extrema simplicidad de esas operaciones (normalmente asociaciones por similaridad o analogia), y simultaneamente a la gran cantidad de ellas que se necesita para resolver el problema. La cantidad de simbolos necesarios para activar un concepto (un estado del problema) puede ser bastante grande, aún cuando cada uno de los simbolos que lo componen sea relativamente especifico. La especificidad de esas subunidades de conocimiento implica que exista una cantidad inmensa de ellas e n la memorsa, por lo tanto, si el mecanismo de resolución fuese una mera búsqueda y decisi6n por ífensayo y error>,entre todas las informaciones disponibles, ni el sujeto mis inteligente podria dar una respuesta en un tiempo prudencial. Para resolver esa dificultad, 10s psicólogos han disenado un modelo de la memoria humana dividido e n dos componentes, de manera que la resolución de un problema pueda considerarse como un intercambio entre una Memoria a Largo Plazo, en la que se encuentra almacenada toda la información que un individuo ha ido recogiendo a lo largo de su experiencia, y una Memoria a Corto Plazo. En realidad, ksta no es mis que una parte de la Memoria a Largo Plazo, la memoria activa en un momento dado (Fig. 2.1.) Memoria a Largo Plazo E Producciones Codificadoras I C Producciones Cognitivas D Producciones Decodificadoras Memoria de Trabajo 1 MUNDO EXTERN0 Fzg 2.1 Operaczones de transferencia de conoczmzento entre una Memorta de trabajoy una Memona a largoplazo no especzalizada . . Debido a su tamaño, la Memoria a Largo Plazo no es Qcilmente manejable; por su parte, el pequeño tamano de la Memoria a Corto Plazo permite utilizarla como memoria de trabajo, esto es, el lugar e n el que se van a llevar a cabo las operaciones de resoluci0n. Si esa resoluci6n precisa la utilización de ciertas unidades de información contenidas e n la Memoria a Largo Plazo, entonces se empleará algun procedimiento que permita trasladarla temporalmente a la memoria de trabajo o memoria actiz/a;si ese procedimiento no consigue localizar la información, entonces ninguna solucjón tendrá lugar. Al decir de 10s psicólogos la transferencia entre una y otra memoria se efectí~apor asociación, lo cua1 se debe, esendalmente, a la representación relacional^^ del conocimiento en la memoria. Asi pues, para obtener una solución sin incurrir en la innumerabilidad del conjunto de soluciones posibles (explosión comhinatom'a ), es preciso extraer de la Memoria a Largo Plazo un conjunto delimitado de unidades de conocimiento y situar10 en la Memoria a Corto Plazo, e n la cua1 esas unidades serán manipuladas de acuerdo con la representación subjetiva del problema que se haya hecho el agente encargado de resolverlo. Es decir, el sujeto humano suele emplear partes muy pequeñas de las unidades de conocimiento que conserva en su Memoria a Largo Plazo para responder a 10s estimulos del mundo externo. Nunca se aborda, al menos no al mismo tiempo, la complejidad del entorno con ayuda de la totalidad de conocimientos que se han adquirido a 10 largo d e toda una vida: 10s espacios del problema han de almacenarse en la misma memoria activa encar- gada de procesar 10s estímulos (esto es, resolver el problema), lo cua1 supone siempre una selección de la información contenida e n la Memoria a Largo Plazo. Simon (1973) ha propuesto aplicar este mecanismo general para explicar cómo la tnente humana es capaz de resolver tanto 10s Prohlemas Bien Estructurados, como 10s Problemas Mal Estructurados. Los primeros son aquellos problemas en cuyo espacio pueden especificarse claramente 10s pasos (o la secuencia de operadores) para llegar a la solución. La dificultad para resolver estos problemas radica exclusivamente en la coordinación de la secuencia de operadores, pues no se precisa de ningún subespacio en el cua1 buscar el operador necesario Se suele decir que 10s Problemas Mal Estructurados exigen una o dos intuiciones acerca de la entrada del problema (estado inicial) a fin de obtener la solución; esa ~dntuición~) puede representarse por medio de un procedimiento de búsqueda de 10s operadores en un subespacio estructurado por medio de la imposición de una serie de condiciones o heuristicas que progresivamente limitadn la cantidad de operadores posibles y que, finalmente, permitir%nelegir el m i s adecuado. El procedimiento es aparentemente simple: en cada una de las etapas de la resolución se compara el estado actual del problema con el estado final del mismo (si es conocido) o con las condiciones previamente enunciadas que debe cumplir ese estado para poder ser considerado la solución; a continuacicin se lleva a cabo una operación que permita reducir la diferencia entre el estado actual y las caracteristicas del estado final. El uso de este procedimiento heurístic0 permite al agente encargado de resolver el problema avanzar reduciendo progresivamente la distancia a la solución y evitando el uso de estados del problema que aumenten esa diferencia. La idea de heurística aplicada al razonamiento cientifico no tiene nada de insólito. Tal y como la ha propuesto H. Simon, son ciertas HIPOTESIS VEROS~MILES las que organizan el proceso de resolución de un problema cientifico, reduciendo el espacio de dicho problema y la búsqueda e n el de un estado final, si éste es desconocido. Si el estado inicial fuese, por ejemplo, la descripción de un yacimiento arqueológico y de 10s objetos que en 61 han aparecido, 10s estados posibles del problema arqueológico son infinitos, con lo que nunca se llegar%a una solución. Mas si proponemos una ~ r r d ~ ~ sesto r s , es, una Función de la Cultura l\/laterial e n ese yacimiento y su Contexto de uso habriamos limitado drásticamente el conjunt0 de interpretaciones posibles. La tarea seria entonces constmdirel mecanismo de conexión entre el estado inicial y el estado final que proponemos. La diferencia con la visión positivista de la demostración de hipótesis radica, precisamente, en la '~plausibilidad~~, antes que en la (probabilidad. de esa construcción: no descubrimos una conexión real, sino que proponemos una demostración plausible. En el momento e n que cambiemos las condiciones que hemos impuesto e n el espacio del problema, el resultado ser%otro, impredecible. En resumen, según Newell y Simon, para resolver problemas 10s seres hurnanos utilizan la información que son capaces de extraer de la estructura particular del espacio de un problema, evaluando gracias a ella las inforrnaciones que hay que buscar e n la Memoria a Largo Plazo y trasladar a la memoria activa, asi como 10s operadores necesarios para realizar esas tareas. Si la información que hemos introducido e n la memoria activa es demasiado compleja, o bien, no concuerda con la representacicin que el sujeto se ha hecho del ohjetivo del problema, habri un exceso de información inútil, que ralentizará la resolución y, aún, podrá entorpecerla. Si la información fuese menor, sin embargo, nunca se encontrari la solución por falta de información. Heurística Una búsqueda heurística es u n procedimiento que aplica pasos plausibles para navegar e n un espacio de alternativas inmenso, con el fin de conocer la mejor (o una colección de las mejores) alternativas para cierto propósito. Lo que convierte a esta búsqueda en heurística es que el procedimiento no garantiza que el resultado sea la mejor de todas las alternativas, o una colección que incluya la mejor alternativa, si bien el procedimiento se aproximar5 bastante a ella, de acuerdo con cierto criterio. Ese criterio puede que no sea muy riguroso y que no siempre proporcione una solución bptima, si bien ksta ser5 la mejor que se puede obtener, muy superior a la que se habria logrado sin una búsqueda heurística. Se insiste e n aquell0 que es alcanzable y suficientemente bueno, prescindiendo de 10 que es optimo, pero inalcanzahle. La racionalidad científica consiste, precisamente, e n usar 10s mejores medios que permiten reducir la búsqueda de una solución aceptuble a unas proporciones manejables. Esos medios heuristicos sugieren que operadores hay que aplicar e n cada momento, cua1 es el estado del problema que más nos acerca a la solución y cómo generarese estado -esto es, esa unidad de información particular- si no la conocemos previamente, cómo han d e evaluarse 10s estados sucesivos de un problema, ... Es decir, la forma de utilizar la información necesaria para resolver un problema esti controlada, de un modo u otro, por lo que sabemos acerca de ese problema. Esa es la única forma de poder llegar a una solución en un plazo de tiempo razonable: ei conocimiento del problerna nos permite estipular las condiciones que han de cumplir los estados sucesivos del problema para llegar a ser una solución aceptable al mismo. Si la información disponilAe es muy escasa, entonces se usarin ciertos conocimientos generales acerca de la solución mas aconsejable para proponer nuevas hipótesis (forzosamente muy generales en un primer momento) y contrastarlas (parcialmente). J.L. Lauriere (1986) esquematiza del siguiente modo el procedimiento heurístico de solución: Primer paso Elegir una accibn de entre todas las posibles. Es decir, elegir los operadores que nos han de llevar de un estado a otro. Ello se puede hacer: al azar por concordancia al objetivo propuesto al plantear el problema por experiencia, repitiendo acciones previamente realizada, o reconociendo' acciones clave. por condici6n necesaria: - obligados por nuestro anilisis de la situación - obligados porque alguna solucibn no es contrastable Segundo paso Se lleva a cabo la acción elegida y se modifica la situación inicial. Tercerpaso Evaluacibn de la nuem situación (nuevo estado del problema): por analogia a un problema anterior o con otro estado de ese mismo problema antes evaluado por criterio matemático, usando una funcibn de evaluación que relacione 10s estados del problema con un conjunto de cifras, las cuales se usaran para determinar el operador siguiente. por beneficio: esperanza de salir ganando con el nuevo estado del prohlema alcanzado, ya sea porque se trata de una situación mas simple o porque permite una reduccicin significativa e n la cantidad de investigación necesaria. Cuarto paso Se rechazan las situaciones o estados del problema que sean iní~tilespara la consecución del objetivo Quinto paso Fin. Si la evaluacibn de la situacibn permite afirmar que ése es el estado final del problema, se detiene el procedirniento. Sino, se s i g ~ ~ eaplicando n informaciones heurísticas para alcanzar ese estado final. Es evidente que la complejidad del procedimiento heurístico estari relacionada con la cornplejidad del problema a resolver. Si disponemos de mucha información acerca del mismo, esto es, el espacio del problema es muy grande clebido al número de estados conocidos y accesibles, 10s metodos heurísticos serán muy concretes (relativos exclusivamente al dominio en el cua1 se ha planteaclo el problema) y se referirán a la elección de 10s estados más prometedores para alcanzar la <cmejor>l solución, de acuerdo con un criterio dado. Si, por el contrario, el problema científico es bastante nuevo y se tienen muy pocas informaciones que permitan alcanzar la soluci6n final, 10s procedimientos heurísticos serin muy generales (es decir, se basarán en reglas sinticticas mas o menos universales para obtener nuevos estados del problema a partir de los ya conocidos), lo cua1 iri e n detriment0 de su idoneidad al problema que nos interesa. En esos casos, mientras que un operador genera las diversas acciones e n el espacio del problema (10s rnovimientos o iqfel-encias de un estado a otro), otro operador comprueba si se ha alcanzado una situación final. Según la estructura del generador, la bílsqueda de la solución ser5 puramente aleatoria o heurística. En el caso de Problemas Wal Estructurados, esos generadores tenderán m5s hacia la bílsqueda aleatoria (ast se podrá ampliar al máximo el espacio clel problema); los operadores de comprobación, por su parte, aplicarin criterios heurísticos para evaluar las hipbtesis libremente producidas. En realidad, es asi corno suele actuar el científico humano cuando el dominio que investiga es prácticamente desconocido: proponiendo un gran número de hi- I I i 3 I1 i pótesis muy generales y contrastindolas con ayuda de unos criterios muy concretos, especificos a un único objetivo a la vez. Ohviamente, cuanto mejor especificados estén los prophsitos finales (10s criterios que permiten saber si una solución es apropiada para algo en particular), mejores serán las soluciones, por muy libre o poc0 estructurado heuristicamente que sea el generador de hipótesis. En Arqueologia el termino heurística ha sido utilizado de una forma algo distinta (Kintigh y Ammerman 1982, Simek, Ammerrnan y Kintigh 1985): supongamos que hemos realizado la excavacihn de un determinado sector e n un yacimiento prehistórico, y asumimos que todos los artefactos (por ejemplo, í~tilesliticos) encontrados en ese nivel arqueol6gico son contemporAneos, y forman parte del rnismo nivel de ocupación. De lo que se trata es de averiguar la asociación espacial de esos objetos, es decir, si e n ausencia de vestigios arquitectónicos u otros es posible distinguir áreas diferenciadas usando como inforrnaci6n (estado inicial del problema) las coordenadas x e y de cada uno de 10s artefactos. La cantidad cle agrupaciones estaclisticamente sigriificativas es extraordinariamente grande (una por objeto triangulado), por lo que se reyuiere de un procedirniento heurístico para poder elegir de entre todas las soluciones posibles, la más verosimil. Para el10 se utiliza un procedimiento estadistico de agrupacibn, el anilisis de conglomerados por k- medias. Este procedimiento, sin embargo, exige que el usuario defina el nílmero de agrupaciones ( k ) , calculándose entonces la meior de todas las divisiones posibles con esa cantidad de clases. El procedirniento estadistico no usa ningíln criterio heuristico, se limita a calcular todas las divisiones posibles e n 10s k- grupos definidos por el usuario y elegir aquella en la que la varianza intra-grupo aparece minirnizada. El problema radica no en la parte matemática, sino en la obligacidn clel analista de definir apriori el número de agrupaciones y e n el significado <~arqueologico~~ de las divisibn obtenida. Kintigh, Ammerman y Simek proponen repetir el análisis numerosas veces, solicitando en cada caso un ní~meroclistinto de clases. Asi, se obtendrin, por ejemplo, 15 divisiones, una con una clase, otra con dos, otra con tres, y asi sucesivarnente hasta llegar a la solución con 15 clases. A continuaci6n proponen una completa bateria de tests para elegir la mejor de esas soluciones. Aunque estadisticos, esos tests son clararnente heuristicos : ni el error de la suma de cuadrados, ni la diversidad interna de cada grupo son criterios absolutos (corno si lo era la minimizaci6n de la varianza e n el algoritmo de la división), sino indices comparatives que debiera permitir al arque6logo considerar l(mejor'>la división e n 9 clases que la división e n 11, siendo posible, incluso, que ambas soluciones sean correctas, cada una en su propia escala. Ahora bien, reducir la cornplejidad de un problema no es lo mismo que buscar <latajos= verosirniles e n el espacio de un problema; en ese segundo caso, lo que sirnplificamos es el proceclimiento de soluci6n, no la construcci6n del espacio, que sigue siendo muy complejo. Si redujt.sernos el tamaño o simplific%semosla estnictura relacional del espacio del prot~lemaestariamos sustituyendo un proldema complejo, por otro mis sencillo que no es equivalente alprimero, uunque intuitiuamente esté t+elacionadocon 61. Una respuesta adecuacla al problema simplificado, no tiene por clut. ser una respuesta adecuada al problema original del cual llemos derivado la simplificación. El ejemplo ns8s conociclo de simplificación del problema, y el que mis discusiones ha generado entre arque6logos (ilos post-procesualistas en primera linea!) es el de la descontextualizaci6n: ningí~nfenómeno social es independiente o se explica a si mismo. Es precisamente esta <<dependencia. mutua de todos los fenómenos sociales la que explica la enorme cornplejidad de cualquier problema social, complejidad aún mayor si le añadirnos la polkmica acerca del (contexto>) de la observación, es decir, la alteraci6n consciente o inconsciente que el analista introduce en el fenómeno que pretende estudiar. Un procedirniento heuristico no debiera descontextualizar los problernas, independizar fenómenos que no se explican a si mismos, ni evitar la influencia del observador con la excusa de simplificar el problema y posibilitar la soluci6n. En este estado de cosas, heuristica quiere decir, tan s d o , que el analista es consciente de 13 complejidad, y, sin reduciria, simplifica la solución, prefiriendo una respuesta meramente vdlida, a la respuesta definitiva, a la cua1 quizás se llegue en un momento posterior de la historia de la disciplina. A lo largo de este libro se irin proponiendo numerosos ejemplos no solo de algunas de las heurísticas más apropiadas en la investigación arqueol<igica, sino tambikn acerca de la manera de usar esas heuristicas. Por ahora, lo m i s importante es retener el principio general: es imprescindible el uso de una infornsaci6n adicional acerca de la estructura particular y el alcance del problema, para poder generar y acceder a la información que nos permitir%resolverlo. De todo 10 dicho hasta aquí se desprende que la solución a un problema implica la manipulación del conocimiento. Sin embargo, aún no nos hemos referido a la manera en que eso puede hacerse en la practica: se ha mostrado la forma de llegar hasta una solución (empleando condiciones heurísticas ), pero todavia no la manera de programar un ordenador para que haga 10 mismo (o simule que hace lo mismo) que el cerebro humano. Muchos psicólogos (cf. entre otros Newell y Simon 1972, Anderson 1983, Holland et al. 1986,JohnsonLaird 1988, Newell 1990) han propuesto representar la asociación entre unidades de conocimiento (esto es, entre estados del problema sucesivos) bajo la forma de pares Estimulo-Respuesta; es decir, la búsqueda de un estado u operador en un espacio se representaria por medio de acciones condicionales del tipo: SI el estado actual es A, ENTONCES, pasar al estado A, Siguiendo la terminologia propuesta por Post (1943) llamaremos a esas acciones condicionales produccioraes o reglas de producción. La ventaja fundamental que facilita este modelo es la de [indexar. el conocimiento, asociando un estado mental a una acción mental (operador). Todo lo que se necesita para resolver un problema ha de estar debidamente -indexadol);es decir, para que la búsqueda heurística tenga éxito, todos 10s datos (tanto 10s sustantivos al problema, como el procedimiento heurístic0 propiamente dicho) habrán de estar asociados entre si para que puedan ser aplicables en un momento dado. La manera más sencilla de indexar esa información es por medio de las características y rasgos clescriptivos de las situaciones en las que, heurísticamente, suponemos que una unidad de información especifica debe aplicarse. Así, cuando el agente que resuelve un problema (Hombre o Miiquina) sidentifique. la situación (el estado del problema) gracias a la lista de rasgos descriptivos que posee, aplicará la información y dará un paso hacia la solución. En otras palabsas, 10 que se propone es que para resolver heurísticamente un problema usemos un conjunto frnito d e reglas sencillas, como si A entonces haz B. (1) si A' entonces x es B' ( 2 ) Por ejemplo, SI (x) es un asentamiento Y (x) tiene (y) en cantidad (h) Y (y) es un objeto de cerámica O (y) es un objeto de vidrio Y (y) está datado e n el siglo X , ENTONCES AWRIGUA LA PROCEDENCIA DE (y) SI OBjETíVO es AWRIGUAR LA PRO Y (y) est%hecho de una materia prima foránea EmONCES (y) es un Objeto Importado SI (y) es un Objeto Importado Y (y) es semejante a la cerámica musulmana del Castillo de Silves Y Ch) > 50 ENTONCES (x) tiene evidencias de Comercio foráneo. En todas ellas, la parte izquierda (SI A...) es la condición de aplicación, y la parte derecha (ENTONCES ...B) la acción o generadorde la solución o de un estado sucesivo del problema. ¿Cóm0 funcionari estas reglas? Asulnamos que su número es finito y que la situación de partida es el estado inicial del problema (una comunidad humana y un conjunto de objetos que utilizó o utiliza actualmente esa comunidad). Las condiciones de aplicabilidad de las reglas (SI A...) hacen referencia a la descripción de 10s estados conocidos del problema. Si la situación presente coincide con la descripcibn de una de las situaciones conocidas (esto es, almacenadas en la memoria de trabajo), entonces se activan las unidades de información a las que éstas ultimas esdn asociadas. El resultado es, evidentemente, una nueva situaci6n o estado del problema, una transformción del estado inicial. La funci6n de las reglas es, por tanto, la de añadir nuevos elementos al conocimiento activo (o memoria de trabajo), 10s cuales se ir5n utilizando, sucesivamente, para dar forma al espacio del problema. Las reglas en si no son unidades de conocimiento propiamente dichas, sino un tipo de datos secundari0 que complementa el conocimiento declarativa. Constituyen una forma de almacenar conocimientos procedurales relativos a situaciones concretas. Esta descripción de las reglas y de su funcionamiento permite definir de forma mis conveniente 10s operadores necesarios en el mecanisrno de soluc5ón de un problema. La solución a la que yueremos llegar puede estar formulada explícitamente en tanto que hecho decbrutim : la funcibn de una Espada, por ejemplo, es la de servir de signo de identidad social; la función de una vasija es contener un liquido. Usaremos como representación la regla (2). Pero tambikn podemos caracterizar la solución en tkrminos de las acciones necesarias para construir nuevos estados (previamente desconocidos) dentro del espacio del problema: la función de un buril es fi $festudialas huellas de uso y comprueba si coinciden con las obtenidas al perforar piel en las simulaciones hechas en el laboratoriom. Emplearemos para el10 las reglas del tipo (11, cuya conclusión es un p~ocedirnjento para alcanzar la solución (por ejemplo, una serie de condiciones heuristicas para elegir la mejor soluci6n final cle entre un conjunto de soluciones posibles), o bien, simplemente, para crearla. En lnteligencia Artificial suek trabajarse con 10s siguientes tipos de reglas de producción (cf. Holland et al. 1986, p p . 4 2 ~ ~ ) : Reglas empiricas Son las que contienen y asocian las unidades de conocimiento (estados del pmblema). Se distinguen dos tipos: SINCRQ\'ICAS: asocbciones entre indlviduos y categorías en un inomento dado. Catq6ricas- proporcionan infomación acerca de las relaciones jedrquicas entre categorías, proporcionando la base para establecer relaciones d e pertenencia y asignar propiedades. Por ejemplo: =Siun objeto es un ánfon, entonces es una ceramicau; -si un objeto es una vasija bicónka, d e fuma lenticular, sin cuello ni asas, entonces es una forma 7.; =siuna vasija es una forma 7, entonces su cronologia es siglo XVII a.C-. Asociutiuas- relacionan conceptos sin establecer relaciones jerárquicas o d e perienencia entre ellos. Estas reglas se limitan a asociar abductivamente categarias o propiedades. Por ejemplo: <siaparece una ceráxnica forma 7,entonces apareceri al Lado una alabarda-; -si aparece una espada en la tumba, entonces esa tumba es masculina. En esos casos la regla asocia ¡a condic~ónde la regla no a la categoria a la que pertenece, sino a no importa que otro concepto. D~ACRONI~S: especifican la manera en la que cambiará el conocimiento a medida que pase ei tiempo. Podemos diferenciar las reglas d e predicción, que explican al sistema qué es 10 que debe esperar del futura, y las reglas causales, que conducen al sistema a provocar cambios e n el entorno. Un ejemplo arqueológico sencillo seria: usi la Fase Cronológica A se caracteriza por la presencia exclusiva d e la Forma Cerámica 7, entonces en la Fase Cronoiógica sucesiva B esa forma cerámica s e d d s escasa.. La regla anterior es prediaiva si se limita a asociar hallazgos en contextos estratigráficos sucesivos, o causal si existe alghn fenómeno causal que explique esa asociación temporal. \ CUADERNOS DE ARQUEOI.OG~AMEDITERRÁNEA/ TOMO II I Reglas inferenciales Pocedimientos abstractos (que no dependen del dominio e n el que se ha enunciado el problema) y conciernen a las posibles modificaciones de las distintas reglas empiricas. En otras palabras, son reglas cuya condición y conclusi6n contienen, a su vez, reglas. Su función principal es, precisamente, la de producir reglas empiricas, por lo que serin, necesariamente, m%sabstractas que kstas. En general nos referiremos a eilas como Meta-reglas. Ejempio: SI el objetivo es reducir la diferencia entre el estado actual y otro estado, ENTONCES, se tiene que encontrar una operación que 10 realice. SI el objetivo es encontrar una operación O y no se cumple la condición ENTONCES establecer como objetivo la reducción de la diferencia entre el estado actual y otro que si cumpla la condición C. SI el objetivo es aplicar una operaci6n O sobre el estado actual ENTONCES hacerlo SI existe disparidad entre el estado actual y el objetivo al que se pretende llegar, ENTONCES usar el objetivo que establece la necesidad de reducir esa disparidad SI no hay disparidad entre el estado actual y el objetivo al que se pretende llegar, ENTONCES fin del procedimiento. Principios operativos El inecanismo de control que regula el sistema encargado de resolver el problema. Podríamos referirnos a ellos como reglas cuya condicibn y conclusi6n contienen meta-reglas, aunque suelen expresarse e n términos distintos a 10s de las uniclades de conocimiento, mis cercano al lnecanismo de funcionamiento del sistema que al conocimiento que 6ste contiene. En el caso humano estos principios operativos estin expresados por medio de conexiones nneuronales, y e n el caso del ordenador en lenguajes de bajo nivel (expresibn e n lenguaje de programacihn y no en forma de regla de produccibn). Esos principios hacen referencia a la arquitectura general del mecanismo general de resoluci6n del problema. Incluyen los procedirnientos de activacibn de reglas, asociación de estados del problema, ... En otras palabras, aquellos procedimientos que convierten una lista estitica de producciones en un sistema di~zámico, es decir, en un <'programa)). Introducción a la Programación declarativa Un conjunto de reglas SI ...ENTONCES, debidamente ordenado constituye un programa declarativo. Para que ese programa pueda ser ejecutable -ya sea por la mente humana, ya por un ordenador- es preciso que 10s siinbolos, conceptos, reglas empiricas e inferenciales y 10s principios operativos estén debidamente ordenaclos. Dado un conjunto de condiciones de partida y objetivos [reglas inferenciales], el programa activa aquellas reg l a ~empiricas que conduciran de la situación inicial a la unidad de conocimiento que satisfaga el objetivo. La solución a un problema, por tanto, es una secuencia de activaciones de reglas. Estas reglas no deben confundirse con las estructuras de control de los estados del problema, sino que representan a 10s operadores de activacirin de conceptos. Su f~1nci0n es la de asociar dos tipos de conocimiento: el declarativo propiamente dicho, que describe el estado actual de la memoria activa y el procedural, constituido por 10s operadores necesarios para alcanzar un nuevo estado (a partir del anterior). Un programa declarativo, por tanto, es cliferente a 10s programas algoritmos usuales, básicamente porque no contiene conjuntos ordenados secuencialmente de mandatos imperativos de ejecución, sino series muy largas y cornplejas de asociaciones. Asi pues, 10s programas declarativos se distinguen por: estar constituidos por enunciados y no por mandatos esos enunciados están expresados de manera independiente a su modo de empleo 10s enunciados sucesivos no tienen por qu6 estar ordenados secuencialmente 10s enunciados no son ni verdaderos ni falsos, sino interpretados y/o verificados por el orden del discurso (esto es, por la forma peculiar en que son utilizados para una tarea concreta, orden que cambia con las tareas a realizar o 10s problemas a resolver) y en relaci6n con 10s conocimientos <ciertos')a 10s que se tiene acceso. Los elementos constitutivos de un programa declarativo o sistema dt.producción son: una Base de Datos, una base de Reglas y un intérprete. a ARQUEOLOGÍA AUTOMÁTICA INTELIGENCIAARTIFICIALEN ARQUEOLOG~ Las Reglas -con la estructura típica SI...ENTONCES constituyen la representación interna que hace el sistema de unas unidades de conocimiento o información, ya sean estas factuales o heurísticas. Dentro de la rnisma Base de Reglas se situan ciertas Meta-Reglas, o instrucciones que definen la estrategia de la resolución, arbitran entre reglas conflictivas, definen las reglas que permitiran adquirir nuevas reglas y mantienen 10s coeficientes d e verosimilitud asociados a cada una de las reglas factuales. Mientras que las informaciones ((generales., esto es, aquellas que permiten .interpretar. estan representadas en forma de Reglas u Operadores, la descripción del problema a resolver -sus estados inicial y final- estan representados e n la Base de Datos o de Acontecimientos, la cua1 puede tener diferentes estructuras o formatos. Obviamente, la satisfacción de la condición de una regla se establece por referencia a esa Base de Datos, a la vez que la acción estipulada por esas reglas afecta al contenido y a la estructura interna de la n~isma.Por su parte, ei intérprete es el responsable de seleccionar y aplicar las reglas. El sistema opera por ciclos, cada uno de 10s cuales se descomponen en tres pasos: - El primer paso obliga a encontrar todas las reglas producción aplicables e n una situacicin inicial, comprobando las partes condicionales de dichas reglas. * RESOLUCION DE COWLICTOS.- Si e n el paso anterior se ha encontrado m i s de una regla aplicable a una situación e n particular, entonces se elige una de ellas. Algunas de las estrategias empleadas habitualmente para resolver esta clase de conflictos de aplicación de reglas son: - selección arbitraria - cambrar de regla a cada nuevo ciclo - elegir la primera regla aplicable que se haya identificado - definir a priori un orden de prioridad entre las reglas - usar la regla más especifica - explorar todas las reglas en paralelo. ACCION.- el ultimo paso ejecuta la segunda parte de la regla elegida, modificando la base de datos y dando paso a un nuevo ciclo, que operará ya sobre una base de datos modificada; por lo tanto, el nuevo ciclo empezara recalculando las condiciones de las reglas. Lo habitual es que el sistema sea monótono y parcialmente conmutativo, es decir, que la aplicación de una regla y la modificación que ésta provoca e n la base de datos no debe impedir la aplicacihn posterior de otra regla: dadas dos reglas x e y, cuyas condiciones de aplicación son idénticas, la modificación que cualquiera de ellas imponga a la Base de Datos no debiera eliminar ninguno de 10s hechos e n ella existentes que coincidan con los de la parte condicional de la otra regla. Del mismo modo, si un conjunt0 de reglas permite transformar u n estado del prot>lema P,en un estado P,, cualquier cambio e n el orden de prioridad de esas reglas debe seguir transfomando PI e n P, . En capitulos sucesivos veremos las ventajas que supone operar con sistemas no-monótonos y/o n o conmutativos. COMPARACION.- En 10s -sistemas de producción clasicos~,el enfoque esta dirigidopor los datos: el inthprete busca e n la base de datos las condiciones estipuladas por la regla, si las encuentra, entonces activa la acción o resuelve el conflicto de hallar mas de una regla con esas condiciones. En la mayoria de 10s casos la acción de la regla modifica la base de datos, de modo que se da opcicin a otra regla, con unas condiciones distintas, a ser elegida y aplicada. El intérprete continúa hasta que: a) el problema llega a su solución (heurísticamente estipulada por alguna regla, a la que liamaremos regla de detención); b) se alcanza un estado a partir del cua1 ya no se pueden aplicar nuevas reglas. Un enfoque alternativo est5 dirigido por 20s objetivos. El sistema s610 considera las reglas que son relevantes a una soluci6n previamente elegida por el usuario del sistema. El objetivo, por tanto, es establecer la *validezn o ciemostracivn de esa solución a priori. Para el10 el interprete busca aquellas reglas que desde la soluci6n vayan a un estado inicial, fijandose e n 10s consecuentes (acciones) de las reglas y no e n sus condiciones: primer0 la accicin que ha activado esa solución, luego la acción anterior y asi sucesivamente. Cuando se detecta una regla cuya acción coincide con la solucicin propuesta al problema, se comparan sus condiciones a las de la base de datos (que define, obviamente, el estado inicial del problema): si las condiciones de la regla coinciden con ios hechos en la base de datos, la solución que queríamos demostrar será (correcta>), con 10 que habremos obtenido lo que pretendiamos averiguar si las condiciones de la regla son falsas, es decir, la base de datos contiene sus opuestos, la solución propuesta será incorrecta: habremos demostrado su no idoneidad para resolver el problema cuyo estado inicial est5 representado e n la base de datos si las condiciones de la regla no existen en la base de datos (no son ni falsas ni verdaderas), entonces esas condiciones se convierten en ~~subproblema~~, intentando demostrarlas buscando otra regla que las contenga en su consecuente. Resulta evidente que, por si solas, las reglas no pueden hacer nada. Necesitan de un programa para funcionar (el intkrprete), cuyo funcionamiento aparece esquematizado e n la figura 2.2. Las partes procedurales de todo programa dmlarativo son !os pm'ncz$ios operatim del sistema d e resolución, que no tienen por qui. estat expresados e n el mismo formato que !as partes declarativas o 10s operadores de activación. Esos principios operativos se limitan a aplicar 10s enunciados declarativos. En principio, es posibfe extraer del mecanismo de resolución todo lo que hace referencia a su control, implementándolo independientemente. De ese modo diferenciaremos explícitamente lo que es conocimiento factual, propiamente dicho, de lo que constituye el rnecanismo de razonamiento. Esta diferenciacibn nos va a permitir estudiar las relaciones entre uno y otro, pues ninguna de Pas dos partes puede funcionar sin la otra: Conocimiento (unidades declarativas) y Razonamienta (unidades procedurales o d e procedimiento) son dos aspectos de una misma entidad. Conocimiento I I, " Fig.2.2. Esquema General delfuncionamiento de un Programa capaz de resolverproblemas cientvicos. Las unidades de procedimiento debieran permitir al arqueólogo usar las unidades declarativas de informacion que ha introducido e n el ordenador. En este sentido, podemos definirlas como aquel tip0 de conocimiento que es particular y especifico a la tarea concreta que hay que realizar; por tarea debemos entender: lcumplir una serie de objetivos manteniendo ciertas exigencias (Waern 1989). Distinguiremos entre tres tipos de conocimiento procedural: conocimiento acerca de la tarea que hay que realizar, conocimiento acerca del sistema como tal, conocimiento acerca del sistema como herramienta para realizar la tarea. El conocimiento procedural es fundamental para poder sacar provecho del conocimiento declarativo. Utilizar el Conocimiento Declarativo sin recurrir al metaconocimiento supondria una mera acumulación no inteligente de hechos sin utilidad alguna. Es por eso por 10 que se necesita una autentica integración de ambos, e n la que las unidades de información procedural funcionen como interpretes. Todo conocimiento declarativo presupone la existencia de algí~ntipo de conocimiento procedural; por el contrario, el conocimiento procedural puede ser, en principio, totalmente independiente del declarativo -por ejemplo, en los lenguajes clásicos de programación-. En la práctica, sin embargo, debiera establecerae una relación de dependencia entre uno y otro: el conocimiento declarativo sirve tambikn de estructura d e control de la acción de 10s procedimientos de resoluci6n. Es decir, el contenido factual de cada una de las unidades de conocimiento serviria de regla heurística para especificar 10s movimientos entre estados del problema alternatives. Esto quiere decir que, e n cierto modo, los <<usos. del Conocimiento Declarativo derivan del mismo contenido de ese conocimiento. En teoria, por tanto, si añadimos a la expresión de un dato empirico (esto es, a su descripción), una representación de la manera de utilizarlo, obtendriamos <conocimiento',.Consideremos que ese <<uso'> es resolver un problema de indole científica. Para ello, construiremos con ayuda del '<dato)) un estado del problema. Una manera sencilla de hacerlo seria creando una variahle global cuyo contenido fuese la descripción inicial del objeto; a continuación, necesitaríamos el Conocimiento Declarativo d e ese objeto, esto es, su significado, y lo ~'iisariamos'~ para transformar el estado inicial de esa variable global, avanzando en la resoluci6n del problema. Un enfoque cognitivo alternativa: Redes neuronales Las distintas simulaciones de una arquitectura cognitiva esbozadas en la sección anterior no son unánimemente aceptadas por todos 10s investigadores. En 10s últimos anos se ha insistido especialinente e n su poca verosimilitud -biol6gica., esto es, que el cerebro humano actíla de otra manera. El punto focal de la discusión se situa e n el tema de la ejecución en paralelo de las instrucciones programadas. En las arquitecturas cognitivas anteriores (llamadas ~~simbólicas~~) el flujo de información entre la Memoria a Largo Plazo y la Memoria de Ti-abajo es secuencial., esto es, 10s diferentes operadores contenidos en el segundo término de las regias de producción se ejecutan unos después de otros. Por 10 poco que sabemos acerca de la manera e n que el cerebro humano funciona, se supone con bastante fundamento que 10s diversos operadores son ejecutados simultáne: amente e n paralelo. Otra critica bastante difundida es la que afirma que el ceretxo no contiene ~~simbolos dec!arativos,>,y que los problemas no se resuelven e n términos de operaciones con siml>olos. En otras palabras, aunque fuera posible distinguir una Memoria a Largo Plazo y otra Memoria de Trabajo en el cerebro humano, éstas no estarian constituidas por simbolos declaratives, ni el flujo de información de u1-m a otra se basaria en operadores lógicos tales como la Unión y la Interseccibn. La investigación reciente e n Inteligencia Artificial ha intentado desarrollar nuevas vias. El concepto fundamental desarrollado por estos investigadores recibe el nombre de memoria asociatiua (Pao 1989, Caudill y Butler 1990). Se trata básicamente de un programa de ordenador que guarda la información por medio de asociaciones o correlaciones con el resto de la información conterlida e n la mernoria. Este sisteina informático permite que diferentes partes de una entidad estén asociadas entre si, de rnodo tal que la activación de cualquiera de esas partes activa las restantes. El uso de memorias asociatiuas en informitlca es un resultado de 10s intentos de similar por medios artificiales algunas de las caracteristicas del razonamiento hun~ano:cuando un individuo <aecuerda>~ algo, tiende a reconstruir el hecho a partir no solo del estimulo momentáneo, sino de las relaciones que ése estimulo tenga con todo 10 que el individuo ha aprendido previamente (Mayor y Vega 1992, Ruiz-Vargas 1991). Necesitamos, pues, de un método que <<recuerde)) cua1 era la forma o la descripción de un objeto, a partir de u n estí- mulo incomplet0 o ambiguo. El estimulo est5 asociado al recuerdo, con lo que c recordar em os)^ el objeto según las asociaciones que pudieran existir entre éste y el estímulo. Si no podemos recordar la forma del objeto, entonces no existe una asociación adecuada. Este proceso de construir asociaciones entre estímulos y conceptos memorizados se denomina aprendizaje. Consideremos el siguiente ejemplo trivial. Soy un arqueólogo que a lo largo de mi experiencia de camp o he vis to^^ y descrito una gran cantidad de cerBmicas fenicias (o de cualquier otra cronologia). Como resultado de esa experiencia básicamente visual, mi cerebro ha creado una definición peculiar de las cer%micasfenicias. Esos conceptos no han sido aprendidos en tanto que entidades cerradas: e n este sector del cerebro no se guardan, por tanto, las imigenes tridimensionales de las ánforas, en este otra, 10s platos, etc., sino que cada uno de 10s conceptos existe en tanto que un conjunto de neuronas est5 <<activado)). Aquí, activación significa, tan ~610, que una célula cerebral envia información (por medio de reacciones físico-químicas) a otras células. Estaran asociadas, por tanto, todas aquellas neuronas activadas e n un momento dado. El concepto -ese tipo de cerámica fenicia- no existe en ningún lugar del cerebro, sino que la activación conjunta de un determinado número de neuronas representa dicho concepto. Ahora bien, esas neuronas no están especializadas en la representación de un Único tipo, sino que muchas neuronas participan e n el esquema de asociatividad empleado en la representación de diferentes tipos de cerámicas. Ante determinados estimu10s visuales desentierro una nueva cerámica fenicia- mi cerebro '~recuerda~~ de que cer%micase trata al activar las neuronas que estaban asociadas con este estímulo y no con otro. Todo estimulo idéntico al almacenadoproduce idéntica respuesta; incluso estímulos parcialmente semejantes, podrán generar respuestas semejantes, dependiendo la calidad de la respuesta del grado de semejanza entre estímulos. Esta propiedad es importantísima para nuestro propósito, ya que nos permitira -recordar. un concepto aunque su estimulación sea reducida; en otras palabras, para recordar^^ la forma de cierto tipo de cerámica fenicia no es necesario que el estimulo sea idéntico al concepto. Bastari con la activación de un escaso número de neuronas para que se activen simultáneamente todas las neuronas asociadas con aquellas activadas. Asi pues, el rasgo distintivo de estos sistemas es la asociatividad existente, no s610 entre estímulo y concepto, es decir, entre observación empírica e interpretación, sino entre todas y cada una de las unidades utilizadas en la representación del concepto. La manera de utilizar una Memoria Asociativa, por tanto, es muy distinta a la manera de consultar un diccionario: el usuario de un diccionario, o una base de datos clásica, selecciona la información que le interesa por medio de mandatos de búsqueda muy concretos, que hacen referencia a la manera en que la información est5 indexada: alfabéticamente, numéricamente, etc. En una Memoria Asociativa, por el contrario, el usuario alcanza la información deseada buscando estímulos que sean similares es^^ a aquellos que han permitido construir una representación de cierto concepto en tanto que esquema de asociatividad entre neuronas. Los conceptos almacenados no tienen una ordenación precisa, sino que estin situados e n relación a la similaridad que tienen con 10s demás. Lo importante es, pues, de qué manera se <~guardan)~ las entidades en la memoria (Representación) y de qué manera puede recuperarse esa información usando información inicial incompleta. (Fig. 2.3). La inemoria asociativa es una amplia estructura de la información e n la que el conocimiento est%organizado por medio de las relaciones que unen a unos conceptos con otros. Por consiguiente, las memorias asociativas podran representarse por medio de una red, a base de nudos y de lazos entre nudos (10s nudos corresponden a 10s conceptos y 10s lazos a las relaciones entre conceptos. A pesar de sus ventajas, las memorias asociativas tienen un defecto evidente: son muy difíciles de programar. En este libro se expondrá un modo de programar este tipo de sistemas de información, basándonos e n la teoria matemAtica de las redes neuronales . Una red neurona1 o sistema conectivo es un conjunto de unidades de computación sin contenido declarativa alguno, generalmente inspiradas e n algun modelo teórico de neurona cerebral. Por si mismas, estas unidades no pueden resolver ningún tipo de problema, pero si unimos una gran cantidad de unidades en una red por medio de enlaces y uniones, podremos usar ese mismo esquema de conexiones para almacenar informacion. Asi, por ejempio, la informacicin declarativa <'estavasija de forma troncoconica exvasada y decoración pintada se puede datar e n el siglo XVl) adoptaria la siguiente apariencia en un sistema basado en arquitecturas simbólicas (reglas de producción): Si [NATURAI~EZA: VASIJA] [FORMA: Entonces DATACION: SIGLO XV TRONCOCONICA EXVASADA] [DECORACION: PINTADA] Ceramica fenicia FIC 2 3. Esquema defunczonamiento de una Memorza Asoczatzua en el cerebro humano En una red neuronal, por el contrario, esa misma información no estaria representada e n términos pseudolinguisticos, sino en términos de un subconjunto de conexiones entre unidades de computación, ninguna de las cuales significa nada por si misma, pero si las unimos de cierto modo (matemáticamente) configuraremos un vector que si que tendra #<significado,): la cerámica del siglo XV. Los rasgos descriptivos de la representación declarativa se han convertida aquí en coeficientes matemáticos: (0,5678 0,6978 6587,12 5687 0 6587 56978,24) que miden la intensidad de las conexiones entre unidades (Fig. 2.4). u Fig 2 4 Esquema de una Red Neuronal. Y Por lo general se usan dos tipos de redes neuronales: las redes localizadas, e n las cuales las unidades de computaci6n (neuronas ) estan especializadas en la representación de una información particular, y las redes distribuidas, en las que ninguna neurona esta especializada, sino que distintas informaciones estan representada~por medio de 10s valores de una función matematica que evalúa la importancia de cada neurona y de cada conexión en la representación de esa unidad de información. En lugar de un programa (en forma de instrucciones o de reglas de producción) que actúe sobre diferentes estructuras de datos, una red neuronal consiste en un gran ní~merode elementos sirnples de procesamiento (nodos o neuronas ) conectados entre si. Cada conexión esta asociada a un valor numérico: el peso o la intensidad que determinan su importancia e infiuencia en la red neuronal. Ese valor numérico se define como medida de la frecuencia con que la neurona de destino y la neurona de origen han estado activada~simult%neamente.Las neuronas se comunican con el resto d e la red transrnitiendo una respuesta particular (un número) a t d a s las unidades con las que est5 conectada. Ese valor de salida est%determinado, a su vez, por el potencial o grado de activación de la neurona: una función monótona de 10s estimulos que recibe de las neuronas vecinas. Cada neurona es, en realidad, una unidad primaria de calculo, que opera sobre 10s estímulos que le Ilegan a través de las conexiones que la unen al resto de neuronas de la red (Fig. 2.5). No trapa esos estimulos uniformemente, sino que 10s recibe a través de enlaces (conexiones) de importancia desigual. Cada conexión contribuye con un estimulo cuya magnitud iguala al valor de la respuesta que emana d e esa neurona; la neurona realiza una suma ponderada de todos esos estimulos para definir su nivel o grado d e activación, e s decir, para saber si resulta activada o no por el conjunto especifico de estimulos recibido: si la cantidad de estimulo alcanza un nivel determinado, la neurona es capaz de generar una respuesta a ese est'mulo. Se denomina función de tramferencia esa correspondencia o función que asocia un estimulo dado a un nivel particular de activación de la neurona. Una forma d e calcular esa función seria multiplicando cada estimulo por la medida de la importancia de la conexi6n a través de la cua1 llega, sumando algebraicamente, a continuación, todos Ios estimulo~que llegan a una neurona. UNIDADES DE ENTRADA Fzg 2 5 Szmulaczón znformátzca del comportamzento de una Neurona En la mayoría de aplicaciones usuales, unos cuantos de esos nodos o neuronas son 10s elementos de entrada a la red, cuya activación est%fijada por el usuario (estimulo externo). Otro conjunto de elementos está formado por las neuronas de salida o resultados del problema. Entre ambos se sitúa un tercer conjunto, que suelen recibir el nombre de neuronas ocultas. Dado un estimulo especifico, 10s elementos d e entrada han de ser capaces de obtener una respuesta, representada por una configuración determinada de las neuronas d e salida. La tarea de la red es calcular 10s valores correctos de activación de las neuronas ocultas que pongan e n correspondencia 10s estimulos con las respuestas. En primer lugar, de las neuronas de entrada a las neuronas ocultas, el estirnulo externo es traducido en términos de la representación interna que es específica y particu- lar a esa red. Al pasar de las neuronas ocultas a las neuronas de salida, esa representación es traducida de nuevo e n términos del resultado esperado. Por lo tanto, el esquema peculiar de conexiones y funciones de transferencias de Lasneuronas ocultas constituye un código interno que la red va a usar para guardar las instrucciones que permitirán asociar e n el futuro ese estimulo con esa respuesta. Volvamos al tema que mas nas interesa, la descripción de la arquitectura del sistema encargado de resolver automáticamente un problema. Es preciso aceptar que en ocasiones resulta más conveniente representar el espacio del problema por medio de una rec1 neuronal que por medio de un programa declarativo: cada neurona e n la red constituiria la representación de un estado del problerra ; en un momento dado, el grado de activación de esa neurona podria considerarse como el grado e n el que la red -creen que ese estado es necesario para trazar el camino entre el estado inicial y el final . Del mismo modo, el estado inicial del problema coincide con 10s elementos de entrada (estimulo), el estado final con el elemento de salida (o respuesta proporcionada por la r e a , y 10s estados transitorios o enlaces entre uno y otro se representarian por medio de las <'neuronasocultas>,.Los operadores necesarios para pasar de u n estado a otro ya no serian operadores lógicos basados e n la manipulación de simi~olos,sino funciones mateináticas que representarian 10s pesos diferenciados de las interconexiones entre las neuronas implicadas. El conjunto de valores numericos que representan ese esquema de activación no ha sido programado, sino que la red lo aprende generalizando diversos ejemplos (estimulo~).Ese aprendizaje se lleva a cabo variando las conexiones entre las neuronas de acuerdo con una ley de aprendizaje especifica, hasta que el estimulo presentado provoque e n la red la respuesta pretendida. En capitulo~sucesivos se desarrollarán y expLicar%nmas cletenidamente las tecnicas de aprendizaje neuronal. ¿Qui. diferencias hay entre un programa decla~rativoy una red neuronal? En el primer caso se considera que el nivel de representación simbólica (las reglas) constituye el nivel de descripción apropiado. No se plantea de dónde viene la idormación, sino tan solo cómo se manipula: un sistema de producciones puede describirse e n tanto que tal sin considerar ni su implementacion (su estructura operativa) ni su origen (proceden.cia de 10s estados del problema), porque el conocimiento esvi explicitamente diferenciado de sus estructuras de control; la arquitectura del sisterna -las reglas que permiten manipular las reglas- aparece tan s610 como un medio y no como conocimiento e n si. Por el contrario, e n una red neuronal la arquitectura del sistema, esto es, la ,implementación del conocimiento afecta y define la acción misma del sistema, pues son indisolubles. No se necesitan estructuras de control, porque los datos y su tratamiento no estan diferenciados. Las unidades de información no se representan mediante expresiones declarativas, sino por la estructura y estado de activación de la red. El contexto del problema no es otro que la red entera. Lo comprenderemos mejor si recordamos que una red neuronal no es otra cosa que la simulación del mecanismo de funcionamiento del cerebro humano: la función de transferencia propia de cada neurona y la propagación de sus valores de neurona a neurona a través de conexiones de importancka desigual es el motivo por 61 que la respuesta de una neurona no solo depende del estimulo externo, sino de la respuesta de las otras neuronas a las que est%conectacla. Los conjuntos de neuronas que constituyen una red son, por tanto, conglomerados interconectados en 10s que la actividad persiste una vez pasada la estimulación inicial. Debido, precisamente a esa persister~ciade la actividad otras neuronas pueden activarse independientemente del estimulo, emitiendo respuestas que a su vez afectaran a la neurona activada e n primer lugar, inhibiendola e n algunos casos, con lo que el estado de activación final de la red sera una representación semi-autónoma de la realidad, no dependiente exclusivamente de la informacii~nempírica externa. Los obras de referencia idóneas a las que ipuede acudir el lector para ampliar las ideas aquí expresadas son el mndbook of Artficia1 Intelligence (Barr y Feigenbaum 1981-1992, 4 vols.). La Encyclopedia of Artificial Intelligence (Shapiro 1992, 2 vols.) y 10s manuales de introducción a la Inteligencia Artificial escritos por Winston (1984), Haugeland (1989) , Sharples et al. (1989) , Boy (19901, Partridge (19901, Nagao (1990), Ginsberg (1993), Rusell y Norvig (1994), Luger (1994). Respecto al tema cte la Resolucion de Problemas en la Psicologia Cognitiva: Bourne et al. (1979), Anderson (1983), Holland et al. (19861, Stillings et al. (1987), Johnson-Laird (19881, Sternberg y Smith (19881, Kaplan et al. (1989), Waern (19891, Newell (1990). Sobre la ,modelización de 10s mecanismos de resoluci6n de un problema en terminos de un sistema de producciones son fi~ndamentales10s trabajos de Newell y Silnon (Newell y Simon 1972, 1976; Newell 1973, 1980, Simon 1973, 1979, 1983), con abundantes referencias acerca de 10s Sistemas de Producciones, si bien para ese tema especifico es mejor referirse a 10s libros generales citados anteriormente o a la bibliografia sobre Sistemas Expertos (cf. Capitulo 3). Con respecto a las Redes Neuronales y Arquitecturas Conectivas, incluso 10s libros de introducción suelen ser difíciles de seguir. Asi y todo se pueden recomendar 10s libros de Aleksander (1990), Aleksander y Morton (19901, Caudill y Butler (1990), Dayhoff (1990), Eberhart y Dobbins (19901, Khanna (1990). Imagino que, tras la lectura del capitulo anterior, el lector tiene mas o menos clara la tarea de introducir (.representar.) conocimiento en el ordenador, y de las dificultades que ha de solventar para llevar a buen término esa acción. De lo que se trata ahora es de usar el conocimiento que hemos representado para resolver problemas arqueológlcos. En este capitulo abordaremos el tipo más simple de resolución: el razonamiento abductivo, que consiste tan solo en la asociación simple de conceptos interpretativos (o entidades teóricas) con datos empiricos. Como veremos a continuación, el interés de un sistema informático aparentemente tan senci110 estriba en sus aplicaciones prácticas: se puede usar el programa cuando no disponemos de un expert0 en ese tema (por ejemplo, datación de un tip0 de cerámica caracteristico) sirve de programa de gestión de la información, cuando la cantidad de conocimientos existente en ese dominio es demasiado grande. Un ejemplo sencillo Supongamos que nos interesa averiguar la cronologia de un conjunt0 de Estelas Decoradas con motivos de <<guerrero., halladas en el Sudoeste de la Península Ibérica (sobre todo en Extremadura y Andalucía Occidental, cf. Almagro Basch 1966, Barcel6 1989). Una vez puesto en marcha el ordenador, cargado el disco que contiene el programa (ESTELAS v. 1.0), y abierto éste ultimo, la pantalla muestra el texto de la siguiente pregunta: Supongamos que, en efecto, en la Estela que estamos estudiando aparece la representación de un Antropomorf~.Responderemos por tanto SI. a la pregunta anterior. El programa responde acto seguido con una nueva pregunta: fe Consideremos que esa Estela hipotética también cuenta con la representación de una Espada. A continuación el programa nos interroga acerca de la morfologia de esa espada: responderemos NO^^ a la morfologia .ESTRANGULADA. y <(SI. a la morfologia de <<HORDESPARALELOS,,. El programa proporciona una primera evaluación cronológica: ESPADA POSIBLEMENTE DE LENGUA DE CARPA y pide más información para evaluar la cronologia de la Estela. Al cabo de unos segundos (tiempo necesari0 para que el ordenador abra un nuevo subprograma), se nos pregunta por la existencia de la representación de una Fíbula de Codo. Tras nuestra respuesta afirmativa, el Sistema pregunta si aparece un Casco de Cresta. Una respuesta afirmativa a esta pregunta nos lleva automiticamente a la soiución: ESTELA SEMEJANTE A LA DE CABEZA DE BUEY I (inicios sigl0 IX a.C) Estudiemos ahora una Estela conocida, la de Bara~al,por ejemplo (Curado 1984). Volvemos a abrir el pr-ograma principal ESTELAS y reiniciamos la sesi6n. Respondemos <<NO.a la primera pregunta ( ' ~ ~ A I ~ A R E CLAE R E M E SENTACX~~N IX U N ANTROPOMOKFO?~~)y ('SI)' a la segunda (,<PRESENCIADE ESI~ADA~~). Seguidarnente, estimamos que la h@ja de la espada representada tiene forma '<ESTRANC;IJI.ADA, . La respuesta provisional del programa es considerar e:sa espada como =I~IS.I.ILIFORME-,solicitando mis datos. Al cabo de unos segundos, en la pantalla del ordenador aparece una nueva pregunta que inquiere por la localizaci\ón geogdfica de la Estela (<!¿HAAIIARECIDO 1.A ESTELA EN EI. VAL= DEL TAJO O EN IA ALTA EXTREMADIJKA'>).Tras una contestación afirmativa, ei progzama pregunta por la existencia de una Fíbula de Codo, de un casco de Cresta y de un Casco de Cuernos. Si respondemos <<NO.a todlas ellas obtendremos la siguiente contestación: ESTELA SEMEJANTE A LAS DE BARAcAL Y FOIOS (ca. 1000 -950 a.C.1 Corasideremos ahora el caso de Estelas de ~nterpretacióndifiil, como pudiera ser d caso de las de @elalcazar o Capilla I. Un resumen del desarrolLo de la sesión seria e1 siguiente: ANTROI-'OMORFO? ESPADA? ESCtJDO EN V, LANZA, Y/O CASCIO D b CESTA? CASCO DE CULRNOS Y/O ARCO-FLECHA? AFMA~? JOYAS, ADOR NO^ Y/O DMEMA? SÍ NO NO NO No SÍ i La respuesta seria la siguiente: ESTELA SEMEJANTEA LA DE TORREJONDEL RUBIO 11 Y DEM& ESTELAS FEMENINAS (prohablemente tardia, siglos VI11 - VI1 a.C.) Sea ahora el caso de una Estela sin elementos crondógicos conocidosi La primera respuesta que proporclona el' programa es : (+ESTELAPROBABI~EMENTETARD~A,).Al cabo de unos ?egundos continua la sesión: F ~ B ~ J LDE A CODO? CASCO DE CRESTA? casco de cuernos? A 10 que responde el programa RFALTAN ATRIBUTOS C R O N O L O G I C A M E ~ EFIABLES>).A datos: NO BEPRESENTAC~ONDETALLES ANATOMICOS? APARECEN EN TOTAL MENOS DE CIKO ELEMENTOS REPRESENTA DOS?^ SI La solución es la siguiente: ESTELA SEMEJANTE A LA DE SETWILLA (siglos VIII-Vi1 a.C.) continuación solicita d á s El programa es lo suficientemente sofisticado como para poder analizar una Estela para la cua1 no exista prototipo, es decir, cuya iconografia no coincida con el estado actual de 10s conocimientos sobre el tema. Asi, por ejemplo, si la sesión de consulta se desarrollase de la siguiente forma: ANTROPOMORFO? ESPADA? HOJA ESTKANGIJLADA ESPADA DE BORDES PARALELOS? Respuesta Provisional: ESPADA PROBAELEMENTE DE. LENGUA DE CARPA NO F~BULADP CODO? .Si C A X O DE CUERNOS? \ Como respuesta apareceria el siguiente texto: ESTELA UNICA: La presencia d e una representación de casco de .cuerms sorprende e n este contexto, pues las Estelas con Espada de lengua de carpa y sin antropommfo son consideradas como tctntiguas),frente a las que cuentan con antropornorfo, casco de cuernos y espada de lengua d e carpa. Ahora bien, no es imposible una tal asociación debido a la inceftidumbre cronológica suscitada por el casco de cuernos, cuyo origen cultuml no est%claro). Cronologia: posiblemente algcl mas reciente que las Estelas con casco de cresta, en un momento avanzado dei siglo IX a.C. o inciuso en el siglo VI11 a.C. El anterior es un ejemplo tiplco d e Sistema Experto. Podemos c d d e r a r que un Sistema Experto es un programa infosmático que utiliza -auto&ticarnente~ 40s conocimientos propios a un experto humano en un Pmbito especifico, de forma que el sistema resultante ofrezca CONSEJ0,S INTELIGENTES o bien sea capaz de adoptar una D E C I S I ~ NINTELIGENTE e n ese dominio. Otsa caracteriseica adicional deseable, que para algunas e s fundamental, e s la capacidad del sisterna para JUSTIFICAR SU PROQEA LÍNEA DE RAZONANILENTO de manera comprensible al usuario. El enfoque a d o p a d o paira conseguir10 es la PROGRAICIACION BASADA EN REGLAS (o programacien declarativa.cf. Capitub 2). El Sistema Experto presentado al principio de este capitulo (ESTELAS v. 1.0) es un ejemplo de programa capaz de tomar ciert-as ctecisiones (atribuci6n cronológica) en un %mbitomuy especifico de la Arqueologia: las Estelas Decoradas del Bronce Final e n el Sucbeste de la Península Iberica. Partiendo de unos rasgos descriptivos (identifkación de las represerztaciones grabadas e n las Estelas) el programa produce unos resultados aparentemente '4nteligentes2, esto es, diagnostica la cronologia de cada Estela. El programa esta constituido por u n conjunt0 de cuarenta factores de conmimientu, de 10s cuales derivan las interpsetaciones (la asignación cronológica de las Esteias). Asi por ejemplo, el resultado ~(ES~.EI,ASEMEJANTE A I A DE BARACAI. Y A LA DE FOIOS. deriva del factor: si VALLE. DEL TAJO O ALTA ANIIALUC~A? I.~BULAIX cono? NO NO NO c ~ s c oDE CRESTA? C A ~ C ODE CUFRNOS? que esta expresado, d e forma no ambigua, mediante una regla del tipo SI... ENTONCES ... ESTELA SEMEJANTE A LA. DE BARAWL, Y A LA DE FOIOS, SE... VALLE DEL TAJO O ALTA ADFDALUC~A = si F~BULADE CODO = NO CASCO DE CRFSTA = Na CASCO D E CUERNOS = NO : ¿Como puede un programa de ordenador reproducir el razonamiento de un experto humano? Ya hemos abordado esta cuestión en capítulos anteriores: representando el conocimiento científico en un formato (computable.. Veíamos que eso era posible diferenciando el Conocimiento Declarativo del Procedural. Ahora bien, por separado, ninguno de esos componentes puede funcionar ni resolver un problema: sin instrucciones acerca de su uso el Conocimiento Declarativo no es, propiamente hablando cono on oci mi en to^^; el Conocimiento Procedural, por su parte, ser2 incapaz de proponer soluciones a un problema sin información relevante acerca de dicho problema. En definitiva, para que un Sistema Experto reproduzca efectivamente el razonamiento de un experto humano (un arqueólogo, en nuestro caso), es necesario que combine el Conocimiento Declarativo y el Procedural. El primero se incluye en una Base de Hechos, o Base de Datos que contiene observaciones empiricas y resultados experimentales (datos procedentes de una excavación arqueológica, por ejemplo). El Conocimiento Procedural suele estar contenido en una base de Reglas, y representa la Teoria Científica que queremos usar para <<interpretar. 10s datos. Precisamos además de un programa que se encargue de traducir las instrucciones contenidas en el componente procedural en instrucciones computacionales; en otras palabras, un programa (o bien, en un futuro cercano, un circuito impreso) que ponga en marcha 10s mecanismos generales de combinación de 10s conocimientos declarativos y procedurales, buscando las relaciones logicas entre la base de datos y la base de Reglas y ejecute 10s operadores existentes en la parte conclusión de las reglas. Ese programa recibe el nombre de Motor de Inferencias (Fig. 3.1 .). CONOCIMIENTO DECLARATIVO UNIVERS0 DEL DISCURSO CONOCIMIENTO PROCEDURAL Fig. 3.1. Esquema general de un Sistema Experta. Es importante insistir en el carácter general (esto es, no basado en un conocimiento científico específico) de este Motor de Inferencias, carácter que lo diferencia sensiblemente del contenido ~práctico)~ del Sistema Experto. Se trata de un conjunto estructurado de instrucciones (y no de un programa declarativo) cuya misión es utilizar las reglas que, a su vez, representan el conocimiento procedural. El Motor de Inferencias es, pues, un programa que activa^ las reglas, si las condiciones de aplicación contenidas en el antecedente de las mismas están relacionadas con las unidades de conocimiento declarativo contenidas en la Base de Datos o Hechos, y que ejecuta las operaciones que aparecen en el consecuente de las mismas. Esas instrucciones de ~activación~ y de ~~ejecución~~ no dependen del contenido especifico de cada regla, sino que siempre son las mismas sea cua1 sea el conocimiento procedural empleado. Motores de Inferencia Hemos visto que un Sistema Experto se compone, esencialmente de tres módulos: una Base de Hechos, una Base de Reglas y un Motor de Inferencias, esto es, un conjunto ordenado de conocimiento Declarativo y Procedural (especifico a un problema concreto), y un programa capaz de usar esos dos tipos de conocimien- to para encontrar la solución a un problema definido en ese dominio concreto; por uso del conocimiento, entenderemos aquí la combinación del conocimiento Declarativo y el Procedural para producir nuevo Conocimiento Declarativo. Analicemos ahora el motor de inferencias . Su función es la de ejecutar el Conocimiento, combinando Hechos con Reglas. Para ello, el motor de inferencias actúa de la siguiente manera: 1. DETERMINA LAS REGLAS SUSCEPTIBLES DE SER ACTIVADAS 2. ELIGE UNA REGLA A EVALUAR DE ENTRE LAS REGLAS ACTIVABLES 3. EJECUTA DICHA REGLA Y ACTUALIZA LA BASE DE HECHOS Para determinar la aplicabilidad de las reglas, el motor de inferencias compara su enunciado con las cláusulas (sean del tipo que sean: encuadres, expresiones relacionales, etc.) existentes en la base de Hechos. Obsérvese que la base de hechos es siempre particular a un caso, y que la base de Reglas es particular a un problema o dominio. Lo que establece el motor de inferencias es si el caso representado por la base de datos es relevante a la base de Reglas; en otras palabras, si ambos mencionan las mismas unidades. No olvidemos que una Regla no es más que una operación lógica realizada con dos expresiones formuladas en la misma notación que las unidades existentes en la base de hechos. En definitiva, una Regla de Producción se limita a poner en relación distintas unidades de Conocimiento Declarativo. El programa realiza esa comparación por medio de una operación denominada unificación . En general, dos expresiones pueden unificarse si son idénticas o si pueden llegar a ser idénticas una vez sustituidas sus variables. Por ejemplo, podemos unificar las expresiones ~ ~ 0 0es1 Fíbula de Codo. < g l X ' es Fíbula de Codo. Sustituyendo 'X' (una variable) por el individuo ~001..Para validar cualquiera de 10s componentes de la regla (tanto el antecedente como el consecuente) en función de lo que contiene la base de hechos, el Motor de Inferencia busca, en primer lugar si las expresiones tienen: - un predicado (verbo) con el mismo nombre [la partícula subravadd - la mislna cantidad de argumentos - las mismas constantes En el caso contrario, la regla no ser5 activable a partir de esa base de hechos concreta. Una vez activadas, esto es, seleccionadas con el fin de resolver un problema, las reglas han de ser ejecutadas por el Motor de Inferencias. Este dispone de dos modos distintos de ejecución: A. Encadenamiento hacia adelante (~Forwardchaining) Activa aquella regla o unidad de conocimiento procedural cuya condición existe en la Base de Conocimiento Declarativo, es decir, es <cidéntica)> a una de las expresiones que allí existen. El programa deduce, entonces, la consecuencia de dicha regla. En otras palabras, el motor de inferencias evalúa la validez de la premisa o antecedente de la regla a partir del Conocimiento Declarativo: si esa premisa esta definida entonces el conocimiento asociado a la misma (el consecuente de la regla) es agregado al Conocimiento Declarativo. Por ejemplo (libremente adaptado de Guillaume 1987): REGLA 1 SI a) 10s objetos en meta1 encontrados en Penya Negra (Alicante, Bronce Final) son objetos de uso corriente b) se han encontrado en Penya Negra útiles de obreros metalúrgicos, lingotes de metal, crisoles, moldes de fundición, ENTONCES Los objetos en meta1 de Penya Negra eran fabricados in situ. El motor de inferencias buscara en el modulo que contiene el Conocimiento Declarativo (la base de Hechos) si existen o no las proposiciones a) y b); en caso afirmativo, añadirá el predicado: ~Losobjetos en meta1 de Penya Negra eran fabricados in situ.?)Este hecho deducido por el Sistema ser5 utilizado, a su vez, para continuar con las inferencias: REGLA 2 SI a) 10s objeto en meta1 encontrados en Penya Negra son muy numerosos b) 10s objetos e n metal de Penya Negra eran fabricados in situ. ENTONCES Existia un artesanado metalúrgico muy desarroiiado e n el Sudeste de la Península Iberica en la época del Bronce Final e Inicios de la Edad del Hierro. Fijemonos que la premisa b) en la Regla 2 no existia previamente e n la base de Hechos, sino que ha sido ((inferida.gracias a la activación de una regla anterior. El mecanismo general de este procedirniento es muy sencillo. Consideremos una Base de Hechos que contiene dos unidades de Conocimiento Declarativo (A y B), y las siguientes reglas que representan el conocimiento procedural que necesitamos: 1) Si A y C, entonces E 2) Si F y C, entonces H 3) Si B y E, entonces H 4) Si B entonces C 5 ) Si H entonces X Nuestro objetivo es saber si es posible alcanzar X, partiendo de A y B; e n otras palabras, evaluar la verosimilitud de la Hipótesis (CA y I3 son X)).El mecanismo de inferencia por encadenamiento hacia adelante actúa del siguiente modo: 1.- Sabemos que A y B son verdaderos (es decir, existen en la base de Hechos, por lo que forman parte del Conocimiento Declarativo). 2. Si lo que hemos de demostrar es X, entonces X debe figurar e n la conclusión de alguna Regla (es decir, debe existir alguna unidad de conocimiento procedural que permita ~~producir~~ X). 3. Generamos nuevos hechos, mediante el uso de aquellas unidades de conocimiento procedural que contienen A 6 B como premisas 4. Continuamos añadiendo nuevos hechos a la Base de Hechos combinando repetidamente la progresivamente creciente Base de Hechos a la base de Reglas, hasta que X entre a formar parte de la base de Hechos, o hasta que la Base de Hechos alcance su mayor tamano (es decir, que no se le puedan agregar nuevos hechos). Obsérvese como: la regla 4) produce el hecho C, con lo que se modifica el conocimiento declarativo, que ahora contiene las Unidades A, B y C. la regla 2) genera al hecho E, con 10 que se modifica el conocimiento declarativo, que ahora contiene las Unidades A, I3 , C y E. la regla 3) genera el hecho H, con lo que se modifica el conocimiento declarativo, que ahora contiene las Unidades A, B , C, E y H. la regla 5 ) asigna X al conocimiento declarativo, con lo que se resuelve el problema. B.- Encadenamiento hacia atrhs (<'backwardchaining ó '4xackchaining.l El Sistema no usa las proposiciones que permiten activar ciertas reglas, existentes en la base de datos, sino que empieza a partir de una proposición (Hipótesis) formulada por el usuario. A continuación va buscando paulatinamente en la base de Reglas si existe alguna que contenga e n su conclusi6n esa proposición u objetivo. El mecanismo de funcionamiento es el siguiente: 1. Supongamos que X es la proposición que queremos demostrar, al igual que en el ejemplo anterior 2. Existe una regla que contiene la proposicion X e n su consecuente (Regla 5) 3. La premisa de esa Regla se convierte ahora en nuevo objetivo a demostrar, pues H no existe en la Base de datos (A, B). Por io tanto, se busca una regla que contenga H e n su consecuente. 4. Existe una regla que contiene la proposicion H e n su consecuente (Regla 3) 5. La premisa de esa Regla se convierte ahora en nuevo objetivo a demostrar, pues E no existe en la Base de datos (A, Bl. Por lo tanto, se busca una regla que contenga E en su consecuente. 6. Existe una regla que contiene Ia proposición E e n su consecuente (Regla 1) 7 . La premisa de esa Regla se convierte ahora en nuevo objetivo a demostrar, pues C no existe en la Base de datos (A, Bl. Por lo tanto, se busca una regla que contenga C e n su consecuente. 8. Existe una regla que contiene la proposición C e n su consecuente (Regla 4) 9. La premisa B de esa regla existe e n la base de datos, por 10 que X queda demostrada: existe una conexi6n lógica continua entre X y CA,B), que permite afirmar que .<Ay B son Xal. La Hipotesis que deseamos demostrar es, por ejemplo, &te Qtil litico ha sido importado,>.El Sistema EXperto iniciar5 la bí~squeda,entre las reglas que han sido implementadas en 61, de aquella que pueda confirmar la Hipotesis, por ejemplo: SI a) el útil litico está fabricado en sílex b) el origen de ese tipo de Sílex se encuentra en Francia c) el útil ha sido encontrado en Polonia ENTONCES Este útil litico ha sido importado m' Para que el motor de inferencias sea capaz de aplicar esta regla es preciso que el Sistema Experto disponga de información acerca de la materia prima del útil litico e n cuestión y acerca del lugar del hallazgo. Si esta información no existe en la Base de Conocimientos (es decir, ya e n la Base de Datos, ya e n la Base de Reg l a ~como consecuente de otra regla) siempre será posible programar el Sistema para que pida al usuario que introduzcx información sobre el10 (cf. Voorrips 1990). C.- Disenos avanzados de Motores de Inferencia El principal problema con 10s motores de inferencia que trabajan por encadenamiento hacia adelante es el tiernpo que requieren para encontrar y aplicar las reglas que corresponden a especificas instancias de 10s datos. Cuando el Sistema Experto es grande (de un orden superior a 2000 reglas), esa operación es prácticamente lntratable por el ordenador. Para resolver esa dificultad existen diversas alternativas, en especial el algoritmo RETE y 10s motores de inferencia basados en la teoria de las probabilidades. Aunque no excesivamente difíciles, el estudio de estos mecanismos excede 10s limites de este libro. El lector interesado puede encontrar suficiente material en las referencias bibiiogrificas. Reglas de Producción y coeficientes de verosimilitud FIa,sta ahora hemos utilizado reglas =exacta,,;esto es, el programa ha asignado a cada una de las proposiciones o expresiones de conocimiento declarativo uno (y s610 uno) de 10s siguientes valores: verdadero, falso. Sin embargo, prácticalnente nunca 10s arqueOlogos están seguros de sus interpretaciones; por consiguiente, en la mayoria de las ocasiones habremos de permitir al sistema experto proponer soluciones inexacta. La inexactitud~grado de confianza e n una solución se suele expresar numericamente mediante una cifra de 0 a 100: 100, significa .verdadero> O, significa falso^^. Mejor dicho, ~ ~ 1 podria 0 0 ~ ~traducirse por verdadero definitiuamente, e n tanto que un valor de 80, por ejemplo, indicaria que el sistema est&seguro tan s610 e n un 80 O/o de su validez. Estos valores numéricos suelen recibir el apelativo de Factores de Certidumbre (FC), para diferenciarlos de 10s -valores de verdad?~ de la Lógica de Predicados, 10s cuales tienen una connotaci6n formal (y, e n consecuencia, universal) totalmente ajena a la programación de Sistemas Expertos (que por definición son particulares y heurísticos). La función de estos índices es distinta según el tipo de unidad de conocimiento al que estén asociados. En el caso de la Base de Hechos (conjunta de datos empiricos), el factor de certidumbre suele señalar la confianza que tenemos en un dato empirico. Por ejemplo, como resultado de una prospección en dos yacimientos, A y B, estamos bastante seguros que e n A aparece cerámica tipo 1, mientras que tenemos nuestras dudas acerca de la posible presencia del tipo 2; la presencia del tipo 2 e n el yacimiento B es prácticamente segura y la datación de esas ceramicas, por su parte, parece bastante fiable. La expresión de esa uconfianza,, o seguridad por medio de Factores de Certidumbre (FC) aparece e n la tabla: YACIMIENTO A YACIMIENTO A YACIMIENTO B CER~MICA TIP0 2 CERÁMICATIP0 1 hay hay hay datación datación CERÁMICATIP0 1 CEIZ;ZMICA TIPO 2 CERÁMICATIPO 2 SIGLO VI11 SIGLO VI1 FC=75 FC=~O FC=~O FC=90 FC=80 iQué significa, e n términos arqueológicos sestar seguros al 75 ó al 50 % de u n hecho? Se trata del grado d e g ve ro similitud^) de ese hecho. En Teoria de la ciencia se ha utiiizado bastante este modo de evaluar la verdad de 10s enunciados científicos, asimilándolo, por lo general, a una medida de la probabilidad de error. En otras palabras, la expresión I CERÁMICATIP0 2 datación SIGLO VI11 FC=90 debe entenderse e n 10s siguientes términos: (lla probabilidad que la Cerámica del Tipo 2 date e n el Siglo VIII a.C. es del 90%.. Dos son las principales ventajas de esa .lectura probabilística,, de 10s factores de certidumbre. Por un lado, el mecanismo de activación de hechos y reglas e n un sistema experto se aproxima a la inferencia estadística clásica (factores de certidumbre = intervalos de confianza); por otro lado, permite utilizar 10s axiomas de la Teoria de Probabilidades para desarrollar el motor d e inferencias del programa, de modo que lo que e n pkginas anteriores hemos denominado espacio delproblema pasa a convertirse en un experimento probabilistico (cf. Capitulo 3). Ahora bien, el uso de probabilidades e n 10s mecanismos de resolución autornitica de problemas plantea una dificultad mayor: la asignación deprobabilidades iniciales. Supongamos que una vez concluida una excavación arqueológica, deseamos í~valorarl)10s hechos arqueológicos descubiertos con ayuda de sus correspondientes factores de certidumbre. iCómo hacerlo? Desgraciadamente existen diversas interpretaciones de la Teoria de la Probabilidad (frecuentista, subjetiva) y 10 que las diferencia es, precisamente, la manera de asignar probabilidades a 10s acontecimientos. Una manera efectiva, aunque no la mejor, puede ser la siguiente: D = cerámica con decoración a base de espirales, pintada e n rojo T = cerámica encontrada en unidades topo-estratigráficas datadas por C-14 e n el siglo IX a.C. Para calcular la probabilidad de la expresión .La cerámica con decoración a base de espirales pintada e n rojo, se puede datar en el siglo IX a.C.n Necesitamos una muestra de cerámicas lo suficientemente completas (o bien restauradas) que permitan la descripción del esquema decorativo, y para las cuales se dispongan de suficientes dataciones de C-14. La costumbre de 10s estadisticos es que una muestra de esas características ha de tener, al menos, 30 individuos. En el caso de disponer esa muestra, calcularíamos: cantidad de cerámicas deco. datadas en el s. IX a.C. por C-14 P (TID) = cantidad d e cerámica deco. identificada en ei yacimiento Suele definirse la noción de regla probabilística del siguiente modo: aquella expresión del tipo SI...ENTONCES cuya característica principal es la propiedad siguiente: si la proposici6n y existe e n la base de Conocimientos, entonces hay una probabilidad p de que una proposici6n distinta, x, sea verdadera, y una probabilidad 1-p que su opuesto sea Falso. En resumidas cuentas: <c Si existe y, entonces existe x con probabilidad p. Resulta fácil de ver que una regla probabilística se limita a asociar entre si hechos probabilísticos. En este caso hay que diferenciar entre 10s factores de certidumbre de las premisas y los de la conclusión. Los que aparecen e n la premisa de las reglas actúm, e n realidad, como -limites. o condiciones de activación, es decir, la certidumbre minima que ha de tener una premisa para que la conclusión de la regla sea activada. Supongamos que la base de hechos contiene la siguiente proposición YACIMIENTO A tiene CE-ICA DE RETÍCULABRUNIDA (FC= 70) y disponemos de la siguiente regla: Si ENTONCES en el yacimiento aparece cerámica de retícula brunida (FC=30) el yacimiento data en el siglo VlII a.C En este caso, la datación del yacimiento A será, efectivamente, ssiglo VI11 a.C.. porque la certidumbre que tenemos en ese hecho es superior a la certidumbre minima estipulada en la premisa de la regla. Si, por el contrario, la presencia de esa cerámica estuviese asociada a un FC de 25, la conclusión no hubiese sido activada. Consideremos a continuación el caso del factor de certidumbre asociado a la conclusión de una regla: Si ENTONCES en el yacimiento aparece cerámica de retícula bruñida el yacimiento data en el siglo VI11 a.C [FC = 601 Si ENTONCES en el yacimiento aparece cerámica fenicia el yacimiento data e n el siglo VI11 a.C. [FC=90] Este FC mide, en realidad, la intensidad de la relación entre premisa y conclusión. Dada la misma conclusión, uno de los antecedentes tiene mis fuerra predictiva que el otro porque proporciona resultados más fiables. En otras palabras, tenemos mas confianza en la cerámica fenicia como elemento de datación que en la cerámica de retícula bruñida. El factor de certidumbre asignado a la conclusi6n de una regla depende, a su vez, de 10s factores de certidumbre de sus premisas. Habitualmente se dice que la certidumbre que tengamos en las premisas se propaga a la conclusión de la regla que las contiene. Supongamos, por ejemplo, que el Sistema Experto que contiene las dos reglas anteriores funciona por medio de un mecanisrno de encadenamiento hacia atds. Como no hay Base de Hechos inicial, el sistema planteará diversas preguntas al usuario (al igual que hacia el programa ESTELAS). Por ejemplo: Si el usuario está seguro de el10 contestar5 con una cláusula como la siguiente: CERÁMICAFENICIA PRESENTE [FC=1001 y el Sistema proporcionará la solución esperada: LA CRONOLOG~A DEL YACIMIENTO ES SIGLO VIII [FC=~OI c Abora bien, iqué hubiese sucedido si el usuario del Sistema Experto no estuviese muy seguro de la existencia de Cerámica Fenicia en el yacimiento? Quizás el yacimiento fue excavado a principios de siglo, con una metodologia muy dudosa, quizás la estratigrafia original haya sido removida por clandestinos,... Supongamos que se haya respondido: CERÁMICAFENICIA PRESENTE [FC=501 Como resultado, el factor de certidumbre de la conclusión descenderá hasta 50 * 90 /I00 =45% En general, podemos decir que el factor de certidumbre de una conclusión es el factor de certidumbre de la premisa multiplicado por el porcentaje de certidumbre de esa regla. La fórmula general será, por tanto: FC (conclusión) = FC (premisa) * FC (conclusión) / 100 Dado que 10 que en una regla es premisaen otra puede ser conclusión, 10s factores de certidumbre se propagan de unas reglas a otras siguiendodos canales de activación de estas. El10 implica que la fórmula anterior se aplique iterativamente a todo el Sistema. Por ejemplo, supongamos las reglas siguientes: la decoración de la cerhmica que aparece e n el Yacimiento B incluye motivos e n zigzag [FC=201 ENTONCES la cerámica del yacimiento B procede del yacimiento A [FC=501 (1) SI la decoración de la cerámica que aparece e n el Yacimiento B incluye motivos e n banda [FC=701 ENTONCES la cerámica del yacimiento B procede del yacimiento A [FC=1001 (2) SI la cerámica del yacimiento B procede del yacimiento A ENTONCES existe una relación económica entre ambos [FC=100] (3) SI Las dos primeras reglas afirman que no toda la cerámica decorada encontrada en el yacimiento B procede del yacimiento A. La tercera regla, por su parte afirma que siempre que la cerámica de un yacimiento proceda de otro, existe una relación económica de algun tip0 entre ambos (jobvio!). De la activación conjunta de las tres reglas se deduce que la existencia de la misma cerámica e n dos yacimientos no obliga a suponerlos contemporáneos. El factor de certidumbre asociado a la premisa de la primera regla nos indica que no tenemos por que estar muy seguros de la decoración de esa cerámica para que la regla se active. Quizás el 80 % de la cerámica encontrada en B muestre motivos de ese tipo, o bien que ambos yacimientos esthn tan cerca el uno del otro que la hipótesis más sencilla es suponer que el más importante exporta su cerámica al menos importante; precisamente porque la hipótesis es muy simple se le ha otorgado un factor de certidumbre muy bajo. El caso contrario aparece e n la segunda regla. El objetivo del sistema es responder a la pregunta: ¿QUE R E L A C I ~ NEXISTE ENTRE EL YACIMIENTO B Y EL YACIMIENTO A, BASANDOSE EN LA PRESENCIA O AUSENCIA DE CERÁMICAS? Si el usuario introduce el siguiente dato empirico: PRESENCIA DE CERÁMICACON DECORACION DE BANDAS EN EL YACIMIENTO B. (FC=80) la solución será: EXISTE UNA RELACION ECONOMICA ENTRE AMBOS (FC=100), pues el motor de inferencias ha propagado el FC asociado a la conclusión en la segunda regla (FC=100). Si el dato empirico introducido por el usuario hubiese sido PRESENCIA DE CERÁMICACON DECORACION A BASE DE ZIGZAG EN EL YACIMIENTO B (FC=100) la respuesta seria: EXISTE UNA RELACION ECONOMICA ENTRE AMBOS ( F C = ~ O ) AutomAticarnente, la certidumbre en la conclusión final se ha reducido porque el Sistema Experto está utilizando información poco fiable para llegar a ella. El factor de certidumbre en este caso es el resultado de la aplicación de la fórmula general. Si el factor de certidumbre de todas las unidades de conocimiento contenidas e n nuestra Teoria Computacional es <'exacto,b(O 6 100), su propagación no plantea problema alguno: obtendremos resultados '(definitivamente válidos'>únicamente e n el caso en que las premisas también sean definitivamente válidas?,.No obstante, si éstas manifiestan factores de certidumbres inexactos (un número de O a 100), el resultado nunca será válido al 100 %, sino que su validez dependerh de la validez de las premisas. Hasta aquí hemos visto el caso, relativamente sencillo, de reglas con una única premisa. Para calcular el factor de certidumbre de la conclusión en una regla con diversas prernisas, cada una de ellas con diferentes factores de certidumbre, utilizaremos alguno de 10s siguientes mecanismos lógicos de equivalencia. '[A = Primera Premisa, B = Segunda I'remisal - el factor de certidumbre de <<A y BI~es el minimo de 10s factores de certidumbre de A y de B. el factor de certidumbre de XAó B. es el máximo de los factores de certidumbre de A y de B. - el factor de certidumbre de (<no Al) es el opuesto al factor de certidumbre de A. - Asi, e n la regla mencionada en el ejemplo anterior, el factor de certidunlbre de su conclusión seria de 60. La mayoria de generadores de sistemas expertos utilizan el método llamado E-Mycin (por ser éste programa el primer0 e n usarlo) para calcular la ~acumulaciónde certidumbre procedente de las distintas premisas y obtener el factor de certidumbre de la solución al problema. Se caracteriza por el siguiente cálculo: Supongamos que existen dos reglas que soportan una misma solucicin: Factor de Certidumbre (Regla 1) = c l Factor de Certidumbre (Regla 2) = c2 Factor de Certidumbre(So1ución) = cl + c2 - (cl * c2) / 100 I Si hay más de dos reglas que soportan la hipótesis (esto es, la solución al problema aparece e n la conclusión de más de dos reglas), se aplicará la misma fórmula incrementalmente. El algoritmo general es el siguiente: si A y B son 10s factores de certidumbre de las conclusiones de aquellas reglas que activan la solución, la certidumbre combinada ser%: Combinada (A&) = A + B - (A " B) / 100 Si la soluci6n está activada tambien por una tercera regla, cuyo factor de certidumbre es C, Combinada(C (A y B)) = C + Combinada (A,B) - (C * Combinada (A,B)) / 100 y asi sucesivamente. El orden e n el que se combina la evidencia no afecta el resultado final, puesto que podemos calcular, indistintamente: Combinada(C(A y B)) = [C + A + B - (A * B) / 1001 - [(C * (A + B - (A * B) / 100)l = =[(A+B+C)+(A*B*C)/lOO]-[(A*B+A*C+B*C)/lOO]= = Combinada (A, (C y B)) = Combinada (3, (A y C)) El cálculo de una solución inexacta aparece, pues, como una alternativa a 10s algoritmos que ya hemos visto de encadenamiento hacia adelante y encadenamiento hacia atrás, 10s cuales solo son válidos e n el caso de problemas con solución exacta (o verdadera o falsa). Los pasos sucesivos de este algoritmo son 10s siguientes: a) se compara el objetivo o solución a las conclusiones de todas las reglas inexactas En todas y cada una d e las reglas en las que esa comparacicin sea positiva, se prueban las premisas Si todas las cláusulas son validables con arreglo al estado actual de la Base de Hechos, el factor de certidumbre de la regla asi activada podrá utilizarse para calcular el de la solución. b) combinar 10s coeficientes de validacicin obtenidos en la evaluación de todas las reglas apropiadas. , C) calculo del FC d e la solución: d) 1) definir el FC de cada cláusula en el antecedente de las reglas. 2) definir el FC de la conclusicin de dicha regla usando las equivalencias: minimo; c<ó>) = máximo. 3) calcular el FC de esa regla usando la fórmula anterior: FC (conclusión) = FC (premisa) * FC (regla) / 100 En el curso de una sesicin de trabajo con un Sistema Experto pueden aparecer resultados sorprendentes si aplicamos este lnecanismo ~probabilistico~~ hasta sus últimas consecuencias. No olvidemos que las premisas no son más que conclusiones de reglas anteriores, y por tanto arrastran consigo 10s factores de certidumbre que se les ha asignado en un momento anterior. Cuando la base de Reglas es bastante grande, el usuario pierde completamente el control de la ve ro similitud)^ de las conclusiones, siendo el programa el que se encarga de todo. Desgraciadarnente, el programa puede incurrir e n errores, por ejemplo, FC menores que cero o lnayores que la unidad (mayores que 100), que por definición son imposibles. Habitualrnente esos errores se achacan a la fórmula general de propagación Factor de ~ertidumbre(Soluci6n)= c l + c2 - (cl * c2) / 100 la cua1 no deriva de ninguna Teoria Axiomática, y que por tanto viola en ocasiones 10s principios de la Teoria de Probabilidades. Para la mayoria de investigadores el rnecanismo de propagación tip0 E-Mycin necesitaria, o bien una nueva definición rigurosa de las fórmulas y ecuaciones de la propagación de la certidumbre, o bien, su sustitución por un algoritmo distinto, pero que cumpliese el mismo objetivo: evaluar la transferencia de información entre una regla y otra. Ambos enfoques estan siendo abordados por distintos proyectos de investigación, sin embargo, aún no han llegado al ambito de la informitica comercial. Los programas generadores de Sistemas Expertos que se pueden adquirir en el mercado siguen implementando el mecanismo E-Mycin, aunque en 10s manuales se senale que puede conducir a error. En muchos casos ese mecanismo es efectivo y muy í~til;10s casos en 10s que el factor de certidumbre final propuesto por el programa no coincide con el que se deduciria de la Teoria estin mal caracterizados. Es decir, no se sabe por qu6 falla la propagaci6n de la certidumbre en determinadas circunstancias. Todo lo mas que ofrecen 10s programas comerciales para solventar esas dificultades son distintas variantes de la formula general dejando e n manos del usuario la elección entre una y otra, e n el caso que la fórmula general fallase. Un ejemplo más complejo En esta sección se desarrollara un Sistema Experto desarrollado e n el Centre National de la Recherche y M.S.Lagrange y M. Renaud como (ingenieros del Scientifique (U.P.R. 315) por H.P. Francfort como ~<experto>, conocirniento~~, bautizado con el nombre PALAMEDE (Francfort 1987, 1990, 1991, Francfort, Lagrange y Renaud 1989). Este complejo Sistema contiene seis módulos independientes, divididos en dos grupos: - DOXOGRAFÍA: analisis de las Teorías sobre Urbanismo, Sociedad y Estado (USE) y anilisis de las Teorias sobre la Civilización (CIV). - FISIOGRAFÍA:Topografia de las actividades (TOP), Tecnologia de 10s artefactes (TEC), analisis de 10s elementos arquitectonicos (ARCHI) y Síntesis de las Conclusiones (SYN). Todos ellos han sido programados para estudiar, por un lado la coherencia interna de las teorias al uso sobre el origen del Estado, y por el otro para interpretar en esos mismos t6rminos 10s hallazgos procedentes de las excavaciones arqueológicas. En esta sección nos limitaremos a describir el módulo TOP. 1. De3niciÓn del Problema Lo que se pretende es inferir la presencia de clases sociales diferenciadas e n un yacimiento arqueológico a partir de las asociaciones espaciales detectables en el registro arqueológico, fundamentalmente, la detección de la %reasespecializadas (asociadas a actividades artesanales o propias de ciertas élites sociales). 2. La solución .experta,, alproblema El Sistema Experto contiene 10s resultados de diversos analisis sobre la economia del yacimiento de Shortuga'i (ca. 2200-1700 a.C.) en el Nordeste de Afganistan (Francfort 1989), aunque puede aplicarse a cualquier yacimiento protohistórico, e n especial del area mediterrhea. En ese yacimiento se detectaron dos fases cronológicas, A y B, topográficamente circunscritas, puesto que corresponden a las dos colinas colindantes e n las que se realizó el asentamiento en momentos sucesivos (el cambio de habitat se produciria entorno al 2000 a.C.) . El arqueólogo ha efectuado un anilisis de la influencia de la estructura socioeconómica en la topografia del asentamiento, investigando si las distintas unidades topogrificas definidas sobre el terreno se diferencian o no e n tres grandes categorias, según cua1 sea la función social dominante: Doméstica, Artesanal o de Prestigio. La inferencia se basa e n evaluaciones cuantitativas de la importancia y significaciOn de 10s distintos vestigios. Para el10 se calcularon diferentes indices, que miden la importancia de cada una de esas funciones en cada una de las subunidades topo-estratigrificas (denominadas <<emplazamientos>,). Comparaciones ulteriores de esos indices permitirdn inferencias acerca de la evolución social e n ese asentarniento. En otras palabras, el arqueólogo ha definido un conjunto de conceptos del tipo: FUNCION DOMESTICA = vestigios arqueológicos relacionados con actividades de subsistencia FUNCION ARTESANAL = vestigios arqueológicos relacionados con la producción de hienes de consumo ARQUEOI.OG~AAUTOMÁTICA.INTELIGENCIA ARTIFICIALEN A R Q U E O L O G ~ FUNCION DE PRESTIGIO = vestigios arqueológicos relacionados con élites sociales. El Conocimiento Declarativo, pues, est%constituido por esos conceptos interpretativos ( y otros semejantes a ellos, como por ejemplo la noción de Comercio a Larga Distancia) y por 10s datos procedentes de la excavación (descripción de las unidades topo-estratigrificas, en términos de las estructuras halladas y el tipo, cantidad y materia prima de 10s astefactos encontrados en ellas). El Conocimiento Procedural es el conjunt0 de conexiones que permiten poner e n relación 10s datos empiricos con 10s conceptos interpretativos, por ejemplo: Si una unidad topo-estratigráfica (x) contiene ce6inica de cocina, Entonces el indice de Función Domestica de esa unidad sera elevado. 3. El Sistema Experta Sus componentes son: a) una BASE DE HECHOS que contiene 10s hallazgos arqueológicos, junto con sus coordenadas espaciales; b) La BASE DE REGLAS, que enuncia en que condiciones y en qué medida esos hallazgos son representativos de alguna de las tres fi~nciones(calcula los indices). c) El DIAGNOSTICO final del sistema, que tnuestra si se manifiesta o no el predominio de una de las tres funciones (Domestica, Artesanal O de Prestigio) en UIXA u otra fase de ocupación del asentamiento. El Sistema, al igual que el c'experto>'humano, enumera 10s indices necesarios, declara su valor inicial (linicializa 10s indices'2) y les asigna valores especificos segíín el hallazgo de cierto tipo ( o cantidad) de vestigios. La Base de Hechos contiene numerosas unidades de conocimiento declarativa, por ejemplo: <cNIV-A4es u n nivel arqueol6gico que pertenece a la fase A>' '(Pl-A4-Nes un emplazamiento que pertenece al Nivel NIV-A4>> ((Pl-A$-Ntiene como cerámica donlinante una cerimica de almacenaje?) ('en PI-A4-N aparece un hogar>l -en PI-A4-N aparecen instrumentos de molienda'> e n PI-A4-N aparece un objeto de adorno en sílex de procedencia no local)) La Base de Reglas usar5 ciertas unidades de conocimiento procedural para averiguar si emplazamientos como PI-A4-N tienen una funci6n predon~inantementedoint.stica (economia de subsistencia), astesanal (producci6n de bienes de consumo) o de prestigio (carictes monumental o lujoso). Todas las reglas están construidas a partir de la noción general de '~acumulacihnde indices'8. El Sistema cuenta con un total de 100 reglas, repartidas en 36 etapas. ETAPA 1 (3 reglas) En esta etapa se crean 21 indices que se inicializan a 0 Serin ~ltilizadosmas adelante: ÍNDICESASOCIADOS A LOS MPLAZAMIE~VTOS indice de f ~ ~ n c i ódoméstica n indice de función artesanal indice de función de prestigio ÍNDICESASOCIADOS A LOS NIVELES ESTRATIGRAFICOS acutnulaci6n de 10s resultados ohtenidos con 10s indices asociados a emplazamientos ÍNDICESASOCIADOS A LAS FASES DE OCUPACION acumulaci6n de 10s resultados obtenidos con 10s indices asociados a emplazamientos y niveles estratlgrificos ETAPAS 2-5 (37 reglas) Estas reglas permiten asignar ciestos valores a 10s tres indices de emplazamiento. Son de la forma: Si (x) es un Emplazamiento, en (x) aparece un objeto que sirve para pulir cuentas de collar, Y Entonces, increinentar en 10 puntos el indice de función artesanal de ese emplazamiento. o bien Si (x) es un Emplazainiento, (x) tiene como ceráinica dominante la ceramica de almacenamiento, Y el indice de prestigio de (x) es mayor o igual a 40, Y Entonces, incrementar en 20 puntos el indice de prestigio de ese emplazamiento. F El valor especifico que se asigna a cada emplazamiento tiene tan s610 un valor heuristico. Por ejemplo, ¿por qué hay que asignar 30 puntos al indice doméstico si aparecen instrumentos de molienda? El Sistema Experto es ajeno totalmente a esta pregunta; se limita ejecutar el c%lculoque un arqueólogo humano considera apropiado. Se trata de un valor heuristico porque el arqueólogo 10 considera como un artifici0 para obtener una solución posible . ETAPAS 6-7 (2 reglas) Estas reglas sirven para imprimir 10s resultados de 10s indices asociados a un Emplazamiento. ETAPA 8 (3 reglas) Ciilculo de la función dominante e n cada emplazamiento. Se usan para el10 10s indices calculados en las etapas anteriores. Una regla-tipo podria ser la siguiente: Si (x) es un Emplazamiento, el inclice artesanal de (x) es distinto de cero ó mayor o igual que su indice doméstico, Y Entonces, la f~inciónpredominante de (x) es artesanal. En otras palabras, se calcula la función predominante de un emplazamiento teniendo en cuenta la importancia de las otras dos funciones en ese mismo asentamiento (se disponen de 10s tres indices para cada unidad topo-estratigrifica). ETAPA 9 (4 reglas) Con ayuda de 10s indices asociados a niveles definidos e n la Etapa 1, se suman por niveles 10s resultados de 10s indices asociados a Emplazamientos, 10 cua1 totaliza el conjunt0 de resultados por nivel. Por ejemplo: Si (x) es un Emplazamiento, (x) perteneciente al Nivel (y), Y (y) pertenece a la fase cronológica (z), Y Entonces - agrega el valor del indice doméstico de (x) a (y) - agrega el valor del indice artesanal de (x) a (y) - agrega el valor del indice de prestigio de (x) a (y) - suma 10s tres indices de (y) y calcula el indice general de (y) ETAPAS 10-24 (15 reglas) Estas etapas contienen reglas de dos tipos: las que calculan 10s porcentajes (por niveles y por fases de ocupación) y las que imprimen 10s resultados de 10s indices y de dichos porcentajes. Por consiguiente, para cada nivel y cada fase de ocupación, se obtiene: - el valor de 10s indices de cada una de las funciones - para cada uno de esos indices, su porcentaje en relación a la suma de 10s tres (indice general). - la cantidad de emplazamientos dedicados a cada una de las funciones predominantes. - el porcentaje de emplazamientos dedicados a cada una de las tres funciones, e n relación con la totalidad. ETAPA 25 (10 reglas) Comparación entre 10s indices asociados a cada una de las fases de ocupación, y creación de nuevos indices que midan las diferencias asi registradas. El valor que se asigna a estos nuevos indices procede del calculo de las diferenc~asobservadas entre 10s indices que describen una fase y 10s que describen la otra. Por ejemplo: (A) y (B) son fases de ocupación, Si (A) es anterior a (B), Y Entonces, calcular 10s siguientes indices, asociados a (B): - Diferencia Doméstzca = indice doméstico de (B) - indice doméstico de (A) - Dzferencia Artesanal = indice artesanal de (B) - indice Artesanal de (A) - Diferencza de Prestigio = indice de Prestigio de (B) - indice de Prestigio de (A) 1 Otras reglas en la misma etapa definen tres intervalos de 10s valores en esos nuevos indices, para interpretarlos como Aumerzto, DisminucMn o Estabilidad de 10s resultados de una fase a la siguiente. Asi: Si (A) y (B) son fases de ocupación, (A) es anterior a (B), Y el valor de la Diferencia de Prestigio es superior al 5 %, Y Entonces el Prestigio AUMENTA en la fase (B) ETAPA 26 (5 reglas) En esta etapa se aborda la noción de ,fespecializaciónde las áreas de actividad., que puede definirse como resultante de 10s tres indices anteriores. El nuevo indice se utiliza para expresar el sentido de la variación resultante entre las fases que se estan comparando; es decir, no se obtiene una descripción de las áreas especializadas, sino que se pone de manifiesto el grado de la variación o diferenciación funcional entre las unidades topo-estratigráficas del yacimiento. Por ejemplo: <Si (A) y (B) son fases de ocupación, (A) es anterior a (B), Y el indice de prestigio de (B) indica un Aumento, Y Y el indice domestico de (13) indica una disminución, Entonces el grado de especialización de las áreas en (B) aumenta ' ETAPAS 27-28(5 reglas) Estas reglas permiten indicar diferentes grados en la .amplitud de la variación~~ de una fase a la siguiente. La amplitud se calcula por medio de la diferencia absoluta de 10s indices domésticos de (*4) y (B). Para averiguar el grado de variación en ese indice se usa: .Si el indice de amplitud de las diferencias de una entidad cualquiera (B) tiene un valor igual o superior a 25 e inferior a 50, Entonces, la amplitud de las diferencias entre una fase y otra varia sensiblemente. ETAPA 29 ( 3 reglas) En este momento se interpreta la combinación de las informaciones que proceden del indice de variación en la especialización de las áreas y del indice de amplitud de esa variación. Las reglas se ajustan al modo siguiente: .Si (A) y (8) son fases de ocupación, (A) es anterior a (B), Y el indice de especialización de las áreas de (B) disnzinuye, Y Entonces el indice de variación de la amplitud de las diferencias adopta un valor negativo. ETAPA 30 (1 regla) Se crea el indice Comunicación Lejana: Si existe una fase de ocupación (A) y un nivel (B), el nivel (B) pertenece a la fase de ocupación (A), Y existe un emplazamiento (C) que pertenezca a la fase de ocupación (A), Y (C) contiene cuentas de collar u objetos de adorno cuya materia prima es de origen leY jano, Entonces, incrementar en un punto el valor del indice de Comunicación Lejana ETAPA 31 (1 regla) Se crean dos nuevos indices: Comercio a Larga Distancia y valor absolut0 del Comercio a Larga Distancia, que serviran para comparar las dos fases de ocupacion desde el punto de vista de 10s intercambios con otras regiones: (A) y (B) son fases de ocupación, Si (A) es anterior a (B), Y Entonces, indice de comercio a Larga Distancia = [indice de Comunicación lejana de (B) - indice de comunicación lejana de (A)] ETAPA 32 (4 reglas) Estas reglas describen 10s grados de amplitud de la variacibn de Comercio a Larga Distancia entre una fase y otra: Si el indice del valor absoluto de Comercio a Larga Distancia de (X) tiene un valor igual o superior a 0,50 e inferior a 0,75, Entonces, la variación en dicho indice es elevada. ETAPA 33 (3 reglas) Estas reglas indican cua1 es el sentido de la variación entre fases: Si el valor del indice de Comercio a Larga Distancia es inferior a cero, Entonces, el Comercio a Larga Distancia disminuye. 4. Funcionamiento del Sistema Exp~Jrto Ya hemos visto en las secciones anteriores el mecanisrno general dela operación de instanciación (o unificación): una regla es aplicable si es posible unificar un hecho contenido en 10s antecedentes de la regla con un hecho existente en la Base de Hechos. Esta operación se repite tantas veces como antecedentes tenga la regla (encadenamientohacia a t ~ &). Veamos su funcionamiento con m%sdetenimiento, usando ejemplos propios a I'ALAMEDE. Sea el estado siguiente de la base de Hechos: -El indice de Emplazamientos Artesanales de la fase de ocupación A es igual a 11. NIV-Ab es un nivel estratigrifico, asociado a la fase A, con un indice de Emplazamientos Artesanales igual a 4. Pl-A6N es un emplazamiento, que pertenece a NIV-A6, cuya función predominante es la doméstica. P2-AbN, emplazamiento que también pertenece a NIV-A6, tiene una destinación artesanal, etc.. Expresado en el formato p computable^^ en el que deben expresarse esos conocimientos para que el ordenador sea capaz de procesarlos (PALAMEDE esta implementado en SNARK, un lenguaje de alto nivel bastante alejado de las convenciones del lenguaje escrito habitual), se obtiene FASE-A FASE-A NATURALEZA CEM-ART ........................................................................... FASE-OCUP 1 .......................................... NIV-A6 NIV-A6 W-A6 PERTENECE NATURALEZA CEM-ART FASE-A NIVEL 4 PI-A6-N PI-A6-N PI-A6-N PERTENECE NATURALEZA F-DOMIN NIV-Ab EMPLAZAMIENTO ARTESANADO f9 fl0 fll P2-Ab-N P2-Ab-N P2-Ab-N PERTENECE NATURALEZA F-DOMIN NIV-A6 EMPLAZAMIENTO ARTESANADO f12 f13 f14 NIV-A5 NIV-A5 NIV-A5 PERTENECE NATURALEZA CEM-ART FASE-A NIVEL f15 f16 f17 P2-A5-N P2-A5-N P2-A5-N PERTENECE NATURALEZA F-DOMIN NIV-A5 EMPLAZAMIENTO ARTESANADO 3 Es preciso aclarar que no es esta la Base de Hechos original, sino el estado que ha adoptado después de la aplicación de diversas reglas y que 10s consecuentes de las mismas hayan entrado a formar parte del conocimiento declarativa de la base de Hechos. Consideremos a continuación la regla: .Si e n un emplazamiento que pertenece a un nivel estratigrifico y a una fase de ocupación cualquiera, predomina la funci6n artesanal, entonces, añadir 1 punto al indice de emplazamientos artesanales del nivel y de la fase de ocupación a 10s que pertenezca.. He aquí el aspecto de la misma regla tal y como debe implementarse para que el ordenador sea capaz de entenderla: Cl SI NATURALEZA = EMPLAZAMIENTO (X) C2 PERTENECE (X) = (Y) NArURALEZA (Y) = NIVEL c3 C4 PERTENECE (y) = (z) c5 (2) = FASE-OCUP NATURALEZA ~6 F-DOMIN (X) =ARTESANADO ENTONCES al CEM-ART (Y) t +1CEM-ART (Y) a2 CEM-ART (Z) t + 1 CEM-ART (2) La instanciación de la regla se ajusta al esquema siguiente: * la Condición C1 esta cumplida por f7, f10 y fl6, con 10 cual: X = PI-A6-N ó P2-Ab-N O PA-AS-N * la condición C2 est5 cumplida por f6, f9, fl5. Podemos realizar, por tanto, tres instanciaciones distintas: x = PI-A6-N, y = NIV-A6 (f6) x = P2-A6-N, y = NIV-A6 (f9) x = PI-AS-N, y = NIV-A5 (f15) * la condición C3 esta cumplida por f4 y f13, con las mismas instanciaciones posibles para (Y) que en el caso anterior . * la condición C4 esta cumplida por f3 y f12, con: Z = FASE-A sin que cambien las instanciaciones precedentes. * la condición C5 esta cumplida por f l . Igual que antes: Z = FASE-A * la condici6n C6 elimina la posibilidad: X = pl-A6-N, pero como esta cumplida a la vez por f l l y f17, existen aún dos sistemas d e instanciación posibles: X = P2-Ab-N, Y = NIV-A6, Z = FASE-A X = PI-AS-N, Y = NIV-AS, Z = FASE-A En otras palabras, esta regla es activable porque to&as sus condiciones existen de u n modo u otro e n la Base de Hechos. Una vez aplicada: a l modificarA f5, que se convertir8 en NIV-A6 CEM-ART 5 a2 modificar5 f2, que se convertiri e n FASE-A CEM-ART 12 Las 100 reglas que componen el Sistema Experto estan agrupadas en [(paquetes*(las 36 etapas). Cada uno de esos paquetes dispone de un orden de prioridad (inscrit0 en la Agenda interna del Motor de Inferencias), lo que permite el examen individuali~adode cada uno de ellos y su desactivación una vez acabadas las inferencias. La estrategka de control utilizada es la busqueda exhaustiva, es decir, que el motor de inferencias busca todas las instanciaciones posibles de una regla antes de pasar a la siguiente. Esas instanciaciones son memorizadas para evitar que la regla sea aplicada varias veces con el mismo juego de unificaciones. 5. Comparacicin de 20s resultados obtenidospor el arquecilogoy los calculados por la maquina La conclusión propuesta por el Sistema Experto es la siguiente: -al pasar de la fase d e ocupación A a la fase d e ocupación B, el indice dom6stico aumenta, el indice artesanal permanece estable y el indice de prestigio disminuye; por consiguiente, en la fase B del yacimiento de Shortugai', la especialización de las áreas de actividad disminuye sensiblemente, y el comercio a larga distancia disrninuye enormernente.. Un módulo independiente de PALAMEDE utiliza estos resultados y una nueva base de reglas para obtener, como resultado final: ([Dela fase A a la fase B el yacimiento de Shortuga'i experimenta una tendencia simple hacia un sistema económico de tipo rural, menos técnico, menos productor y menos organizado,,. Este resultado es comparable a las hipótesis arqueológicas formuladas por el equipo que excavó el yacimiento (cf. Francfort 1989): el asentamiento evoluciono de una 'colonia. harapense (fase A), a un lugar de habitación ~rural)) con una cultura bactriana local. La variación del comercio a larga distancia confirma esta evolución. Es importante destacar que la importancia de las actividades astesanales no disminuye, como se habia supuesto e n un principio (Francfort 1984): el Sistema Experto pone a la luz un detalle importante, la estabilidad de esas arcas. Un análisis detallado de 10s resultados de la excavacicin muestra que esta estabilidad artesanal es el resultado de una transformación en el dominio de las distintas actividades, es decir, que pasan de la producción de bienes de prestigio a la de Útiles domésticos, o bien, característicos de otras formas de prestigio. Con el fin de validar 10s resultados del Sistema Experto, se utiliz6 una Base de reglas ligeramente modificada para que pudiera adaptarse a una nueva Base de Hechos. Esta vez se trataba de la excavación del yacimiento de Shahr-i Sokhtra, situado en el Nordeste de Irin, cuya ocupación debió tener lugar entre el 2900 y el 1700 a.C. La interpretación de 10s materiales de esa excavación (Tosi 1984) insistió e n el desplazamiento progresivo y a la concentracion de la actividad artesanal de 10s talleres dom6sticos originales (al Este del yacimiento) a barrios especializados (al Oeste y al Sur). Esta transformación topográfica y económica iria pareja a un mayor control politico: -La centralizaciOn física de la producción artesanal y el grado de especialización e n aumento son procesos que se pueden dividir en dos fases: [la primera se caracterizaría por] el control de los especialistas trasladándolos de sus talleres domésticos y resituundolos en una nueva sección,~(Tosi 1984: 35). El Sistema Experto concluye, sin embargo, que ((entreel periodo 1 y el periodo 2 en Shahr-i Sokhtra el indice doméstico aumenta, el indice artesanal disminuye, el indice de prestigio disminuye. Conclusión: la especialización de las %reasdisminuye sensiblemente~~. Estos resultados son opuestos a la hipótesis inicial de Tosi, que consideraba que la especialización de las áreas aumentaba con el tiempo. Esa disparidad puede explicarse recurriendo a tres criterios distintos: Los bienes de prestigio y las élites desaparecen casi totalmente e n la descripcion de las fases recientes -la publicación de Tosi se limita a detallar el sector artesanal durante la segunda fase-, rnientras que su distribución espacial era homogénea e n la fase anterior. Esta ausencia desequilibra la Base de Hechos. Los artesanes, diseminados en el asentamiento e n la fase antigua, son sustituidos por concentraciones de talleres cuya importancia no es valorable ante la falta de cuantificación. Alguno de esos nuevos talleres, estaban en funcionamiento en la fase antigua. Ante la falta de información sobre la función doméstica e n la publicación de referencia (Tosi 19841, ésta ha tenido que ser restituida al definir la base de Hechos. En resumidas cuentas, el resultado del Sistema Experto en el caso de Shahr-i Sokhta no invalida la interpretación de Tosi, pues la documentación existente sobre este yacimiento no es comparable con la docurnentación disponible sobre Shortuga'i (10s datos utilizados están orientados exclusivamente hacia la demostracion de la concentración espacial de la función artesanal, dejando de lado problemas tales como la ambigüedad cronológica y la cuantificación de 10s hallazgos). Aplicaciones de 10s Sistemas Expertos en Arqueologia Que duda cabe, muchos lectores habrán considerado demasiado complejo el ejemplo anterior, totalmente alejado de su forma de trabajar, y , por lo tanto muy poco -útil>,para la práctica arqueológica. El propósito de esta sección es desterrar esos t ó ~ i c o sinfundados. Empecemos por el problema de la ~complejidadl';es fácil observar que 10 que unos llaman complejidad no es más que el resultado de un elevado grado de abstracción. El cálculo de 10s indices para cada una de las funciones no es complicado, matemáticamente hablando, pero el uso de esos indices si que puede plantear probIemas a muchos arqueólogos. Pero, no es esto 10 impostante: el Sistema Experto no exige el uso de indices como 10s anteriores, sino tan s610 el mismo mecanismo de razonamiento usado por el arqueólogo. Es un expesto humano el que ha conslderado que el uso de tales indices tenia intei-is para poder interpretar 10s datos, lo Único que hace e1 Sistema Expesto e s '(representar',ese méxodo de inferencia Por consiguiente, el lector debiera tener blen presente que 10 comphcado, lo realmente difícil, es interpretar 10s datos arqueológicos, y no programar un Sistema Expesto. El ordenador ejecutará 10s procedimientos de interpretación que un arqueólogo considere relevantes, es decir, su inteligencia se debe, tan solo, a que reproduce las operaciones usadas por un agente inteligente. En este orden de cosas jcual es la utilidad '<real>% de un Sistema Experto? En ningún caso podemos proponerlo como sustituto del arqueólogo, sino como una mera máquina auxiliar. El proceso de interpretación es muchisimo más complicado de lo que la mayoria de arqueólogos creen. Los Sistemas Expertos ayudan a dominar esa complejidad. iCree el lector que hubiese sido posible calcular y utilizar de forma coherente todos esos indices sin ayuda de PALAMEDE? Evidentemente, el uso de indices no es el único procedimiento interpretativo utilizable por un Sistema en tres de sus módulos (TOP, TEC, ARCHI). Los resExperto. El mismo programa PALMEDE tan s610 lo ~~tiliza tantes (USE, CIV), no detallados aquí, son muy distintos, pues simulan diferentes Teorias sobre el origen del Estado (Carneiro, Wittfogel, Claessen, entre otras) bajo la forma de reglas de producción. Esos argumentos traducidos en forma de Base de Reglas son contrastados con diferentes Bases de Hechos, cada una de las cuales representa el conocimiento declarativo que se dispone acerca de alguna cultura arqueológica. Evidentemente esos casos prácticos han sido elegidos convenientemente: algunos son sociedades con una organización tipicamente estatal, pero otros son sociedades tribales o, incluso, com~inidadesde insectos. El objetivo es aplicar una misma Teoria a diferentes ejemplos concretos para evaluar la predicción resultante con ayuda de lo que se sabe acerca del ejemplo. Las conclusiones son sorprendentes: ien la mayoria de los casos, la comunidad de insectos se considera que tiene una organización estatal! Evidentemente, algo falla en esas teorias, y es el Sistema Experto el que ha puesto de manifiesto dicho error. PALAMEDE es un buen ejemplo de programa destinado a la cornprobación de hipótesis en arqueologia; Es posible que haya quien crea que esa no es una actividad que deba dejarse en manos de una máquina, pues es una de las principales características del razonamiento cientifico. Sin embargo, programas semejantes a PALAMEDE, como por ejemplo SUPERIKON (Lagrange y Renaud 1983b, 1984, 1985, 1987. Un ejemplo muy semejante es el de Monteiro 1993) han demostrado lo confuso de las hipótesis arqueológicas expresadas e n lenguaje natural, y lo apropiado de los sistemas expertos para procesarlas evitando la ambigüedad. La dificultad estriba en el excesivamente difundido desprecio por el forrnato lógico del razonamiento cientifico: a diferencia de las explicaciones narrativas usuales, que oscurecen y ocultan el mecanismo de inferencia usado por el investigador para resolver un problema, un Sistema Experto enfatiza la estructura propia de la inferencia, eliminando lo accesorio. Profundizaremos e n esta cuestión en las secciones siguientes. Pero 10s Sistemas Expertos también pueden usarse para facilitar operaciones más simples y bastante engorrosas. Así, por ejemplo, se pueden usar como interfaces <tinteligentea,entre programas técnicos muy especifico~y usuarios no entrenados e n esas técnicas. Por ejemplo, entre un Sistema de Información Geográfico y el usuario. Los Sistemas de Información Geográficos (GIS: C'Geographic Information Systems.), la ultima moda en arqueologia computacional, suelen ser programas muy complejos y dificiles de usar; un sistema experto puede ayudar al arqueólogo e n la formulación y modelización de su problema y en encontrar la técnica de GIS más adecuada para resolverlo (cf. Webster 1990). Existe un proyecto en el Instituto de Prehistoria y Protohistoria de la Universidad de Amsterdam para realizar un programa de este tipo (Voorrips 1991, comunicación personal). Algo semejante existe en el campo de la Estadística: sistenias expertos que ayudan a seleccionar la técnica mas adecuada a un problema concreto (cf. Gale 1986). El programa VANDAL, citado en el capitulo anterior, también entraria e n esa categoria, puesto que ayuda al arqueólogo a interpretar 10s an%lisisarqueométricos. Otro ejemplos tipicos, esta vez e n zooarqueologia y osteologia serian 10s de Brough y Parfitt (1984), Maicas (1989), Gonzalez y Maicas (1991). En relación a esas aplicaciones puede citarse un estudio piloto realizado en el Centro de Investigaciones de IBM e n el Reino Unido, que desarrolla un sistema a base d e reglas para analizar conjuntos de piedras y decidir cómo disponerlas para construir un muro (cf. Reilly 1989). Programas como éste pueden ser muy útiles para el estudio de las técnicas constructivas de la antigüedad e, incluso, para ayudar en la reconstrucción de estructuras arquitectónicas partiendo de 10s restos descubiertos durante la excavación. En el ámbito del procesamiento de im%genespor medio de Sistemas Expertos cabe citar el proyecto de . Raquel y Josep Miquel Piqué (1993) Su objetivo es crear un programa capaz de analizar las microfotografias de las muestras antracológicas (carbones) encontradas e n excavaciones arqueoló$icas, determinando la clasificación biológica de la muestra (la madera de la cua1 procede el carbón). El programa consta de dos paftes principales, un conjunto de algoritmos de detección de contornos y atenuación de imagen, capaz de detectar la estructura de la muestra. Interesa especialmente determinar la conformación de 10s poros y traqueas presentes e n la imagen. El segundo componente del programa obtiene las coordenadas X e Y de dichas caracteristicas mor- fológicas de 10s carbones, y mide el radio de las traqueas. Esta información extraida automáticamente de la imagen es utilizada a continuación por el sistema experto propiamente dicho, que contiene una clasificación de especies botanicas y reglas de producción cuyos antecedentes estan definidos por las caracteristicas medidas. Monique H. van den Dries (1994) ha diseñado un Sistema Experto que analiza las huellas de uso de 10s artefactos liticos. La idea básica era desarrollar un programa que facilitase a los estudiantes de prehistoria el estudio de esta técnica; por eso el programa no lee directamente la imagen, sino que interroga al usuario acerca d e la presencia de determinadas huellas, y otras características de la pieza, como morfometria, estado de conservación, etc. El programa contiene numerosas fotografias para auxiliar al estudiante e n esta fase de interrogación. Una vez que el programa dispone de la información descriptiva inicial, verifica si esta información es valida desde el punto de vista informatico (no genera conflictos con la informaci6n que dispone) y arqueoldgico (no est%fragmentada o alterada por procesos post-deposicionales). A continuacidn se activan las reglas por encadenamiento hacia adelante hasta producir la interpretación funcional deseada, esto es, la actividad que supuestamente ha producido las huellas de uso descritas por el usuario. Muy semejante es el sistema FAST ("Functional Analysis of Stone Tools"), disenado por Roger Grace (1993). El usuario debe introducir una descripci6n de 10s materiales líticos, siendo misi6n del programa proporcionar una interpretación funcional de esos materiales. Los rasgos descriptivos necesarios para esa interpretación son muy diversos. Asi, por ejemplo, algunas existen reglas como: Si (ángulo del filo < 30') Entonces (cortar material blando) [21 El coeficiente de confianza de la conclusión es utilizado, a su vez, para lanzar nuevas reglas: Si cortar 5 4 Y raspar > 8 entonces seleccionar raspar Con ayuda de diversas reglas como esta, FASTes capaz de distinguir cinco acciones básicas (cortar, raspar, girar, percutir y proyectil) y tres distintas categorías de dureza (blando, medio, duro). La aplicación de este programa a 10s útiles líticos encontrados en el yacimiento mesolítica inglés de Thatcham permitió la interpretación del lugar e n tanto que unidad doméstica, antes que campamento de caza. VANDAL (Vitali y Lagrange 1988, Lagrange 1988, 1989b, Lagrange y Vitali 1992) es un programa de ordenador que tiene por objeto ayudar al arque6logo a interpretar 10s resultados de análisis arqueométricos, en el marco de 10s estudios de procedencia de artefactos. Se trata de un sistema automatizado que produce uno (o varios) -diagn6sticos. según sea la procedencia del artefacto, a partir de un corpus de datos proporcionado por el usuario. VANDAL ha sido concebido, esencialmente para exponer de forma clara el potencial y 10s limites de la informaci6n técnica en 10s estudios arqueom6tricos de procedencia, tarea que suele ser bastante complicada para el arqueólogo. En el ejemplo que aquí se comenta, VANDAL trata el problema especifico de la producci6n local y el comercio de las cergmicas Calcoliticas e n la zona central de 10s Zagros (Asia Central). La información inicial se compone, por un lado, de 10s anilisis químicos de la ceramica combinado con un Anilisis de Datos, y por el otro informaciones arqueológicas apropiadas: yacimiento en el que se hallaron esas cerimicas, su tipo (es decir, una combinaci6n del tipo de pasta y de atributos morfoldgicos y estilisticos), y su datacion. Se supone que estos datos constituyen una informaciiin udlida (coeficiente de verosimilitud = 1). El propósito es comparar la composición química de diferentes grupos de cerimlcas arqueol6gicas para poder decidir si son de origen local o importadas El usuario debe proporcionar al sistema 10s datos empiricos, esto es, una descripcicin de las cer%micasy de su materia prima. Por ejemplo, supongamos que el usuario introduce el siguiente conocimiento: FUNCION DESC-OBJETO (1) G2-DESC-CERAMI GEOMETRICO (2) G2-DESC-CERAMI TIP0 ID-QUIM-COMPOS G2-REF-CERAM2 (3) G2-DESC-CERAMI (4) G2-REF-CERAM2 FUNCION REF-OBJETO GEOMETRICO (5) G2-KEF-CERAM2 TIP0 Es decir, (1) G2-DESC-CERAMI es un objeto desconocido . (2) (3) (4) (5) su tip0 es <cgeométrico,,. Tiene la misma composición química que G2-REF-CERAM2 G2-REF-CERAM2 es un grupo de cerimicas de referencia (es decir, de procedencia conocida) su tipo es ~~geom6trico)~. En otras palabras, existe un objeto de ceramica con la misma tipologia y la misma composicion quimica que las ceramicas del conjunto de referencia,>.Veamos ahora qué v con oci mi en tos^^ han sido usados para definir el conjunto de cerimicas de referencia: G2-REF-CERAM3 NATURALEZA CERÁMICA G2-REF-CERAM3 FUNCION REF-OBJETO G2-REF-CERAM3 PORCENTAJE 7 G2-REF-CERAM3 TIP0 CORDADA GZREF-CERAILI3 YACIMIENTO YAZ-DEPE G2-REF-CERAM3 PERIODO CALCOLÍTICOMEDI0 1 A G2-REF-CERAM3 CANTIDAD 3 FUNCION MATERIA PRIMA G2-MAT-PRIM-32 YAZ-DEPE G2-MAT-PRIM-32 YACIMIENTO G2-MAT-PRIM-32 NATURALEZA ARCILLA .../... > VANDAL contiene reglas del tipo: REGLA: PERTENECE-DESC SI (1) FUNCION (2) FUNCION (31 TIP0 (4) ID-COMP-QUIM ENTONCES PERTENECE (A) t (Bj (A) (B) (A) (A) DESC-OBJ = REF-OBJ = TIP0 (B) = (B) = , 1 Cuya traducción seria: <Si(A) es una cerámica desconocida, (B) es un grupo de ceramicas de referencia, (A) y (B) tienen el mismo tipo y (A) tiene la misma composicion química que (B), entonces (A) pertenece al mismo grupo de referencia que (B).. La eficacia de estos programas nos permite intuir que la aplicacibn por excelencia de 10s Sistemas Expertos e n Arqueologia es la implementación de Tipologias Automaticas. Cualquier arqueólogo se ha dado cuenta de lo engorroso que es clasificar artefactes cuando no se es, precisamente, un experto en la materia. Por ejemplo, un arqueólogo especializado en paleolitico encuentra en las capas superficiales de su yacimiento cerámica romana o de la Edad del Bronce. Para clasificarla correctamente debe consultar libros, muchos de ellos no actualizados, y los que si lo estan remiten constantemente a obras antiguas ilocalizables. Otro caso muy frecuente es el de la aparición de cerámica de importación en un nivel estratigrkfico; lo imprescindible de su correcta clasificación esta reñido con la ausencia de especialistas e n ceramicas micénicas, griegas, fenicias,... En estas circunstancias un Sistema Experto puede sustituir con ventaja a un libro o, incluso, a un experto: su contenido es el mismo que el que aparece en la obra de r~ferencia,pero mas claro y m e r ordenado; en el Sistema Experto 10s criterios de clasificación son, por definición, explícitos, mientras que e n la obra de referencia, lamentablemente, suele ser muy difícil averiguar por que razón ese arqueólogo ha clasificado una pieza determinada e n un grupo y no e n otro. Finalmente, y, sobre todo, un Sistema Experto resulta muy f5cil de actualizar, dada la modularidad de la arquitectura de la Base de Conocimientos. En resumidas cuentas, UIKA Tipologia Automatica permitiria al arqueólogo introducir una Base de Datos relacional con la descripción morfometrica de sus hallazgos, y el Sistema Experto proporcionaria la cronologia del yacimiento, debidamente ordenada por niveles y unidades espaciales, si es que se ha tenido la precaución de introducir las coordenadas de localización para cada artefacto (cf., por ejemplo, Ozawa 1989). Repito, no hay nada de Ciencia Ficción en esto; la tecnologia actual permite hacerlo sin problemas, y a un coste accesible a cualquier Universidad o Centro de Investigaciones. No obstante, a pesar de todas estas ventajas, aun no existen Tipologias Automaticas operativas. Podemos citar el trabajo pionero de Bishop y Thomas (1984) sobre la ceramica campaniforme britinica, el de Joel Mourre (1985) sobre industria lítica, el de Ganascia et al. (1986) sobre hachas de bronce, el de Markel(1987) sobre pipas iroquesa y el de Herman (1987) sobre figurillas cultuales chipriotas. Proyectos interesantes son 10s de Ross (19891, CUADERNOS DE ARQUEOLOGÍAMEDITERRÁNEA/ TOMOI1 sobre fíbulas anglo-sajonas, el de Gegerun et al. (1990), sobre orientación d e tumbas y, muy especialmente, el ensayo de análisis d e morfometrias cerámicas desarrollado por Steckner (1993). Sin embargo, conviene tener presente que 10s Sistemas Expertos Arqueológicos no están limitados a resolver problemas tipologicos. PALAMEDE es un buen ejemplo de programa capaz d e simular el "razonamiento" empleado por 10s arqueóbgos. Sistemas Expertos y Ihgica Proposicional La primera consecuencia que se puede extraer del uso d e Sistemas Expertos para representar el razonamiento arqueológico es que la estructuración de las Teorias Arqueológicas es análoga a la noción de Mernoriu Asociativa o memoria accesible por su contenido, presentada e n el capitulo 2: [~jestácontenida esa unidad de información (10s rasgos descriptives) e n ka Memoria (la Base de Conocimiento)? Si la respuesta es afirmativa, averigua cuál y qu6 afirmaciones asociadas (expresiones conceptuales) pueden activarse)'. Veiamos antes que, en las memorias asociativas, el conocimiento está almacenado e n forma de pares asociados Estimulo-Respuesta, del tipo: SI .Presencia d e Fibula de Codow ENTONCES Gronologia: siglo M a.C. donde los estimuios n o son más que un conjunt0 especifico d e atributos-clave, y las respuestas son 10s conceptos interpretatives asociados a esos atributos. El mecanismo Iógico subyacente es el siguiente: FI y F2 y ... y F, son verdaderos SI si se sabe que la regla: Y 'SI E l Y F2 Y ... Y F, ENTONCES F es verdadera ENTONCES se puede deducir que F e s verdaderm Como se considera que 10s elementos que se encuentran e n la memoria de trabajo son verdaderos y que las reglas existentes en la base de Reglas son también verdaderas, este principio -el iZlodus Ponem d e la Lógica Proposicional- pemite utilizar las reglas c u p parte condicidn o antecedente corresponda al estado actual de la memoria de trabajo, con el fin d e ariadir nuevos elemenros (el consecuente d e la regla) a dicha memoria. Por consiguiente, la modalidad de razonamiento impuesta por la peculiar estructura d e 10s Sistemas Expertos puede caracterizarse e n 10s siguientes tkrminos: dados ciertos datos empiricos (observaciones) acerca d e un caso arqueol6gico particular, y una Base de Conocimientos (hipótesis e interpretaciones consideradas válidas en una Teoria Social, Antropol6gica o Histórica determinada), hay que interpretar el caso particular [el problema arqueológico] en términos de la Base de Conocimientos. Esta modalidad d e razonamiento suele denominarse abducción. Josephson e t al. (1987) sugieren adoptar el siguiente pseudo-silogismo para representar las inferencias abductivas: es una colección de datos (observaciones, descripciones, imágenes digitalizadas, etc.) D H explica D (Si H fuese verdadero, entonces implicaria a I)) Ninguna de las Hipótesis conocidas explica D mejor que H. Entonces, H es correcto. Por consiguiente, dos unidades abductivamente asociadas son dos unidades entre las cuales se ha esta'bfecido una relación heuristica; es decir, una relación que no est%basada en ia naturaleza profunda d e las unidades, sino e n un criteri0 externo establecido por el investigador. Consideremos el siguiente ejemplo: deseamos saber por qui. un artefacte a tiene la propiedad P (una cronologia determinada) ; disponemos de cierta información previa (todos los F son P 1, por lo tanto estableceremos una asociación abductiva entre -a tiene P y 'la es F y utilizaremos la segunda unidad d e conocimiento ( a e s F) para explicar por qué a tiene P . Obsérvese que la conexión entre ambas unidades n o es segura; la hemos conjeturado sobre la base d e un conocimiento geneml previo (-todos los Fson P es decir, el razonamiento abductivo propone ciertas hipótesis plausibles acerca de una situación inicial, con el fin de explicar unas observaciones. Esta manera de urazorar. es la que se encuentra e n el fundarnento del Sistema Experto presentado al principio de este capitulo (ESTELAS), caracterizado por una secuencia finita de reglas de producción que permiten la asignación de expresiones conceptuales a las observaciones empíricas; por ejemplo, la expresión conceptual +Cronologia: siglo IX a.C.n es asignada a aquellas Estelas e n las que se ha representado una fíbula de codo. Esa 'i, (c); <<asignación. implica la existencia de una ~~asociación~~ entre arn$as unidades de conocimiento, el concepto y el dato. Una representacion gráfica del mecanismo de decisión en el caso anTerbr aparece e n la figura 3.2. Este tipo de grafo recibe el nombre el nombre de árbol de decisión. Se interpreta de la siguiente manera: Supongamos que deseamos probar el objetivo '(SigloIX a.C.>',para el10 tendremos que averiguar si existe un objeto empirico capaz de activarnese concepto, por ejemplo fíbulas de codo, espadas de lengua de carpa y/o cascos de es imprescindible buscar si existe un artefacto arqueológico recresta. Dado que estos son objetos ~~genQicos~~, lacionado de un modo u otro con esos objetos genéricos. Fzg 3 2 Esquema de asoczaczones abductzvas en el Szstema Expeflo ,,Estelas u 1 O - ' - t ' '_ De todo el10 se deduce que para activar una unidad de conocimiento, .este situada donde est6 e n el árbol de decisión propio a ese problema, se necesitan dos cosas: una unidad de conocimiento y una asociación entre ésta y aquella que queremos probar (sea ohjetivo o subobjetivo). En otras palabras, toda inferencia se reduce a establecer asociaciones entre unidades de conocimiento predefinidas. Si no disponemos de conceptos interpretativos (esto es, si no 10s hemos definido previarnente), jamis llegaremos a interpretar 10s datos empiricos: para saber si las Estelas datan o no e n el siglo IX a.C. es preciso que definamos previamente el concepto ,<sigla IX a.C.., porque de esta definición (usando, por ejemplo, las caracteristicas de la (Cultura del Bronce Atlántico 111.) surgirán las conexiones que permitirán asociar (<(activar'>) el estado inici-al con el estado final del problema. La formalización estricta de la noción d e activación es muy importante para poder cornprender la forma de representar <<inferencias)> por medio de programas de ordenador. Hemos visto en páginas anteriores que una regla contiene un antecedente y un consecuente. El antecedente enumera aquellas situaciones en las que la regla es aplicable; cuando esas condiciones son (<verdaderas, es decir, existen en la Base de Hechos, bien e n tanto que conocimiento directamente introducido por ei usuario, bien como resultado de una regla anterior, diremos que la unidad de conocixniento representada en el consecuente de la regla ha sido activada. Activación e Instanciación parten de principios distintos: en tanto que la Instanciación de las reglas puede ser definida como el proceso por el cua1 una regla estatica es utilizada durante la inferencia y a la que se le asignan ciertos valores, la Activación es, en realidad, una función lógica que mide el grado de asociación entre el hecho que queremos interpretar (Condición de una Regla de Producción) y el concepto interpretativo (Consecuente de una Regla de Producción. La asociación entre dos o mas conceptos o unidades de conocimiento ya viene dada en la formulación misma de la regla de producción: A y B, entonces C Donde C estli asociado con A y con B, ya que su ~~activación. depende de la activación inicial de A y B; sin embargo, la regla no precisa que tipo de asociación existe entre A y B. Por otro lado, hemos visto que un Sistema Experto contiene varios centenares (o miles) de reglas. Las asociaciones entre las distintas unidades de conocimiento pueden ser extremadamente complejas: 10s consecuentes de determinadas reglas sirven de condición de activación de otras. Por ejemplo: Si A y B, entonces C Si C y D, entonces E Si B, entonces D Supongamos que A y B son atributos definidos en la Base de Hechos. La primera regla será, por tanto, (werdadera)),con 10 que el sistema actiuará la unidad C. El efecto de esta unidad y de la unidad D, activada a su vez mediante otra regla no es interpretar A y B, sino activar un nuevo concepto, E , cuya función será, bien activar una nueva unidad, bien interpretar el conjunt0 de datos descrito por A y B. Asi pues, por medio de ~asociaciones~~, la ~~activación~~ de un concepto provocará, automáticamente, la activación de aquellos conceptos con 10s que el primero está asociado, y estos, a su vez, provocaran la activación de nuevos conceptos. El resultado es muy similar al de una reacción en cadena, pues la funci6n de activación se extiende paulatinamente por todo el sistema a travks de la asociación entre 10s conceptos que se ha implementado declarativamente (bajo la forma de reglas de producción). En cierto sentido, pues, podemos considerar que esa función hace las veces de la energia. necesaria para que el Sistema Informático funcione y resuelva el problema que se le ha planteado, esto es, para que pueda buscar la heurísticamente mejor solución -esa analogia ha sido propuesta por Anderson (1983)-; para el10 las distintas hipótesis que contenga nuestro Sistema Experto se activaran según sea la relación que mantengan con las posibles fuentes de activación (hipótesis previamente activadas y con las que está asociada). El mecanismo de expansión de la función de activación suele ser bastante complejo, computacionalmente hablando. En realidad, la ~activación~~ de una regla es mucho mis que la mera instanciación de ciertos conocimientos implementados con anterioridad. Si el procedimiento de reconocimiento de 10s conceptos (hipótesis) estuviese basado en una comparación directa entre todos 10s componentes de dicho concepto y 10s del dato empirico que queremos usar para activarlo, necesitariamos una extraordinaria capacidad de memoria en el ordenador para almacenar y calcular todas las asociaciones posibles. Esa instanciación, pues, no debe estar definida por una función directa del tipo: .Si Objeto Entonces Concepto,, sino por una evaluación heurística (es decir -posible,,antes que (verdaderal>) del contexto en que esa asociación pueda llegar a producirse. El formato de la regla seria, .Si (x,y,z) definen adecuadamente al Objeto F1 (v, W) definen adecuadamente el Concepto F Y existe una asociación (A) entre F y F1 Y Entonces F1 activa F.. A esta complejidad de la función de activación debemos anadirle ahora las dificultades inherentes al mecanismo de expansión de la misma. Para que el sistema Experto ofuncione , su motor de inferencias ha de ser capaz de provocar un movimiento en cascada o reacción en cadena entre 10s distintos conceptos, el cual, a su vez, permite la búsqueda y, consiguientemente, la resolución del problema. Si esa reacción en cadena o búsqueda es demasiado estrecha, posiblemente el sistema tendra muy poca utilidad, pues difícilmente lograremos soluciones que, a primera vista parezcan innovadoras o, cuando menos, distintas a lo esperado. Si la búsque- da es demasiado amplia, demasiadas interpretaciones podran ser válidas al mismo tiempo, y el sistema caerá en la incoherencia. La resolución de esta paradoja, sin embargo, esta más all5 del alcance de la tecnologia informatica, por 10 que debe ser el arqueólogo el que decida, por si mismo, el nivel de complejidad de aquel Sistema Expert0 que [[represente. 10s conocimientos específicos que tiene acerca de un tema de su especialidad. Sistemas Expertos como ~Emulación Cognitiva En la seccion anterior hemos abordado el tema de las relaciones entre 10s Sistemas Expertos y la Lógica proposicional clisica. A partir de ahora nos enfrentaremos a una de las cuestiones que mas discusiones han provocado en la comunidad científica: ihasta qué punto un Sistema Experto reproduce la xinteligencia*de un EXperto humano? Lo cierto es que las limitaciones de estos programas son muchas e importantes, debidas, fundamentalmente a las limitaciones derivadas de la forma en que debe realizarse la implementación informatica del conocimiento: las decisiones relevantes han de depender exclusivamente de un conjunto reducido y bien d e f i d o de variables o factores. 10s valores de esas variables han de ser conocidos (o inferibles), por lo que debe existir un método para especificarlos y expresarlos adecuadamente la forma precisa en que 10s resultados (diagnósticos o predicciones) dependen de 10s valores de las variables ha de conocerse y resultar computable^^, al menos con una cierka aproximación la interrelación entre 10s factores que determinen el resultado han de ser lo suficientemente complejas para que valga la pena construir dicho Sistema Experto. Limitaciones de este tipo, y aún otras no mencionadas aquí, han movido a muchos arque6logos a criticar la tecnologia de 10s Sistemas Expertos y su posible aplicación en la resolución de problemas arqueologicos (Hugget y Baker 1986,Wilcock 1986, 1990, Doran 1988, Gallay 1989, Shennan y Stutt 1989, Stutt y Shennan 1992). M.S. Lagrange (1989~)ha agrupado todas esas críticas: a) Los procedimientos de representación del conocimiento (reglas, encuadres, expresiones relacionales, etc.) son reduccionistas b) las reglas de producci6n no representan adecuadamente el mecanismo de razonamiento, porque ningún experto encuentra natural, ni tan s610 posible, proporcionarlas. Se trataría de un formalisme esencialmente pedagogico, usado por debutantes y no por 10s autenticos especialistas. c) Crítica inversa de (b): las reglas de producción son tan faciles de formular, que resulta posible comprobar cualquier afirmación mediante un Sistema Experto. d) Los Sistemas Expertos obligan a fijar un estado concreto del conocimiento, por lo que rápidamente pierden actualidad. e) 10s programas actuales de Inteligencia Artificial no pueden aprender, ni generalizar, ni tratar con la incoherencia. f) el tratamiento de la incertidumbre en 10s Sistemas Expertos no esta 10 suficientemente perfeccionado. g) hasta hoy, sus aciertos concretos son poco satisFactorios (en el 5mbito de la Arqueologia, yo añadiria: inexistentes). ¿Debemos volver la espalda a una tecnologia por el mero hecho de que no se usa? Si asi lo hiciéramos aún trabajaríamos con 10s métodos de 10s anticuarios y buscadores de tesoros del siglo pasado. No cabe duda que aún faltan muchos estudios para decidir acerca de la utilidad y aplicaciones de 10s Sistemas Expertos; no obstante, quince años despues de 10s primeros ensayos (Doran 1977), ya va siendo hora de que enfoquemos el problema en toda su amplitud. Las limitaciones de la tecnologia son evidentes, y en 10s capítulos sucesivos de este libro intentaré encontraries solucion. Por el momento, centrémonos en la que hace referencia a la capacidad de 10s Sistemas Expertos para representar el conocimiento científico. Prueba de lo infundado de las críticas es que para unos su formato es demasiado Nrígido. (Shennan y Stutt 1989) y para otros demasiado ~ambiguo.(Gallay 1989). No pongo en duda que las reglas de producción como formato de representación del conocimiento qfuerzanm, en cierto sentido, el conocimiento que pretenden representar. En otras palabras, 10s científicos no razonan por medio ,de reglas; eso me parece obvio. Ahora bien, en ningún momento se ha afirmado que este formato de repre,sentación sea anúlogo al empleado por ka mente humana. Recordemos lo que deciamos sobre la Teoria de la representación: para que esa representación resulte adecuada, es preciso que exista una correspondencia que asocie la realidad exterior con la representación, de modo que cuando pkanteemos una pregunta acerca de la entidad real obtengarnos la misma respuesta de su representación. Los estados de la entidad y de su representación estaran en correspondencia si para cada acción en el mundo real que transforme el estado actual de la entidad, existe una operaci6n correspondiente que actualice la representación convenientemente. La existencia de una c correspon den cia^' entre el razonamiento cientifico (Descubriiniento de Regularidades Empíricas-formulación de Hipcitesis-Contrastación de Hip6tesis) y las reglas de producción (SI ... ENTONCES...) no tiene por que exigir la presencia de una analogia formal. Esa correspondencia puede existir a nivel de resultados, aunque la apariencia e incluso la naturaleza lógica de las mismas sea distinta. De esta discusión hemos de aprender un principio de importancia fundarnental: la necesidad de no confundir el formato de representaci6n con aqz~elloque quewnzos representar. La utilización de Sistemas Expertos no obliga al cientifico que quiera llegar a ser un buen investigador a abandonar10 todo y abrazar, como si de una fe mística se tratara, los Sistemas de Producciones corno panacea universal. Las reglas no son rxis que un útil para representar el conocimiento, y no un forrnato para reproducirlo exactarnente, a la manera de una fotografia. La intencicin de 10s que trabajan con estos útiles no es la de producir en serie robots arqueológicos, sino analizar 10s mecanisrnos profundos del razonamiento. Si de ese anilisis surgen ciertos íltiles que contribuyen a automatizar ciertas tareas (Interfaces inteligentes, Tipologias Autom%ticas),tanto mejor. Comentarios bibliográficos En este libro no se trata de la manera de construir Sistemas Expertos. Ningún libro servir5 de ayuda; lo único que cabe recornendar es una lectura atenta de 10s Manuales de Utilización que acompañan 10s Programas Informáticos enumerados en el Anexo. La mayoría de ellos son lo suficientemente claros como para que el lector pueda construir un pequeño prototipo tras unas pocas horas de aprendizaje. La autkntica dificultad est% e n la manera de introducir el conocimiento experto e n la máquina: ja veces, ni siquiera 10s arqueólogos son lo suficientemente buenos arqueólogos para saber cómo y por que piensan como piensan! Entre la enorme cantidad de manuales de introducción hoy en dia existentes, quizás debieran citarse 10s ljbros de Delahaye (1987), Keller (1987), Parsaye y Chignell (19881,Jackson (1989, segunda edición), Giarratano y Riley (1990), Benfer, Urent y Furbree (1991), Lucas y van der Graab (19911, Bundy (1990, tercera edición).; en castellano, destacan el l i b r ~ de Mate y Pazos (1988), la traducción del de Nebendl~al(19911 y el de Cortks et al. (1993); todos ellos integran sencillez, claridad y profundidad. L ¿Es posible automatizar el mecanismo lógico de la Deducción? Al empezar una sesión de trabajo con un Sistema Experto disponemos de un conjunto de unidades de conocimiento verdaderas (10s datos empiricos, fruto de la ohservación directa del investigador, y almacenados en la Base de Hechos) y un conjunto de unidades de conocimiento <'virtuales.(10s conceptos interpretativos, que aparecen en la conclusión de las reglas de producción), cuyo valor verdad -en relación con la base de hechosdebe calcularse . Es decir, antes de iniciar una sesión con el Sistema Experto, 10s conceptos interpretativos no tienen valor verdad. Por ejemplo, un progrdlnd construido para evaluar la cronologia de ciertos yacimientos arsiglo <'VI11a.C.,>,'<sigla VI1 a.C.>>, etc. queol6gicos contendri entre sus conceptos interpretativos: íesiglo IX a.C.>>, La base de Hechos contiene, pongamos por caso; la expresi6n'<1'resencia de cedmica fenicia en el yaciiniento (x)>B. Esta expresion es verdadera, en caso contrario, no la hubiéramos incluido en la base de Hechos, a la que hemos incorporado tan solo informaci6n cuya exactitud se conoce. Por el contrario, las expresiones 'tsiglo IX a.C.'>,'<sigla VI11 a.C.>',4 g l o VI1 aC.., no tendrin valor verdad hasta que sustituyamos la expresión verdadera de partida por otra expresión que, incluyendo alguno de los conceptos interpretativos, tam11it.n sea verdadera. A esta operación la denominaremos deducciOn Por consiguiente, ldeducirernosn una proposicicin interpretativa, si dos (o mis) unidades de conocimiento eiverdaderas'>pueden unirse en una nueva expresión que mantenga el valor verdacl inicial. Por ejemplo, las expresiones: <(Presenciade cerimica fenicia en el yacimiento (x)') [VERDADERA] <<la ceramica fenicia se fecha en el siglo VI1 a.C.n [VERDADERA] Pueden combinarse deductivarnente para formar la siguiente proposición: (<laPresencia de cerimica fenicia e n el yacimiento (x) indica que éste se fecha en el siglo VI1 a.C.. [VERDADERAI Esta operación de inferencia no es m i s que un silogismo de estructura clasica. ((Enel yacimiento (x) hay cerimica fenicia. .la cefimica fenicia se fecha e n el siglo VI1 a.C.. .El yacimiento (x) se fecha en el siglo VI1 a C.>) Podemos utilizar 10s consecuentes de silogismos como el anterior para obtener proposieiones interpretativa~progresivamente mas abstractas, por ejemplo: todo dos 10s yacimientos del siglo VI1 a.C. tienen construcciones defensivas. <E1yacimiento (x) tiene construcciones defensivas>' -Todos 10s yacimientos que reflejan una estructura política estatal tienen construcciones defensivas. I (<Elyacimiento (x) refleja una estructura política estatab) La nuem proposición (<(Elyacimiento (x) refleja una estructura política estatal,,) es mas general que la que utiliz5bamos al principio (<'Enel yacimiento (x) hay cerámica fenicia),),no s610 porque su contenido puede apli- carse en mayor número de casos, sino porque, deductivamente hablando, la última proposici6n deducida [[contiene),a la primera (o dato empirico), que es una ~condición>> para su activación. Algunos autores han introducido, para explicar la relaci6n deductiva que pudiese haber entre antecedente y consecuente, la noci6n de similaridad liteml entre las condiciones de validez usadas para definir todos y cada uno de 10s conceptos (cf. Falkenhainer 1990): si y s610 si las condiciones de validez de la premisa o antecedente coinciden con las condiciones de validez del consecuente, diremos que el consecuente ha sido deducido de las prernisas. Ahora bien, jccimo podemos llegar a conocer esas condiciones de validez? Muy sencillo, fijándonos en los atributos que definen el concepto. Esta caracterización no tiene nada de extraño si tenemos presente la noción de significado defendida en la filosofia actual y que deriva, básicamente, del e n f o q ~ ~propuesto e por Tarski: el significado no es una propiedad necesaria de la entidad, sino una propiedad del contexto en el que esa entidad tiene lugar. Son las característica~de ese contexto las que deciden la idoneidad de esa entidad e n ese lugar del discurso preciso (cf. Johnson-Laird y Byrne 1791). Por consiguiente, para que una regla como la siguiente: Si (x) se data e n el siglo VI1 a.C. Entonces (y) se data e n el siglo VI1 a.C. sea calificada de deductiva es preciso que exista similaridad literal entre x e y, esto es, que coincida la denominación y los valores de todos los atributos y subatributos que contengan. De este enfoque se deriva el hecho que las inferencias nunca son idealmente deductivas; la similaridad liteml no existe e n el mundo real, todo lo más la relaci6n ser%de una similaridadparcial, insuficiente para establecer una vinculacicin deductiva entre prernisa y consecuente. Existe un continuo que sitíia e n un extremo la asociación ahductiva (cf. Capítulos 3 y 7) y en el otro la asociación deductiva, utilizando como criterio operativo la sirnilaridadparcial de las condiciones de validez. Asi, las inferencias serin muy deductivas o poco deductivas segí~nel número de atributos que compartan el concepto o conceptos que hacen las veces de premisas y el concepto o conceptos que hacen las veces de conclusión. Por consiguiente, el grado de deductivi~ladde una inferencia es una funcicin matemitica que depende del número y de la naturaleza de 10s atributos y subatributos compartides por la prernisa y el consecuente. Hay diferentes formas de calcular esa función, todas ellas basadas e n las tecnicas de la Taxonomia Numerica (Sneath y Sokal 19731, que no se detallaran aquí. Conviene citar, sin embargo, la posibilidad de utilizar el '(modelodel contraste>l,que calcula la similaridad en fi~nciónde la importancia subjetiva de 10s distintos atributos (Tversky 1977, Gati y Tversky 1984, Osherson 1787). Como consecuencia de su fundamento matem%tico,la función ((gradode deductividad>bestablece una jerarquia ultramétrica, no sólo entre las distintas inferencias (o asociaciones), sino entre 10s conceptos que toman parte en la inferencia deductiva. Es clecir, siempre que razonemos deductivamente, estableceremos, consciente o inconscientemente, una relación de orden entre conceptos: u n concepto se situa por dehajo de otro si y solo si el conjunto de atributos que lo define esta incluido en el conjunto de atrihulos del otro concepto (De Boeck y Rosenberg 1988: 364). Dado que el número de condiciones de validez (atributos) del consecuente ha de ser, necesarian~ente,menor que 10s que definen las premisas Uohnson-Laird 19881, la relaci6n de orden será, por definicihn, anti-simétrica: 10s atributos del consecuente están incluidos e n 10s atrihutos de las premisas, ya que una deducción vBlida ha de ser verdadera e n cada una de las situaciones en las que las premisas son verdaderas (Rips 1788). Dicllo de otro modo, el consecuente no debe aumentar la informaci6n sem%nticacontenida e n las premisas. Acabamos de introducir una idea de gran importancia, que nos va a permitir mejorar nuestros útiles de representaci6n del conocimiento procedural: si las proposiciones interpretativas de un dato empirico concreto se ordenan jerárquicamente, la mayor de ellas ((estar5contenida>'en el conjunto de todas las anteriores. Por ejemplo: -El yacimiento (x) refleja una estructura política estatal,> I 451 yacimiento (x) tiene estructuras clefensivas)~ I (El yacimiento (x) se fecha e n el siglo VI1 a.C.17 I ((Enel yacimiento (x) hay ceramica fenicia)) Lo que estamos estableciendo, en realidad, es un entramado de relaciones de orden entre 10s conceptos: YACIMIENTO (X) SIGLO VI1 A.C. ESTRUCTURA POLÍTICAESTATAL. SIGLO VI1 A.C. es una deducción de YACIMIENTO (X), ya que comparten (relación de similaridad) ei atributo Cerdmica = Fenicia. Del mismo modo, ESTRUCTURA POLÍTICAESTATAL es una deducción de YACIMIENTO (X), ya que comparten el atributo Estmcturas Dejensivas = Presencia. Podemos establecer, tambien, una relación deductiva entre SIGLO VI1 a.C. y ESTRUCTURA POLÍTICAESTATAL, considerando que el atributo Estmcturas Defensivas = Presencia tambikn es característlco del concepto SIGLO VI1 a.C. El atributo que define el tercer concepto configura, claramente, un subconjunto de 10s atributos que definen 10s dos primeros conceptos, de ahi que la inferencia deductiva haya sido establecida en el siguiente orden: [(YACIMIENTO (X)) y (SIGLO VI1 A.C.)] -> [ESTRUCTURA POLÍTICAESTATAL] Este grafo, de Si B Entonces, hecho, no es mis que otra manera de Implementar el silogismo general: A es verdadero para todos 10s B es verdadero para todos 10s C A es verdadero para todos 10s C En nuestro ejemplo, disponemos de una propiedad general <Estructurapolítica estatal>>, que es verdadera para un conjunto de yacimientos caracterirados por disponer de estructuras defensivas; todos 10s yacimientos arqueol6gicos con estructuras defensivas se batan en el siglo VI1 a.C. y en ellos aparece cerámica fenicia; en consecuencia, bastar2 con encontrar cerimica fenicia en un yacimiento, para deducirno solo su datación e n el siglo VI1 a.C., sino también la existencia en kl de estructuras defensivas (aunque la excavación no las haya puesto de manifiesto) y la existencia de una estructura política estatal en la población que habit6 dicho yacimiento. Relaciones Taxonómicas ) El grafo presentado en la sección anterior es, en realidad, un árbol taxonómico. Se trata de una manera de representar aquella forma de razonamiento que permite inferir las propiedades de una clase o tipo basándose en las propiedades de aquellas clases o tipos situadas en un orden jerárquico más alto. Una definición formal de dicho mecanismo seria Dado: - un conjunto de clases - un conjunto de propiedades para esas clases - un conjunto de conexiones entre clases y propiedades buscar: - el valor más probable de la propiedad P,para la clase C - la clase que mejor pueda describirse por medio de la propiedad P. En nuestro caso podemos sustituir la noción de clase y propiedades por la de Hipótesis o Estado particular de un problema. I>odemos emplear la n~odalidadde inferencia siguiente: dado un conjunto de hipótesis y una serie de conexiones entre las mismas (relaciones de orden o inclusibn), encontrar el dato empirico que más verosimilmente esté asociado con la Hipótesis tnis general (o Solución). En otras palabras, la conexión entre Estado Inicial y Estado Final de un problema seria an%loga a la relación entre un individuo o ejemplar particular y la clase general a la que pertenece. El resultado de la ordenación jerirquica de las hipótesis es el siguiente: la m5s general (y, por tanto, la más abstracta) de las hipótesis contiene a las menores, las cuales tendrin acceso a un subconjunto de las propiedades que definen la hip6tesis inmediatamente superior. Una vez dispuestas las clases e n forma de árbol taxonómico, ,<exportaremos.las propiedades caracteristicas de una Hip6tesis (informaciones asociadas a la misma) a los datos o hipótesis particulares que forman parte de la misma. Esta operación se denomina herencia de propiedades. Antes de seguir adelante analizaremos detenidamente un ejemplo muy simple. Consideremos el caso de o macro-tipo de knforas que se distinguen las ánforas romanas del tipo Dressel 2-4; constituyen una ~~fainiliaa) morfológicamente de 10s otros macro-tipos (Dressel 1,Dressel7-13, ... etc.), mientras que son muy similares entre ellas. La interpretación de esas ánforas no procecle de su similaridad morfolbgica, sino del conocimiento "extrínsec~>> (la funci6n de esos contenedores de liquido) que se dispone para algunas de ellas (relacionadas con el comercio de vino). El problema pues, estriba en saber si resulta posible '<exportar.a todos 10s miembros de la clase esa propieclad general. Consideremos que la resp~~esta es afirmativa: todas las iinforas Dressel 2-4 sirvieron para transportar vino; entonces, quizás fuese posible definir suhclases (basadas en criterios tanto morfológicos, como de tecnica de fabricaci611 del anfora) y exportar corno propiedad, no tan general como la pri~~, ligado con las kreas productoras de vino d e calidad. mera: el h g a r geogrifico de p r o d ~ c c i ó nverosimilmente El &rho1taxonóinico adoptaria la forma clue aparece en la Figura 5.1. Como sea que el individuo A2, por ejemplo, es miernbro, simultanearuente de la Clase General y de la Clase D, "hereda',dos propiedades, la de ser un contenedor de vino y la de que ese vino procede de la provincia romana de la Narbonense. El ánfora Ab, contendria tarnbién vino, pero esta vez procedente de la provincia Tarraconense. CLASE GENERAL la se A (procedencia Tarraconense) Clase B Clase D Clase C (procedencia Narbonense) Fzg 4 1 Elemplo de 7-epre.xentacz6n taxoizómica de u n a znjerencza deductzua < Ahora bien, el Conocimiento Cientifico raramente se expresa e n térmlnos absolutos [todos 10s (x) son (y)]. Suele consistir en generalizaciones útiles, acompanadas de excepciones. Por ejemplo, si considerásemos de nuevo el caso de la datación de unos yacimientos arqueológicos a partir de la cerámica encontrada en ellos: *la ceramica de barniz rojo es caracteristica del siglo VI11 a.C., pero no es totaImente extraña en el siglo VI1 nado que en la mayoria de los casos esa cerámica es caracteristica de 10s yacimientos del siglo WII a.C., si la encontramos, deduciremos, inicialmente, que la fase de ocupación en cuestión puede datarse en el siglo VI11 a.C., a no ser que haya alguna evidencia adicional que permita inclinarnos por una cronologia e n el siglo VI1 a C . , pues ha here rec bado^^ esa propiedad de la clase general a la que pertenece ['Yacimientosdel siglo VI1 ~ . C . I ' . Por ese motivo, el krbol taxon6mico suele ser conceptualmente mis complejo que el que hemos visto anteriormente, permitiendo la herencia mziltiple de propiedades. Imaginemos el tipo de relaciones que mantiene un artefacto impol-tado (por ejemplo, la ceramica fenicia), encontrado en un yacimiento determinado (Fig. 4.2.): el Artefacto ( y ) hereda sirnultáneamente las propiedades de dos clases generales: Yacimiento A y Yacimiento B,porque ha sido encontrado en A, y fabricado en B. Supongamos que la cronologia del Yacimiento A es siglo VI a.C., y la cronologia del Yacimiento B,siglo VI11 a.C.. Si yhereda la cronologia de 10s dos yacimientos a 10s que pertenece, jcual ser2 su cronologia? Una forma de resolver ese conflicto seria definiendo dos modalidades de cronologia: una para la <~fabricación), del objeto y otra para su uso. En el yacimiento A el artefacto y -mis antiguo que 10s otros artefactes de ese lugar- seria una antigüedad, una pieza d e museo. En definitiva, las relaciones ~'taxon6micas~' no son m i s que mecanismos para transferir informacion a través de 10s enlaces de asociación (relaciones de orden) definidos entre las unidades de conocimiento deducti- - yacimiento A yacirniento B / ARTEFACTO (X) emplazamiento 3 ARTEFACTO (Y) ARTEFACTO (Z) Fig. 4.2. Nueuo ejernplo de representación taxonómica de una inferencia deductiva. vamente dispuestas. El mecanismo general puede representarse como sigue: si un artefacte A es un ejemplar de la clase B y la clase B e . ~u n ejemplar de la clase general C , entonces todas las propiedades genericas asociadas con C estin tambikn asociadas con B, y todas las propiedades genericas asociadas con B lo est%ntambien con A. Suelen distinguirse dos tipos de herencia dep~vpiedades.En primer lugar la ((especificaci6n>' de propiedades: si una clase a es una especializacion de una clase h, entonces cualyuier miembro de u podri usarse en de propiedades: se crea una lugar de un miembro de b (son iclénticos). El segundo tipo es la ~dmplernentaci6n~' nueva clase a como modlificación de una clase anterior b. de modo que a manifiesta algunas de las propiedades de b. Este segundo tipo pertnite la herencia parcial de propiedades, esto es, un individuo hereda todus las propieclades de la clase generica a la que pertenece, excepto aquellas que se redefinan localmente. de propiedades es un operador que perrnite crear conceptos a partir de conceptos La ~dmplementación~) preexistentes. La herencia de propiecladcs se usa entonces para definir una ~'modificacióne n incremento>> del concepto inicial. Por defecto, el nuevo concepto ~ ~ h c r e dlaa representación ~~ de la clase inicial, si bien se puede extender esa representacion, añadiendo nuevas varial,les u operadores, o bien cancelando algunos de 10s que caracterizaban el concepto inicial. De este modo, el concepto resultante, tendra algunas de las propiedades del concepto inicial, miis algunas, de nuevo cuño. En realidad, la nueva clase no es un (~subtipo'l de la primera, sino una disyunción. Recordemos lo que deciamos e n la secci6n anterior a proposito de 10s Estados Finales de un problema: que ~contenian~~ todos acluellos que le precedian y que era posible dectucir la solución de un prot~lemaextrayendo el grafo ( o árbol taxon6mico) de las hipótesis contenidas en esa solución. De este modo podemos definir las unidades de conocimiento declarativo en términos de otras mis generales (situadas n ~ á sarriba e n el árbol ~ a x o n ~ m i c osiempre ), y cuando esas unidades cle conocimiento estén asociadas por inedio de relaciones de orden entre las que sea posihle la herencia de propiedades. Vearnos algunos ejemplos, La ordenación mas sencilla seria la siguiente jeraryuización de unidades espaciales : CONTEXTO < UNLDAD DE HABITACION < ESTRAT0 < YACIMIENTO < ÁREA < REGION. Algunas de las inferencias que hagamos sobre la region seran heredadas por todos 10s emplazamientos de 10s yacimientos en esa region. Que subconjunto de propiedades de la clase general es el heredado por las entidades particulares, es algo que quecia a la discreción del arqueólogo. El libro cl%sicode Clarke (1978) discute ampliamente la ordenaci6n jerásquica de las unidades arqueológicas, y las consecuencias de la herencia de propiedades entre ellas. Sin embargo, el caso o más interesante 10 constituye la representación de la ordenación clásica de las Hipótesis Científicas según su componente obsewacionai. Por ejemplo: La epresencia de obsidiana. es un Dato Empírico fruto de una observación directa sobre el terreno. Estará enunciado, por tanto, en terminos obsemacionales . La unidad de conocimiento -Intercarnbio., por el con- trario, es una Hipótesis (o Estado transitori0 de un problema), y se enuncia por medio de entidades teom'cas, sin componente obsewacionai. La herencia de propiedades, pues, se manifiesta como ei Útil de representación idóneo para estos casos: la proposición interpretativa resultante de la asociaci6n entre el dato Empirico y el Concepto -esto es, asociación entre la obsidiana y la acción social responsable de su aparicion en ese lugar (el Intercambio)- será [[verdadera.porque la información contenida en el concepto (una forma economica particular) habrá sido asignada automáticamente al Dato. En otras palabras, el dato puede acceder directamente al conocimiento contenido en el Concepto. La Herencia de Propiedades como representación del Conocimiento Procedural Hemos visto que cualquier operación de inferencia puede definirse como la combinaci6n de dos unidades de conocimiento para producir nuevo conocimiento. Esta definici6n era aniloga a la del mecanismo de la deducción, que es, fundamentalmente, un procedimiento de substitución de expresiones por expresiones 16gicamente equivalentes. La forma general : expresa la sustitución de P por Q, siempre y cuando se pueda probar que C es verdadero. En esta sección veremos como las inferencias pueden ser representadas tambien por medio de un árbol o grafo taxonómico: la =verdad.de C se substituiria entonces por la noción de upresente. en el grafo como arco (enlace) entre 10s nodos P y Q. La única condición para que Q sea una expresión lógicamente equivalente a P es que exista una relacion taxonómica, es decir, una relación de orden que permita la herencia de propiedades, entre ambas. En otras palabras, una proposición interpretativa s e d verdadera si toda la información contenida en un Concepto Interpretativo fluye directamente al Dato Empirico que queremos interpretar. Denominaremos inferencia a ese xflujo de información~~, pues se trata de una noción perfectamente equivalente a la que hemos usado anteriormente. En principio, toda operacion de inferencia podrá representarse por medio de conexiones entre unidades de conocimiento que permitan la herencia de propiedades; esto es, el enunciado de las expresiones deducibles de una hipótesis equivaldrá a la especificación de 10s enlaces permitidos por un árbol taxon6mico (en este caso los enlaces permitidos son 10s enlaces definidos explicitarnente por el investigador). Esos enlaces están representados bajo la forma de las -ramas. del %rboltaxonómico. Por consiguiente, afirmaremos que el prop6sito de un árbol taxonómico es especificar el conjunto de afirmaciones permitidas por un conjunto ordenado de Hipótesis o Conceptos lnterpretativos; es decir, su funci6n se reduce a averiguar las afirmaciones a las que se podria llegar usando esas Hipótesis como informacion inicial. Supongamos que disponemos de un conjunto de Hipótesis Interpretativas, ya sean éstas términos cronológicos, categorías sociales, funciones de artehc~os,etc. Para poder representar con éxito cualquier tipo de inferencia con esos materiales es preciso, en primer lugar, estructurarese conjunto de unidades de conocimiento. Esto es algo que no debiera sorprender a nadie: cualquier Teoria Científica no es mas que un conjunto debidamente estructurado de proposiciones interpretativas. Si utilizamos un árbol taxon6mico para representar la deducción de todas las proposiciones interpretativas posibles a partir de esa Teoria, las unidades de conocimiento disponibles deberán disponerse en un orden jerárquico, que puede llegar a ser muy complejo. Este orden jerárquico se consigue estableciendo relaciones de inclusión o, como minimo, enlaces del tipo -4entre ellas. Toda inferencia est2 representada por secuencias de unidades de conocimiento enlazadas. Resulta conveniente otorgar al ultimo enlace la función de razón o motivo de la inferencia. Asi por ejemplo, sea la cadena taxonómica que mencionibamos al final de la seccion anterior: ARQUEOLOG~A AUTOMÁTICA.INTELIGENCIA ARTIFICIAI, EN ARQUEOLOG~ Podremos interpretar el &to Empirico (la obsidiana) con ayuda del Concepto Interpretativo (el Intercambio como forma economica), si existe entre ambos algun tipo de enlace que permita a la entidad <<obsidiana,, heredar algunas de 10s atributos caracteristicos de la entidad <dntercambio~~, algunos de los cuales, a su vez, proceden de la entidad <<Economia.. Estas relaciones de orden entre unidades de conocimiento no son, e n modo alguno, leyes empiricas. Las unidades de conocimiento no estan ordenadas en el mundo real, sino que somos nosotros, investigadores a 10s que interesa estudiar el razonamiento cientifico, los que hemos establecido dicho orden taxon6mico. Se trata de un artifici0 computacional que permite encontrar una solución mis elegante (esto es, mas breve y compacta) y e n menos tiempo. El Único requisito es establecer un criteri0 de ordenaci6n y mantenerlo en todas las unidades de conocimiento implicadas e n la inferencia. Es preciso tener bien presente, por tanto, que la <<Herencia de Propiedades)>y 10s enlaces son formatos de representacion del conocimiento procedural y no el resultado de ciertas observaciones empiricas; tanto 10s enlaces como el mecanismo mismo de la <<herencia de propiedades. pueden definirse como herramientas para trasiadar informaci6n de una unidad de conocimiento a otra. La dificultad mayor durante la configuraci6n de un árbol taxon6mico ser5 pues, la construccibn de 10s diferentes enlaces necesarios. iY entre <(Espadade ¿Cu51 es el enlace que existe entre unidades tales como =Obsidiana))e (~Intercambio~d Lengua de Carpa),y &glo IX a.C..? Esta clase de relaciones entre unidades suele recibir el nombre de ES-UN (en inglés dSA))),es decir: - ((laobsidiana ES UN resultado del Intercambio)), - .la Espada de Lengua de Carpa ES UN ejemplo caracteristico del siglo IX a.C.. Relaciones muy semejantes son las denominadas PARTE-DE, TIPO-DE y INSTANCIA-DE, por ejemplo: - -borde=lOcm.,)es una PARTE-DE <ejemplarno 1221, - .el ejemplar no 12>) es una INSTANCIA-DE la clase ~dtnfora~~. Los cuatro tipos de enlace son, e n realidad, expresiones relacionales que representan un cierto tipo de conocimiento procedural. Este tipo de enlaces relacionales, en realidad operadores, sustituyen con éxito en muchos casos a las Reglas d e Producci6n. La opemción lógica ejecutada por estos enlaces es bastante exigente -en Lbgica de Predicados suele expresarse por medio de implicaciones -: si A es-un B, entonces todo lo que resulta verdadero en B ha de ser tambien verdadero e n A. Del mismo modo, cualquier cambio en B ha de repercutir directamente en A. Este principio tiene consecuencias muy importantes. Sea cua1 sea el tipo de relaci6n taxon6mica e n la que se base el sistema (~~especificaci6n~~ o <<inlplementaci6n)>), entre dos unidades unidas por una relación taxon o m i a nopuede existir la inconsistencia. En otras palabras, aunque la unidad de nivel jerirquico inferior no herede todas las propiedades de la unidad general a la que est%conectada, la definici6n local de sus propiedades no puede contradecir lo que ya contiene la unidad general. De hecho, no todas las entidades admiten este tip0 de representación. Por ejemplo, e n el estudio de una necr6polis no podriarnos establecer ninguna relacion taxon6mica entre tumbas ricas y pobres, o entre tumbas femeninas y masculinas. Aunque pueda darse el caso que e n las tumbas ricas y masculinas aparezca la totalidad del ajuar existente en la necr6polis y que las tumbas pobres (o las femeninas) aparezcan como subtipos especializados de las tumtxts masculinas ricas, esa ordenacion es tan s610 aparente, pues no toda hiphtesis vilida para unas ser2 valida para las otras. La segunda condici6n expresada e n el enunciado de la propiedad de consistencia para la herencia de propiedades hace referencia a la Logica No-Monhtona, que trataremos brevemente e n el capitulo 7. No obstante, podemos adelantar algunos puntos importantes. En primer lugar, un iirbol taxon6mico no es formalmente completo. Dado que el usuario se responsabiliza de la constnicci6n de las relaciones taxonomicas, siempre se pueden añadir nuevos enlaces entre unidades de conocimiento previamente no asociadas. No obstante, al añadir nuevas vias de circulaci6n a la informacion, el árbol taxon6mico se mostrara incapaz de mantener las mismas inferencias que en su estado inicial. Es decir, las conclusiones a las que se puede llegar mediante un árbol taxon6mico son ayuellas inferibles en el e.~tadoactual del mismo. Si cambiamos cualquiera de 10s enlaces, el árbol taxon(jmico no reproduciri proposiciones deducidas con anterioridad. Expongamos esas características por medio de un ejemplo: 1. la Cerimica de Retícula Bruñida data en 10s Siglos IX- VI11 a.C. CUADERNOS DE A R Q U E O L O GMEDITERRÁNEA ~ / TOMO 11 2. la cer%micaencontrada en el yacimiento de Atalaia (Alentejo, Portugal) tiene una cronologia desconocida 3. e n el Yacimiento de Ratinhos (Alentejo) hay cerimica de Retícula Hruñida 4.en el Yacimiento de Ratinhos (Alentejo) hay cerámica semejante a la de Atalaia En muchas ocasiones, 10s arquehlogos han utilizado la presencia conjunta de cerimicxs distintas en un yacimiento para imponer una de las cronologias, sin tener en cuenta las implicaciones de la inferencia. El caso anterior (Schubart 1975) es un buen ejemplo de ello. Coino se desconoce la cronologia de la cerimica de Atalaia, esta .hereka. las propiedades cronológicas de la cerámica de Retícula Urunida encontrada en el yacimiento de Ratinhos. Ahora bien, iestin ambos tipos cer%micosunidos por una asociación que permita la herencia de propiedades? Se parte de la suposición que la asociación es estratigrifica, por lo que la herencia de propiedades tendri validez en ese caso; sin embargo, esa asociación estratigrgfica bien pudiera ser errónea (Ratinhos nunca ha sido excavado, asi que no sabemos si ambos tipos cerimicos aparecen en el inismo estrato o pertenecen a fases de ocupaci6n distintas). Bastantes años despues cle la fornnulacicin del silogisinno anterior, se obtienen dataciones C-14 de unas cerlimicas semejantes a las de Atalaia encontradas e n la necrópolis de Pomar (Varela Gomes, comunicaci6n personal. cf. Barceló 1991); esas dataciones se refieren a una cronologia entorno el 1800-1500 a.C. inehemos concluir autosniticasnente que el silogismo anterior es falso? Obskrvese que lo í~nicoque cambia es la definicicin local de la propiedad <<Cronologia>, en la unidad ((Cerimica de Atalaia.. N o hemos introducido enlaces nuevos ni suprimido 10s anteriores. Sin embargo, la redefinición a nivel locai de la propiedad genera una contradicción con las propiedades definidas a nivel general, y por ende, con la herencia de propieckades como mecanisino de inferencia. Podemos optar por dos soluciones: poner en duda el enlace entre ainbas unidades: la asociaci6n espacial en un mismo jiacimiento no permite la herencia de propiedades. redefinir el mecanismo de la herencia de propiedades para que adnnita la gesti0n de excepciones. - Es evidente que, en el ejemplo anterior, la respuesta mis adecuada es la no asociación cronológica entre ambos tipos de cerámica; es un caso claro de razonamiento no-mon6tono: la agregacibn de nuevo conocimiento invalida las afirmaciones cclnseguidas con anterioridad. Sin embargo, y a titulo tan s610 de ejercicio intelectual, veamos to que pasaria si redefiniksemos el mecanismo de inferencia. El %rho1taxonómico deberia aceptar la Herencia Múltiple. Su enunciado formal seria: una unidad A est%relacionada taxcm6micamente a B (es clecir, A es menor que B y hereda las propiedades de E); era misma unidad A tambien est2 relacionada taxon6inicamente a C; si A hereda P a partir de B, y 1 P a partir de C, entonces, siempre y cuando exista un enkace taxonómico entre B y C (y no viceversa), concluir P; e n el caso que exista un enlace taxonómica entre C y B (y no viceversa), concluir 7P; si no hay relacicin alguna, el resultado es ambiguo. En este ultimo caso, lo habitual es neutrulizur o inhibir el enlace conflictiva, de modo que la inferencia sea imposible. El ejemplo arqueol6gico que estamos analizando se representaria del modo que aparece en la Figura 5.3. Es evidente que, e n nuestro caso el razonamiento taxonómico produce una ambigiiedad. La unidad <<Cerimica de Atalaia>> hef-eda 10s valores de la propiedad ~Cronologia~~ de dos unidades opuestas: '<Necrópolisdo Pomar (1500 a.C.)'>y Ratinhos (800 a.C.)>'.Una primera solución seria elegir uno de 10s dos enlaces conflictivos que exportan propieclades contradictorias a la unidad '<Cer%mica de Atalaia').D.S.Touretzky (1986, cf. también Horty et al. 1990) sugiere otorgar más irnportancia a 10s enlaces simples que a 10s compuestos, De este modo, la relación Cerimica de Atalaia/Pomar predominaria sobre la relacicin Cerimica de Atalaia/Ratinhos/Siglo IX, por la íinica razón que una cadena de inferencias es mis breve que la otra. SlGLO IX a.C. L Ratinhas > " CERAMICA DE ATALAIA Fig. 4.3. Qemplo de resdución de contradicczones en un árbol taxonómico. L . Shastri (1988) proporciona otra solución a ese conflicto. Según este autor el problema se debe a la falta de cuantificadores lógicos (tExiste algún ....) en los arboles taxonómicos. En nuestro caso el conflicto se produce porque la herencia de propiedades da lugar a las siguientes proposiciones Toda la Cerimica de Ratinhos data e n el 1500 a.C. Toda la Cerimica de Ratinhos data en el 800 a.C. Para permitir enunciados existenciales del tipo: Existe alguna Cerimica de Ratinhos en el 1500 a.C. Existe alguna Ceramica de Ratinhos e n el 800 a.C. Shastri propone sustituir el cuantificador 16gico por una medida precisa. Por ejemplo: - el 70 ?hde la cerimica encontrada en Ratinhos (sea del tipo que sea) se puede datar e n el sigl4 IX a.C. - el 30 ?hde la ceramica encontrada en Ratinhos no se puede datar - el 90 96 de la cedmica encontrada e n Pomar n o data e n el siglo IX a.C. La evaluacibn probabilistica [total de la cerimica datada en el siglo IX a.C.1 1 " i . , [total d e la cerimica que no data e n el siglo IX a.C.1 de estas cantidades proporcionaria una estimacibn de la 'cintensidad~de la asociación con las clases generales: la herencia de propiedades circularia, por consiguiente, a través de 10s enlaces mas e intenso os., pero sin dejar de lado 10s restantes. En definitiva, tres soluciones parecen posibles al problema de Ias excepciones en situaciones de Herencia MOltiple de propiedactes: la eliminación sistematica de aquellos enlaces que produzcan inferencias ambiguas ka =decision,)probabiIistica del mejor d e tos enlaces posibles la aceptación de la ambigüedad resultante como una inferencia posible; en ese caso el razonamiento taxonhmico preservaria la naturaleza del conocimiento., pues variarían las caracteristicas d e las propiedades heredadas. En nuestro ejemplo arqueológico, Ia ambigüedad de la inferencia final es probablemente significativa: ecronologia. es una propiedad necesarza para las unidades .Pomar* y 'qRatinhos-, ya que es esa propiedad la que discrimina entre ambas; sin embargo, en el caso de *Cerimica de Atalaia'>,la propiedad (Cronologia. seria no-necesaria , pues es ambigua y n o contribuye a definir esa unidad: si la cerimica de Atalaia tuviese una duración de mas de setecientos años, podriamos encontrarla tanto e n yacimientos caracteristicos del año 1500 LC., como del año 800 a.C. Conviene no dejarnos llevar por 10s problef-nas inherentes aE tratarniento de excepciones y conflictos. En la mayoria de las ocasiones no se trata de un ~ ~ f a ldel l o ~mecanisrno de herencia de propiedades, sino de un enlace situado donde no debe. No todas las unidades de un discurso estan relacionadas taxon6micamente. Desgraciadarnente, aún no existe un procedimiento para detectar 10s errores en dicho rnecanismo de inferencia: e n bastantes ocasiones, un resultado ambiguo es interesante para el investigador (como en el caso de la indeterminacihn cronolbgica), aunque rechazahle para el lógico. Sistemas Expertos y Relaciones Taxonómicas Asi pues, el árbol taxonúmico parece ser un modo muy útil para representar inferencias deductivas, gracias a las relaciones jerarquicas que impone a las hipótesis o proposiciones interpretativas. Ahora bien, aunque computacionalmente Xefectivo., no se trata de un modo d e representación tan ~expresivo'~ como el de las reglas de producción. Es cierto que 10s Sistemas Expertos estudiados e n el capitulo anterior manifiestan dificultades con la representación de relaciones jerirquicas (el orden de activación de las reglas es independiente del conocimiento implementado e n ellas), peso el10 n o debiera llevarnos a sustituir completamente un modo de representación del conocimiento procedural por otro, sino a integrarlos, esto es, a usar ambos en un mismo caso. Afortunadamente, existen útiles infordticos d e difusión comercial que permiten esa integración. , CUADERNOS DE ARQUEOLOG~MEDITERRÁNEAI TOMO I1 Tenemos dos opciones para llevar a cabo esa integración, una supone dar más importancia a las Reglas de Producción y la otra a las Relaciones Taxonómicas . En el primer caso, la herencia de propiedades sirve tan solo para aumentar la flexibilidad de la Base de Hechos del Sistema Experto: las relaciones taxonómicas simulan en ese caso las relaciones de una Base de Datos Relacional, lo que permite al Sistema Experto acceder directamente al conocimiento declarativo escrito en ese forrnato, mucho mas comprensible, completo y fácil de usar e implementar que una base de hechos construida lnediante tripletas <OF~JETO><REI.ACION><VAI.OR> . En esos casos, la Herencia de propiedades es un mero recurso técnico para reducir la cantidacl de información que hay que introducir en el ordenador: basta con la definici6n de las variables o atributos de las clases o prototipos mis generales, pues sus valores apareceran automaticamente en las instancias de dichas clases. El conocimiento procedural esta expresado exclusivamente bajo la forma de reglas, cuyas conclusiones pueden acumularse en esa misma Base de Hechos taxon6mica, o bien en una Base de Hechos clásica. En el segundo caso, el predominio de las Relaciones Taxonómicas sobre las Reglas de Producci6n, la inferencia estara representada por el arbol taxon6mico. El Motor de Inferencia usara la herencia de propiedades para localizar y/o calcular el valor de un atributo e n un nodo concreto del krbol, siendo la f ~ ~ n c i óde n las reg l a ~la de controlar la ejecuci6n y servir de estructura de control en momentos puntuales. Podemos sustituir la representación del conocimiento declarativo por medio de tripletas por otro formato de representación: 10s encuadres (en inglés "frames"). Se trata de un tipo de estructura de datos cuyo tamafio y alcance resulta mayor que el de una proposición, dado que representa no s610 el contenido puramente declarativo de la unidad, sino también una parte del procedural (las relaciones de pertenencia a una categoria mas general). Para construir tales unidades computacionales babremos de asociar a cada unidad un conjunt0 de propiedades distintivas o atm'butos (en inglés se ha popularizado el termino 'Gslot'>).Asi, I'atel y Stutt (1988) describen del siguiente modo 10s restos de una unidad de habitacion: CERCADO anchura: 20 longitud: 10 situacidn: (10 30) material: BARRO uhicución: SlJPERFICIE mdio: [-I ,forma CUADRANGULAR Fue M. Minsky (1975) el primero en utilizar el termino <fencuadrenpara construir una base de datos estructurada y flexible que contuviese las cantidades enciclopédicas de conocimiento necesarias para el razonamiento por sentido común. La idea básica consistia e n organizar la representación de un dominio especifico por medio de una secuencia de emxidresn del mismo; esas unidades fundamentales de representación intentaban capturar en un formato fijo lo que es comi~na ciertos hechos, situaciones o dominios de un mismo tipo. Hoy e n dia este tipo de representación del conocimiento se utiliza en todos los arnbitos; prácticamente cualquier objeto, hecho o fenómeno pueden ser descritos en términos de un encuadre, siempre y cuando usemos e n su construcción 10s dos tipos de infortnaci6n siguientes: - el valor de una propiedad particular de un objeto - la categoria a la cua1 pertenece dicho objeto. Los componentes basicos de este rnodo de representación son: , Ala, ...) NOMBRE.- cada encuadre tiene su propio nombre (por ejemplo ~<Ánforall ANTEPASADO O TIP0.- cada objeto est%relacionado, como minimo a otro por medio de un enlace jerarquico que permite la herencia de propiedades. ATRIBUTOS.- el cuerpo de un encuadre esta compuesto por cierto numero de atributos. Estos atributos puede ser, a su vez, encuadres. PREDICADOS ASOCIAD0S.- Cada atributo e n un encuadre puede tener predicados asociados que seran invocados siempre que ese atributo sea leido o modificado. En 10s Sistemas a base de Encuadres, hay varias maneras de declarar el valor propio a cada atributo: un VALOR: que contiene el valor actual declarado del atributo. Corresponde a una información que la entidad deber5 poseer para poder ser adecuadamente representada por ese atributo. por DEFECTO: contiene el valor que se va a dar al atributo en el caso de que no se disponga de ninguna otra información. por REGLA: se trata de procedimientos ligados a cada atributo, que se activan en el momento de manipularlo. Dos modalidades: - reglas que son activadas cuando se introduce una nueva información en un atributo. Su función es propagar ese información a traves de las relaciones taxonómicas y estructurales. - reglas que se activan e n el momento e n que resulta necesario dar un valor a un atributo y éste no existe. Su función es, pues, la de proporcionar un procedimiento de cálculo O adquisición de ese valor. La funcion primordial de las reglas de producción e n un árbol taxonómico es, pues, declarar localmente el valor de ciertos atributos. De este modo, se pueden programar en forma de regla de producción las condiciones que deben ser satisfechas antes de que se asigne un valor a esa propiedad en ese nodo particular del árbol. A cada una de esas condiciones esta asociado uno (o varios) predicados con cierta información procedural, de form d que si se necesita ei valor preciso de un atributo para activar una regla, entonces se ejecuta antes el predicado asociado a ese atributo. Igualmente, antes de fijar el valor de un atributo, el sistema ejecuta 10s predicados. Un ejemplo idóneo 10 constituyen 10s caracteres morfom6tricos que deben medirse e n cada vasija. Encuadre: A12 Es-un: Ánfora Propiedades: indice AnchurdLonpitud: Ejecutar la funci6n <dntroducciónde datos]) Ejecutar la función <<Cálculo indice A/L. La función ~dntroducciónde Datos. esta constituida por ciertas rutinas que solicitan del usuario la longitud total del ánfora A12 y su anchura; la función <'Cilculoindice A/L,)ejecuta ciertas operaciones aritmeticas con 10s valores introducidos por el usuario, y las situa en la posición valor del atributo índice Anchura/Longitud. De este modo, 10s valores de las distintas propiedades podrán definirse localmente; es decir, serin calculados cada vez que se use el Sistema, y s610 serin vilidos en la sesión en curso. La idea básica es que siempre que accedamos a un noc10 del árbol taxonómico accedereinos a todos 10s nodos que dependen de 61, esto es, a todos 10s que estin relacionados taxonómicamente y con 10s cuales la herencia de propiedades esti permitida. Interrogaremos el árbol taxonómico como si de una Base de Datos relacional se tratase, solicitando 10s valores que ciertos objetos han adoptado. Por ejemplo x := (tipo de A12) que solicita del Sisterna la respuesta a una pregunta como ésta: =¿cuales el tipo del individuo A12? Imaginemos que A12 es una instancia del objeto ~~Ánfora~~, el cua1 es-una ~Gerámica~~. Uno de 10s atributos de este objeto es '<Tipo)l, definido localmente en el objeto '&nfora').El Motor de Inferencias peculiar al sistema iniciar5 la búsqueda en A12 del atributo <tTipo>' y de su valor. Si 6ste no ha sido definido a ese nivel, entonces debe existir, necesuriamente, en alguno de 10s objetos de 10s que depende taxonómicamente. Ese es el caso del objeto ((ánfora>>. La respuesta será, pues: ánfora = (tipo de A12). Ahora bien, hasta aquí sólo hemos usado las propiedades d dec la rati vas^^ de la herencia de propiedades. Heinos visto que no s610 sirven para describir conceptos, sino que puede usarse tambikn como representación procedural, esto es, representación del mecanismo de solución de un problema. Para ello, cada encuadre representara una de las soluciones posihles (o estados intermedios), siendo el encuadre situado en la cílspide del árbol taxonómico el que represente el Estado Final del I'roblema. En la parte inferior del krbol representaremos 10s Estados Iniciales, ya que un mis~noproblema puede enunciarse de muy distintos modos. Cada uno de esos Estados Iniciales es, a su vez, un encuadre unido taxonómicamente a 10s demás. Para interpretar el caso concreto que estamos analizando debemos encontrar un Estado Inicial predefinido que sea anilogo a nuestro caso, y averiguar a que Estado Final est%unido, esto es, que propiedades hereda de 10s encuadres situados más arriba e n el árbol taxonómico. Una estrategia de resolución de problemas como la que se acaba de enunciar exige construir una Teoria Científica baio la forma de un árbol taxon6mico de encuadres. Desgraciadamente, en la mayoria de 10s ca- sos, las Teorías con las que trabajan 10s arquehlogos (las '<Teoriasde Alcance Medio) suelen ser, en el mejor de los casos, incompletas; pero para que la Herencia de Propiedades sea un mecanismo efectiva, el árbol taxonómico ha d e estar completo. Esta contradicción puede resolverse integrando el sistema a base d e Encuadres con una Base de Reglas d e I'roducción. La funcihn de esas Reglas es <'cubrir'2los posibles huecos que existan e n el árbol taxonómico, calculand o el valor de algunas propiedades e n el momento d e la ejecución, o bien modificando 10s resultados del mecanismo de herencia simple o múltiple. En ocasiones, esas reglas periniten introducir coeficientes d e verosimilitud, con lo que el Sistema seri capaz de realizar evaluaciones probahilisticas para resolver conflictes en la Herencia d e I'ropiedades. Las reglas se pueden usar, tambikn, para solventar el problema d e 10s cuantificadores: proporcionando un conjunto de condiciones locales que hacen que varie el valor de una propiedad heredada. Se pueden crear, tambikn, nuevos encuacires, nuevos atributos y nuevas relaciones taxonomicas a partir de reglas. Por ejemplo, Si en un encuadre se produce la siguiente combinación de propiedades: hallazgo = necropolis tipo morfométrico = Tipo 2 material asociado = cerimica campaniforme Entonces =CREARNlJEVO ENCUADRE)): Cronologia = Calcolitico Tardio Función = Enterramiento En otras pala'nras, las Reglas d e Produccihn, no representan el conocimiento procedural propiamente dicho, sino ciertas estructuras de control, especialmente la gestión de excepciones procedentes de la Herencia Múltiple de propiedades. En general, diremos que si la regla asigna un nuevo valor a un atributo, la denominaremos regla deductiva. Si la regla se limita a especificar las condiciones lógicas que han d e satisfacer los valores de los atributos, ser2 una regla no deductiva. Las ventajas d e la integración entre Sistemas a base de encuadres y Reglas de Producci6n son extraordinarias. En primer lugar, porque permite ~~corregirb, el automatismo de la Herencia d e Propiedades; el valor de 10s atributos no dependerá entonces exclusivamente d e los objetos a 10s que est%relacionado, sino también de 10s intereses del usuario a cada rnomento. En segundo lugar, las reglas pueden contener nuevo conocimiento que interesa aplicar al árbol taxonómico, con el fin de inducir en él las modificaciones que resulten de ciertos resultados concretos obtenidos al final de una sesihn. Otra manera de utilizar las reglas de producción seria corno puente entre dos árboles taxonhmicos, el priinero representando la descripcihn relacional de un yacimiento, el segundo representando la Teoria necesaria para interpretar ese yacimiento. La función de las reglas es calcular las relaciones taxonómicas posibles y el sentido de la Herencia d e Propiedades entre uno y otro. Desarrollemos algo m%sesta última posibilidad. Imaginemos que nos interesa saber si un Dato Empirico cualquiera es interpretable por un Concepto Interpretativo bastante abstracto y situado, por tanto, en la parte superior de un árl2ol taxonhmico distinto del que contiene la representación del dato Empirico. El objetivo que deseamos alcanzar será, por Vanto: Lo que hacemos, en realidad, es preguntar al sistema por el valor de las propiedades que el dato Empirico debiera de haber heredado del Concepto en el caso de estar relacionado taxonómicamente con el: OBJETO-1 tiene pr atributo (x)) Si ese dato ha sido implementado previamente como instancia d e cierto concepto ligado a su vez con el Concepto que suponemos interpreta ei dato, el sistema se limitar5 a seguir las relaciones existentes y a registrar los resultados de la operación d e búsqueda a lo largo del árbol taxonomico. Sin embargo, si no hemos implementado previamente ese dato empirico como instancia d e ningún objeto en el sistema, entonces el sistema invocar5 un conjunto de reglas cuyo cometido será: crear un nuevo encuadre que represente el conocimiento disponible acerca de ese dato empirico. e n funcihn de ese conocimiento (descripción) calcular con cual de las unidades existentes en el árbol taxonomico puede estar relacionado. Es evidente que esta operación requiere un conocimiento espe- eialindo que no tiene por que existir en el Sistema a base de encuadres que estemos usando. Un Sistema de Reglas, por su parte, puede actuar como lnódulo es~ecsalizadopara realizar esa tarea ~ ~ n c r e t a . Las intercambios entre 10s encuadres y las reglas estAn especificados por la Agenda interna del Motor d e Inferencia. Se trak de un fichero e n el que hemos descrit0 todos 10s objetivos que hay que validar a cada momerito. En general, la agenda contiene las Tareas que ha d e cumplir el sistema. El dominio d e dichas tarcas puede ser: - un atributo (de un &jeto) - una acción procedural - un ohjetivo condicional Si la Varea (u objetivo) consiste e n averigruar el valor de un atributo concreto, el Sistema usara el mecanismo de Herencia de Propiedades para calcularlo. Siempre que en ka búsqueda encuentre una regla o predicado asociado a un atributo, la ejecutari e n esc momento, que provocari, evidentemente modificaciones e n 10s nodos del %rl>oltaxoni~mico.Si el objetivo es una accion procedural (un operador), éste seri ejecutado. Finalmente, en el caso d e un ol~jetivocondicional (una regla con encadenamiento hacia atris, por ejemplo), el Motor de Inferencias analizari primer0 las condiciones, y si estas se cumplen pasara a cumplir el objetivo, y'd se trate del valor de un atributo o de una acción. Ejemplos Arqueológicos La proliferaciih de programas informaticos no excesivamente caros que permiten ambos tipos d e programacion, no tardar5 e n encontrar aplicaci6n practica en nuestra disciplina. En este capitulo examinaremos brevernente dos programas desarrollados por arqueólogos. Abordaremos en primer lugar el Sistema a base de Encuadres SILEX, programado por Joel Mourre utilizando como í~tilde desarrollo el programa CLASSIC, un Motor de Inferencia construido, a su vez, en una extensicin orientada a oljeto del lenguaje LISP (Mourre 1985). La funcibn de este programa es reconocer la forma (tipologia) de ciertos i~tilesliticos: 10s buriles diedros. De lo que se trata es, por tanto, de proponer una ordenaci6n d e dichos buriles baslindose en sus atributos ex-tsinsecos (descripción morfom6trica). El lil-t>oltaxonbmico de particla aparece en la Figura 4.4. BURlL DIEDRO / , RECTO PRISMATICO DEJETE SIMPLE A / DIEDRO \ FRACTURA Fig. 4.4. Arbol taxonómico en ei que se basa elprograma silex ( ~ fM' o u m 1985). sos, las Teorias con las que trabajan 10s arque6logos (las '<Teoriasde Alcance Medio) suelen ser, en el mejor de 10s casos, incompletas; pero para que la Herencia de Propiedades sea un mecanismo efectivo, el árbol taxonómico ha de estar completo. Esta contradicci6n puede resolverse integrando el sistema a base de Encuadres con una Base de Reglas de I'roducción. La función de esas Reglas es lcubsir>'10s posibles huecos que existan en el árbol taxonómico, calculand o el valor cle algunas propiedades e n el momento de la ejecucibn, o bien modificando 10s resultados del mecanismo de herencia simple o múltiple. En ocasiones, esas reglas per-rniten introducir coeficientes de verosimilitud, con lo que el Sistema ser6 capaz de realizar evaluaciones probabilisticas para resolver contlictos en la Herencia de Propiedades. Las reglas se puedcn usar, también, para solventar el problema de 10s cuantificadores: proporcionando un conjunto de condiciones locales que hacen que varie el valor de una propiedad heredada. Se pueden crear, tambikn, nuevos encuaclres, nuevos atributos y nuevas relaciones taxon6micas a partir de reglas. Por ejemplo, Si e n un encuadre se produce la siguiente combinaci6n de propiedades: hallazgo = necrópolis tipo morfornktrico = Tipo 2 material asociado = cergmica campaniforme Entonces <CREARNUEVO ENCUADRE)): Cronologia = Calcolitico Tardío Función = Enterramiento En otras palabras, las Reglas de Producción, no representan el conocimiento procedural propiamente dicho, sino ciertas estructuras de control, especialmente la gestión de excepciones procedentes de la Herencia Múltiple de propiedades. En general, diremos que si la regla asigna un nuevo valor a un atributo, la denominaremos regla deductiuu. Si la regla se limita a especificar las condiciones lógicas que han de satisfacer los valores de tos atributos, ser6 urna regla no deductiva. Las ventajas de la integración entre Sistelnas a base de encuadres y Keglas de Producci6n son extraordinarias. En primer lugar, porque permite -corregir. el automatismo de la Herencia de Propiedades; el valor de 10s atributos no dependerá entonces exclusivamente de los objetos a 10s que est5 relacionado, sino también de 10s intereses del usuario a cada mornento. En segundo lugar, las reglas pueden contener nuevo conocimiento que interesa aplicar al árhol taxonómico, con el fin de inducir en 6.1 las modificaciones que resulten de ciertos resultados concretos obtenidos al final de una sesibn. Otra rnanera de utilizar las reglas de producci6n seria como puente entre dos árboles taxonbmicos, el primero representando la descripción relacional de un yacimiento, el segundo representando la Teoria necesaria para interpretar ese yacimiento. La función de las reglas es calcular las relaciones taxonomicas posibles y el sentido de la Herencia de Propiedades entre uno y otro. Desarrollemos algo mis esta última posibilidad. Imaginemos que nos interesa saber si un Dato Empirico cualquiera es interpretable por un Concepto Interpretativo bastante abstracto y situado, por tanto, en la parte superior de un árbol taxonómico distinto del que contiene la representación del dato Empirico. El objetivo que deseamos alcanzar ser& por tanto: Lo que hacemos, en realidad, es preguntar al sistema por el valor de las propiedades que el dato Empírico debiera de haber heredado del Concepto e n el caso de estar relacionado taxonómicamente con 61: OBJETO-1 tiene ((atributo( x ) ~ Si ese dato ha sido implelnentado previamente como instancia de cierto concepto ligado a su vez con el Concepto que suponemos interpreta el dato, el sistema se limitar5 a seguir las relaciones existentes y a registrar 10s resultados de la operacihn de búsqueda a lo largo del árbol taxonómico. Sin embargo, si no hemos irnplementado previamente ese dato empirico como instancia de ningún objeto e n el sistema, entonces el sistema invocar2 un conjunto de reglas cuyo cometido será: crear un nuevo encuadre que represente el conocimiento disponible acerca de ese dato empirico. en función de ese conocimiento (descripci6n) calcular con cua1 de las unidades existentes e n el árbol taxonómico puede estar relacionado. Es evidente que esta operación requiere un conocimiento espe- cializado que no tiene por qu6 existir en el Sisterna a base d e erlcuadres que estemos usando. Un Sistema de Reglas, por su parte, puede actuar como lnódulo especializado para realizar esa tarea concreta. Las intercambios entre 10s encuadres y las reglas estjn especificados por la Agenda interna del Motor de Inferencia. Se trata de un fichero e n el que hemos descrit0 todos 10s objrtivos que hay que validar a cada momerito. En general, la agenda contiene las Tareas que ha de cumplir el sistema. El dominio d e dichas tareas pucde ser: - un atributo (de un &jeto) - una accihn procedural - un objetivo condicional Si la tarea (u objetivo) consiste en averiguar el valor de un atributo concreto, el Sistema usará el mecanismo de Herencia d e Propiedades para calcularlo. Siempre que en la búsqueda encuentre una regla O predicado asociado a un atributo, la ejecutará e n esc mornento, 10 que provocari, evidentemente modificaciones e n 10s nodos del árbol taxonbinico. Si el ot,jetivo es una accibn procedural (un operador), 6ste ser2 ejeciltado. Finalmente, en el caso d e un ohjetivo condicional (una regla con encadenamiento hacia atrds, por ejemplo), el Motor de Inferencias analizari primer0 las condiciones, y si estas se cumplen pasará a cumpiir el ot?jetivo, ya se trate del valor de un atributo o de una acción. Ejemplos Arqueológicos La proliferacibn de programas informáticos n o excesivamente caros que permiten ambos tipos de programacihn, no tardara en encontrar aplicación practica en nuestra disciplina. En este capitulo examinaremos brevemente dos programas desarrollados por arqueólogos. Abordaremos e n primer lugar el Sistema a base d e Encuadres SILEX, programado por Joel Mourre utilizando como í~tilde desarrollo el programa CLASSIC, un Motor de Inferencia construido, a su vez, e n una extensiOn orientada a ol3jeto del lenguaje LISI-' (Mourre 1985). La funcibn de este programa es reconocer la forma (tipologia) de ciertos í~tilesliticos: 10s lm-iles diedros. De 10 que se trava es, por tanto, de proponer una ordenaci6n de dichos buriles basándose en sus atributos ex-trinsecos (descripción morfom6trica). El árbol taxonómico de partida aparece en la Figura 4.4. BURlL DIEDRO / SIMETRICO A~ RECTO PRISMATICO ASIMETRICO DEJETE \ A SIMPLE EN ÁNGULO MULTIPLE A DIEDRO FRACTURA Fig. 4.4 &bol taxonómzco en el que se basa elprograma silex (cf Moun-L>1985). . CUADERNOS D E AROUEOLOG~ M E D I T E R ~ N E A/ TOMO I1 Los atributos del encuadre superior (Buril Diedro) son 10s siguientes: ATRIBUTOS ESTADOS (valores) Cantidad de retoques a la izquierda simple / múltiple Cantidad de retoques a la derecha simple / múltiple Parte Distal presente / ausente Posición Distal izquierda / der. / centro Parte Proximal presente / ausente Posición Proximal izquierda / der. / centro Angulo agudo / recto Eje simétrico / asimétrico ? Tipo de retoque para el buril de ángulo Forma ? Cada encuadre constituye una estructuración de 10s datos correspondiente a un individuo tipico de esa del árclase; constituye, por tanto, un prototip0 del mismo. El encuadre BURIL DIEDRO est5 situado e n la bol taxonómico. Corresponde a la clase global de 10s buriles que se desean clasificar. Posee todos 10s descriptores que definiran 10s prototipos que descienden de 61, de ahi que esos descendientes hereden 10s atributos de la raiz. S610 se especifican, por tanto, 10s valores de aquellos atributos que diferencian unos buriles de otros. Los demás atributos se calculan e n el encuadre correspondiente a la clase general y se transmiten a las distintas instancias de esa clase por medio de la herencia de propiedades. Por ejemplo: ENCUADRE BURIL NORMAL superclase: buril diedro clase: buril normal posición distal: centro posición proximal: centro ángulo: agudo eje: simetrico ENCUADRE BURIL RECTO superclase: buril normal clase: buril recto Cantidad de retoques a la izquierda: simple Cantidad de retoques a la derecha: simple posición distal: centro posición proximal: centro Las reglas de producción permiten describir las nodos del árbol taxonómico que representan 10s distintos tipos de buriles múltiples. Tanto la premisa como el consecuente de esas reglas contiene una expresión de la forma: Por ejemplo: Si entonces: distal presente, posición distal izquierda, posición distal derecha, parte proximal ausente forma doble distal '(BURIL1MULTIPLE DOBLE DISTAL. Todas las reglas de producción se refieren, única y exclusivamente a la clase de buriles múlt ples, y sirven para asignar el valor adecuado al atributo forma^^, según 10s descriptores que esa clase ha heredado: ARQUEOLOG~A AUTOMÁTICA.INTEUGENCIAARTIFICIAL EN ARQUEOLOG~ ENCUADRE BUNL MULTIPLE superclase: buril en ángulo clase: buril múltiple cantidad de ángulos: múltiple Forma: doble-distal, doble-proximal, opuesto-derecha, opuesto-izquierda, alterno-derecha, alterno-izquierda, triple-distal-derecho, triple-distal-izquierdo, tripie-proximal-derecho, triple-proximal-izquierdo, cuadruple. El objetivo del sistema es la identificación taxonómica del buril diedro. Una sesion clásica de consulta seria la siguiente, e n la que el usuari0 introduce 10s siguientes datos: - INTRODUCCION DE DATOS: ? buril diedro BUNL-15 ? Cantidad de retoques a la izquierda: simple ? Cantidad de retoques a la derecha: simple ? Parte Distal: presente ? Posición Distal: izquierda ? Parte Proximal: presente ? no de diedros: múltiple ? Angulo: recto ? Eje: asimétrico y el ordenador responde con el siguiente resultado: - INTERPRETACION DE DATOS: BURIL-15 clase: buril e n ángulo BURIL-15 clase: buril múltiple Forma: triple-proximal-izquierda - Descripción del objeto Buril-15: Posición Distal: izquierda (Válido) Parte Proximal: presente (válido) Posición proximal: izquierda (válido), derecha (válido) no de diedros: múltiple (válido) Angulo: recto (vilido) Eje: aslmétrico (válido) Forma: triple-pr oximal-izquierda (válido) \ 2 i A excepcion de la deducción de la forma de ese buril; el resto e las inferencias (conclusión BURIL MULTIPLE) ha sido realizada explotando las relaciones taxonómicas entre 10s prototipos: el programa compara las propiedades e n el orden que aparecen, identificando primer0 el tipo de Buril más general (Buril e n ángulo) e investigando a continuación sus descendientes, con propiedades más particulares (Buril Múltiple). Como e n la Base de Conocimiento no existe información acerca de la forma del Buril Múltiple, se utilizan ciertas reglas: Si parte distal presente posición distal izquierda, parte proximal presente posición proximal derecha posición proximal izquierda Entonces forma triple-proximal-izquierda. que permitirán asignar ese valor al atributo -forma,,,sin valor declarado (y por tanto, no heredado) e n el árbol taxonómico. Otro ejemplo sencillo de integraciOn Herencia de Propiedades/Reglas de Producción es el Sistema KIVA, programado para interpretar la función de las áreas de actividad en un yacimiento arqueológico (Patel y ~ t u t t 1988). En este programa, 10s encuadres se utiiizan tan solo por su mayor riqueza expresiva a la hora de repre- - CL SDERNOS DE ARQUEOLOGLI I\fEDITERRI\EA TOMO I1 sentar el conocimiento declarat11o (SI los comparamos a las tlipletas <Objeto><Objeto><Objeto>d e 10s Sistemas Expeitos de Primera Generación) Esos erlcuadies contienen la descripción d e 10s yacitnientos arqueologicos Los autores dist~nguentres cdtegorias HALLAZGOS - ARTEFACTOS hueso - instancids .. cerainica - instancias p e d r a - instancias illadesa - instanclas ... - ECOFACTO5 hueso - instanclas. polen - instancias madera - Instdncias. - \'ACIhlIENTO 110, o -ti-r\tancias acurnul~cion- m t a n c a s estructul'*\ de detn'~rc,ición 111LllO - 111st'Il1cl~\ einp,~lizad,l - in\t,inci,is cliculo de piedi,i\ - ~rr\t,incras Las reglas estan organizadas e n \.arios etmiuntos. cuyo ohjetivo es: * sii-~gularizarILIS rire:is ile aeri\-id;~d.l>as5nclose en las car:icteristicas de caíh yacirniento (situacion, localiz:~ciOnde 1:is ebtructuras tir demnrcacihtl) * interpretacicin del uso de los .irtef:~ctos anftlisis del contenido (ec.of:~c.to>) de 1;is Arens singi~l;~rizadas sobre 1:i base tie t'sos ~~o~-Iiel-Iiclo'. ideiitific;~c~iOn de 1:t funci6n socio- econ6111ica del Hrea. sobre la b:ise dt.1 uso dt. 10.; .irrei,lc.tos enc.ontr;~dosen c;id;~Jrea, identificación d e la función socioeconcimica clel Arca. - Es ficil de apreciar q u e csre sisten3,i pr:lctic;~mei-Iten o eaplot;~la Hcrencia de propiedades como representación del Conocimiento pri>ceiiur:il. sino clur c ~ n p l e 10s , ~ t.ncu:idres para sepresenui- el conocilniento declarativo. tanto ;~cluelintro~iu~iclo pol. el ~is~i.trio (clescsipcii~n).como ;~cluelproducido por las reglas de producción (interpretaeiones). Esas interpret,ii.ionei :~iiopranl;i form:~ili, nue\.os atril~utosasociados a 10s anteriores, O bien, crean nuex-os encu:idres. .\si. por ejemplo. un encu:idre que represente una instancia concreta de artefacto. con 10s atributos: Instai~ci:~ cle Ce~ímica llase cluem:~da tipo c ~ i c l l : ~ ~ ~ Por nledio de la rep1;i: Si (a) eh un _Irtefilcto (la hase de i x ) est5 cluemada) (el tipo de ( x ) es 'cuchara4 Entonces: hnadir el atril>uto LTso. con el valor g~cocinanal encuadre (x) interpretalemos que esc ,iitefCicto1~ 41dC ~ ~ t i l i ~ P'IIJ ~ l d oactn d a d e s de cocina SI aitetactos de esc tipo aparecen e n un area de act~rt d ~ del ,uea d e ,~ctnlddd e n ld que fia\ amos encontrado el aitefacto a d o p ~ r ála Illlsma función socioeconornica A R Q U E O L O GAUTOMÁTICA. ~ INTELIGENCIA ARTIFICIALEN ARQUEOLOG~A Lenguajes Orientados a Objeto En paginas anteriores hemos desarrollado una representación particular de las Inferencias Declarativas, basándonOs en las relaciones de similaridad existentes entre dos unidades de conocimiento y la ordenación de las mismas que resulta del axioma ultramétrico, consustancial a la relación de similaridad. Hemos visto que la nociÓn de im~licación1ógica puede representarse mediante el mecanismo de ((Herenciade Propiedade~~. Ahora bienl la im~licaciónlógica es una característica de las inferencias con un grado de deductividad máximo. En moda algun0 ~ o d e m o limitarnos s a este tipo de razonamiento, por 10 demás poc0 útil en la investigación científica debido a la necesidad que el consecuente de una deducción no aumente la información semántica contenida e n las premisas. Precisamos, pues, otros tipos de programación, más sofisticados que la Herencia de Pro~ i e d a d e sY las Relaciones Taxonómicas, para representar inferencias con distintos grados de deductividad. Las lenguajes orientados a objeto son programas capaces de dividir funcionalmente la memoria disponible en el ordenador en paquetes independientes, con la suficiente ,<consciencia'> de su identidad como para impedir o permitir la actividad en ellos de ciertos procedimientos. Un ~gobjeto'2es, por tanto, una parcela, debidamente singularizada, de la memoria del ordenador, que no tiene por qui. corresponder a una entidad en el mundo real. Su representación computacional es bastante parecida a la de 10s encuadres (atributos y valores), aceptando incluso la herencia de propiedades con el fin de reducir al minimo la cantidad de información que hay que introducir. A diferencia de 10s encuadres, sin embargo, esos (<objetos>z computables son autos~ficientes, pues incluyen. además, una buena cantidad de conocimiento procedural. no limitado a la Herencia de Propiedades. Ahora bien, en realidad la diferencia declarativo/procedural se mantiene, s610 que en otro nivel: dentro de esa parcela de memoria que hemos denominado <,objeto>> se distinguen dos componentes, que coinciden con las unidades declarativas y procedurales: el estado particular de esa inemoria aquellos métodos capaces de manipular ese estado particular, de modo que sólo 10s métodos propios a un objeto tienen acceso a su estado. La estructura interna de 10s ~~objetos'~ coincide, a grandes rasgos, con una estructuración de 10s conceptosbasada en la existencia de un núcleo declarativo (o estado particular) y unos procedimientos de manipulación de la información contenida en ese núcleo. El estado privado o ní~cleodeclarativo del objeto sirve como memoria local que es compartida por todas las operaciones de manipulación que se realizan sobre 61. Comprende aquella información peculiar a esa entidad, asi como todos 10s enlaces que la unen a las demás ohjetos o <'paquetesde mernoria') existentes en el sistema. Los procedimientos de manipulación suelen denominarse mt.todos, y constituyen la parte dinámica que describe el comportamiento de esa entidad. es decir, representan el conjunt0 de operaciones que son aplicables a ese objeto e n particular, así como sus reacciones ante 10 que sucede en el entorno en el que se halla. En la práctica, se utiliza un formato de representación bastante parecido al de 10s encuadres. El nílcleo declarativo se define por medio de un conjunt0 de.campos (llamados ta1nbit.n variables o atributos), mientras que las operaciones o métodos aparecen detallados como campos especializados. Un esquema tipico seria: Nombre-del-Objeto Relacionado taxonómicamente a (Hereda propiedades de) [OBJETO] propiedades locales: a b C métodos locales: AñadeNuevoValor ~m~rimeResultado BorraResultado . , En un lenguaje Orientado a Objeto, 10s objetos están ordenados por clases. Los objetos situados en una misma clasc poseen operaciones comunes y, e n consecuencia, un comportamiento uniforme. La clase de un objeto suele corresponderse con 10 que en programación clásica se entiende por tipo de dato, esto es: carácter alfanumérico, número entero, decimal, matriz, cadena .... LOS tipos suelen ser predicados que permitell definir 10s datos, mientras que las debieran considerarse con10 co planti llas^' para la definicicin de 10s objetos. Una ciase es un molde o plantilla que sirve para generar 10s objetos (instancias ). Por ejemplo, si deseáramos progra- CUADERWOS DE hRQUEOLOGL4 MEDITERRANEA / TOMO I1 mar un Sistema Experto por medio de un lenguaje Orientado Objeto. tenctriamos que definir, como ininimo, las siguientes clases: .-Reglas>>, ~~Hechos'~. <'Motorde Inferencias)', cada una de las cuales comprenderia, a LI vez, multitud de instancias. Hemos \,isto que cada 'objeto'j tiene entidad propia (es decir, la inform:rcihn que contiene pertnanece oculta a los denxís ohjetos: se dice que est5 ~ z c ~ r p s u l ). ~ ~El~universo lu del discurso consiste. pues, e n una colecci6n de objetos indepenclientes que se comunican entre si intercambikndose 'mensajes)),los cuales activaran los mktodos propios I: cada objeto. Ile hecho, 10s objetos son las enticlades :~ctixraspues aceptan o rechazan 10s mensajes o procedimientos que se pasan de unos a otros. En general el objeto acepta el ~nensajeque reconoce (cuyo selector activa un mktocio existentel y rech;tza los que no conoce. La nocicin de mensaje es una nietiforll 11s:rda e n informiitica para referirse a una manera de programar: dadas dos estri~ctur;lsde datos (~~ol,jetos)j), un c<n~ensaje)> es acluella función o conjuntc~)cle operadores que activa las rutinas contenidas e n un ol>jeto genera ciertas transformaciones en el. En este c:tso. las rutinas incluid:is e n el objeto, constitu).en su nl6toclo. por lo que podrernos ilifel-enciar entre aml>os tipos de conocimiento procedural s e g í ~ nsean internos o esternos 3 10s ol3jetos que definen el Sistema: varios objetos pueden compartir el misino mensaje, peso no el misino m6todo. que es particular :i cacla objeto. En definitiva, 10s "mensa]es'>no explican chmo manipular un objeto, tan shlo dan la orden de efectuar cierto tipo de n1anipulaci6n, la cual est5 especificada por el mdrodo residente en ese objeto. Por ejemplo, si est;imos programancto un sistema inforillatico que sen capaz de dibujar una linea y un circulo, dispondremos de 10s siguientes componentes: - un objeto "Linea'> - u11 objeto ,<Circulo>> -un lnei~saje,<I)ibuja>) )r cada ')t~jeto contiene un estado particular (el conjunto de coorclenadas de puntos e n la pantalla del ordenador que coiifiguran una Linea o un Circulo) y unas rutinas de programacibn que periniten mostrar en la pantalla esos motivo.;: olx-iainente, el mktodo para trazar una linea es clistinto :11 m6todo necesal-io para trazar un circulo. Finalmente. el ~nensaje<'Dibuja)bno es mlis que una orden. la nlisrna e n amhos casos, capaz de acti\.ar las rutinas de progrannaci6n específicas a c:rcla uno de 10s objetos. La ejecuci6n de un iiiensaje depende sienlpre del receptor. Por ese motivo, e n toda invocación d e una operzici6n ( u n '.mensaje'j) b a b ~ cluc i especificar: - el ohjeto al que Y:I tlestinado ese mensaje - el nombre de la operlrcibn L: reslizar - 10s argumentos de esa operacihn - una 113111:ld;l al chdigo e n el que se ha irnpleinentado esa operación. Por ejeinplo, supongamos que cluei-emos realizar la sigulente operación aritmética: 2+3 el10 ecluivaldrli a enviar el mensaje <(+'> al objeto '121' con el argumento ~(3.: Para que el programa ejecute esa suma es preciso que e n la definición del objeto -2,' hayamos tenido e n cuents la implemelitacihn de 10s tnktodos ~-adición~> y <<resultado>>. El anterior es un ejemplo simple, la totalidad de 10s lenguajes orientados ohjetos disponen de la clase <'Enterol'( y sus instancias) y el mktodo ~ ~ a d i c i óimn~~ plenlentados como primitivas. Los argurnentos son las variables contenidas e n el objeto: o hien ciertas variables globales reconocidas por toclos 10s objetos. 1Quk sucede cuando se envia Lln mensaje a un objeto? Cada objeto time una parte global (compartida con otros) 1, una parte local, especifica a kl mismo. La parte global esti almacenada en 13 clase, entidad superior con la que 1n:intiene un:) rel:~cihntaxonórnica. La Herencia de Propiedades controla parcialinente el destino cte 10s mensajes. hacienclo que esos procedimientos sean autom2tic:11nente aplicados a las clases y a los objetos. Cuando un nnens~tjellega a un objeto kste I>usca si existe un inktodo :zsociado al selector (el nombre) de ese mensaje. Si no lo encuentra puede ser debido a que ese mktoclo est5 definido a otro nivel, por lo que utiliza la conexihn t:ixonhmica para buscar la clase de la cual ese ohjeto es una instancia y busca el método e n la MQUEOLOG~AA U I ' O ~ ~ T I C AINTELIGENCIA . ARTIFICIAL EN M Q U E O L O G ~ clasc (obviamente, toda instancia hereda todo método definido a nivel de la clase a la que pertenece). Las obJetos similares -10s objetos situados e n la misma clae- experimentarán, por consiguiente, las misrnas transformaciones, Puesto que reaccionari ante 10s mismos lnensajes. En ocasiones 10s obietos se envian ~nensajesa sí mismos. A veces puede resultar indispensable llamar a otro metodo definido en la misma clase, 10 que equivale a remitir un mensaje ai objeto que acaba de recibir una. Fbdemos representar verbalmente esos rnensajes como mandatos irnperativos en primera persona. Dado que es la existencid de mensajes lo que da la impresión de <,activi&ad,> en 10s objetos, la existencia de ntltonzelzsajes permite representar entidades capaces de reaccionar por si mismas, en ausencia de cualquier otro agente. Esta característica, que diferencia nítidamente 10s <<objetos,> de 10s encuadres, es fundamental para representar ciertos tipos de razonamiento cientifico, En resumen, nas encontramos ante una herramienta de representació11 muy distinta a la expuesta hasta ahora. En 10s sistemas basados e n relaciones taxonómicas, ei conocimiento declarativo era, por definición, pasivo, mientras que el conocimiento procedural, activo, se definia de manera totalmente independiente del declarativo. Las inferencias, por tanto, se originaban e n la combinación de unidades de naturaleza distinta. LOS sistemas basados en el intercambio de <<mensajes>>, por su parte, pueden ser comparados a un conjunt0 de chips O microprocesadores, e n cada uno de 10s cuales se han definido las instrucciones necesarias para llevar a cabo ciertas operaciones. Cada objeto, por tanto, es una célula, un elemento de base para construir un sistema de gran complejidad. A diferencia de un Sistema Deductivo clásico, no existe un control global (sintáctico) de las inferencias: las interacciones entre 10s objetos (y por tanto la gestión de 10s conflictos tlerivados de esas interacciones) se definen localmente, en términos de la combinación de comportamientos individuales que proporciona el intercambio de mensajes. Lo que más debiera interesarnos de 10s Lenguajes Orientados a Objeto es, precisamente, la noción de mensaje. Hemos visto que la definición de concepto coincide, a grandes rasgos, con la estructura interna de u n objeto. En consecuencia, la noción de ['rnensaje')quizás pudiera utilizarse con provecho para representar las operaciones con conceptos, esto es, 10s mecanismos de la inferencia y del razonamiento científicos. Desgraciadamente, e n tanto que si abundan las investigaciones sobre emulación cognitiva en otros tipos de lenguajes informáticos (PROLOG, LISIJ, etc.). no son muchos 10s trabajos existentes, que se refieren a la representación del razonamiento mediante Lenguajes Orientados a Objeto. e n un sistema orientado ohjeto concuerda perfectaEl mecanismo de funcionamiento de 10s '<mensajes'# mente con la definición de inferencia propuesta e n este libro: la comhi~zaci6nde dos zlnidades de co?zoci??ziento para producir nuevo Co?zocimielzto.Consideremos que las clos unidades de conocimiento iniciales están representada~por medio de objetos; el mensaje cuyo selector se interpreta'^ activari ciertos mtltodos implementados e n 10s objetos de p a ~ t i d :y~creará un nuevo objeto, con el resultado de la inferencia. Por ejemplo, si el primer objeto es la representación de un Dato Empírico (una tumba, e n la que aparece una espada) y el segundo objeto una hipótesis sociológica (caracteristicas generales de las Élites Sociales). el resultado del mensaje será una instancia de la clase ,cÉlite Sociall)caracterizada por la presencia de espadas. Obviamente, para que esa inferencia sea válicia es preciso que el objeto Élite Social contenga un mtltodo capaz de ~itilizarla información declarativa conteni& en el objeto Tumba. e n otras palabras. para que la inferencia sea verdadera es preciso que e n el sistema exista la siguiente información: presencia de espadas es una condición necesaria para interpretar la existencia de Élites social es^^. El silogismo que pretendemos representar es: a) En esta tumba aparece una espada b) la presencia de Espadas implica la existencia de una Éiite Social ' l l a c) individuo enterrado e n esta tumha pertenecia a una Élite Social Los objetos usados son "Tumba>> y <&liteSocialn,no las distintas proposiciones que configuran el silogismo. El segundo objeto contiene un método constituido por una regla de producción: Método Interpreta Si presencia de Espada Entonces: Crea Nuevo-Objeto Nuevo-Objeto hereda las propiedades de: 'GÉlite Social)) <<Tumba'> A su vez, el mensaje podrá expresarse del siguiente modo: Élite Social := Interpreta (Tumba) Es decir, e n ~ i a m o sel mensaje ~~Snterpreta~, al objeto <<Élite Social8) con el argumento g=Tun~ba'); t--n termines verl3ales: pedimos a un Concepto Interpretativa que <<interprete>) un Dato Empirico. Para ello. <$lite SocialNelecuta el metodo que corresponde a ese mensaje, I~uscando13 presencia de un tipo determinado de informaci6n (presencia de espadas) e n el objeto que h : ~ elas \-eces de arguinento del mensaje. En el caso de c:umplirse la condición. crear5 un nue\,o objeto (Interpretaci6n) que h e r e d a ~ ilas propiedades del dato Ernpiricd Y del Concepto Interpretatix-o. En defi11itit.a. lo que hemos hecho es asocial- el mecanis~node Herencia hlí~ltiplede propied$les Y el de la transmisi6n cle mensajes. Un Sistellla Orientado Objeto es, e n realidad. una ~ i r i a n t edel Arl>ol~-axonbmico clue hemos detallado e n este capitulo. La í~nic:~ cliferencia es la posibilidad cle enviar mensajes a 10s distintos nodos con el fin de crear autom5ticamente nuevos nodos y nueras relaciones taxon0rnicas. El siste1n:t resultante adopta la apariencia de un Sistema hlulti-experto, en el que cada ohjet0 contiene un Sistema Esperto propio, con una Base de Hechos y una B21se de Keglas particular. la cual puecle estar formacla, a su vez, por objetos. Los nlensajes h:lrian las \-eces de estructuras de control. En estas conciici(jnes. el conocimiento procedural estarli totallnente contenido en cada objeto y sefi particular :I ese objeto; <on ell0 evitasnos e n gran i~ledicla10s conflictos. Son 10s ~nktodoslos que representan esa parte del conocimiePt(, furición es pi-ricticalnente la lnislna que los operadores especia1iz:ldos situados e n el consecuente de l;as reglas de producción. La riquem expresil-a posible depencler2 del le~lguajeque utilicemos o de 10 huenos progmn1adores que seasnos; un lenguaje como Smalltalk-80, por ejemplo. clispone de unas 500 funciones pl-eprogl-amadas disponibles: el r~suariosiempre puede crearlas a la meclida, si bien ello esige un conside~ihleclorninio del Ienguaje de programación.. Más ali5 de la <qOrientacióna Objeto. El c.spacio distrib~iidode lci~zp~+oble~?ln est2 configurado por un conjunt0 de estados semiautóPol~~os (elementos de procesamiento) capaces de interactuar cooperati~-ainentejr resolver el problema acompprtiendoj' información. En esta definición destacan dos puntos fundarnentales: - El caricter .set?zint~tcil~o~~zo de c:tda ullo de 10s elementos que contribuyen a la solución - El grado de cooperzici¿lrzentre toclos esos elementos. Cada uno de 10s elementos, estados o noclos es, e n realidad, un sofisticado mecanistno de resolución d e probleruas capaz de funcionar por sí solo: no obstante, lo que caracteriza el sisterna gdistribuido>jes su capacie n a elecución dad de colnunicarse con otros programas tan independientes como 61 rnis~no,y de '-cooperar>> de una tarea mas compleja. modificando su conducta s e g í ~ nel tipo de cooperación clue sea neces?ria, Estas dos caracteristicas justifican la expresión c<Lenguajesa base de Actores>'.con la cua1 se dznolnina un tipo particular de lenguajes de programación. derix-acios de 10s programas orientados-objeto que hPn sido preretisentados e n este rnisnlo capitulo. Cada uno de 10s elelnentos que e'cooperan e n la solución del pro131e~na)> ben la categoria de actores. )-a que son capaces de .<actuar)j por si missnos. Cada actor adopta una c c l z ~ l ~par~ct~ ticular, definida en su guión. Todas las acciones a desarrollar se prograrnan adoptando la apariencia d' ggnlensajesn de' 10s actores entre un actor y otro. por ese moth-o, cada uno de 10s actores debe conoces, no solo el ~za~rzDr.t. con 10s que \,a a comunicarse, sino tamhikn la manera de comunicarse y los tipos de tnensajes que' P e d e enviar, o los nlensajes cuya ejecucihn puede delegar en otro actor. hhora bien, jquk es un 'mensaje)'.computacionallnente hablanclo? En realidad, se trata de UIX simple iristrucción. Los snensajes entre actores pueden ser tnuy simples: aparece como cliente clel actor e n el cua1 ha nacido el mensaje. o bien extraordinariamene n la que ~<actor-N)) te complejos (cf. capitulo 6). Una manera sencilla de colnprender el funcionarniento de un sistern1 como &te es recurriendo a la figura de un Sistema Experto "modular)>: cada actor seria, e n realidad un ~isteinaExpert0especializado e n una tarea lnuy concreta. Las reglas que contiene dicho Sistellva Expertu harian las ve-es d e men- ARQUEOLOGIAAUTOMATICA. INTELIGESCLA A R T I F I C L ~ES .~RQUEOLOG~A saies, c u p función no seria tan s610 eiecutar Vareas específicas (~1721~ 2 + 2), sino activar mensajes: SI condiciones a. b. c ENTONCES. Acti1.a mensaje B SI ENTONCES. rnensa~eB est5 activo Acti~a actor-K La implementacibn de cada actor tiene asociados 10s siguientes elementos: su propia base de datos de ',creencias>,acerca de las acciones posibles que puede llevar a cabo, sus propieclades 1- las de 10s otros agentes. un conjunto de meta-reg1;is cu!-a pal-te condición se ejecuta si su antecedente existe e n la base de datos del agente. la planificaci6n o estutegi:, genem1 de funcion;rll~ientode todo el sistema. implementada de manera independiellte a cada actor individ~~al y a 13 cua1 todos 10s actores cleben amoldarse. comunicación cle mensajes entre actores exige una arquitectura e n paralelo, e n la que multitud de mensajes compiten entre si por llegar :r un actor. L:I estructura de cr)ntrol clue regula 10s conf-lictos que inevitablemente surgirin e n ese sistema competiti~-oest5 basacl:~en la lista de nombres de actores :i 10s que se tiene acceso partiencio de un actor determinado. La u n l a de todas las listas p:irticulares a 10s distintos actores del posible e n el sistema. Dado que esas listas cle direcciones son modisistema define la tof>olog?'~ide co~ze.?;io~ze.s ficables (como respuesta a un lnensaje especifico). el sistema es c:ip:~z,e n cierto modo. de <'modificarsea sí misrno)'.recurriendo a la rrrodificacihn de su estructura de control. Es precisarnente este rasgo el que diferencia 10s lenguajes orientados-objeto de los basados e n Actores: e n 10s lx-imeros la conexihn entre objetos (enlaces tasonomicos) son estre~nadatnentesimples y de bajo ni\-el, rnientras que en 10s segundos, 10s rnensajes cruzados entre actores la simulacion con el modo de razonatniento l~umano,es rnucho 1115s directa. Propialnente hablnndo. 10s lenguajes a base de actores no deben c1:lsificarse como técnicss de inteligencia artificial. hhora hien. sus propiedades e n tanto que sofisticados 1engu:ljes de programacihn 10s con\-ierten e n el mecanisme idOneo para represent:rr la t.es0111~1'61~ distrihzli~lcideprol~letlzas.Se trata de problemas cuya resolución seria imposible secuencialmente, esto es, disponiendo los estados intermeclios uno despues de otro. Si el ~ l ú m e r ode est:tclos en el espacio del problema fuese extraordinariamente grancle. la disposición secuencial de 10s mismos e n un proguma declarati~ono seria efectixra, p o r c l ~ ~euigiri:i e clemasiado tielnpo de computación; e n ése c:lso seria mucho mejor dil-idir las tarezs e n mhdulos (actores), )- coorclinando las distintas tareas por medio de mensajes, de forma que el coniunto de esas tareas ejecutadas parcialrrlente e n paralelo, nos condujese a la solucion en menos tiempo. Otra aplicaci6n posible concierne ;r la te ori:^ de 121 simulacicin. En el capitulo 6 se presenta un ejemplo de aplicación cle 10s Lenguajes a base de Actores e n Arqueologia: el proyecto EOS dirigiclo por Janles Doran. Comentarios bibliográficos Para enconclm informacihn adicional acerca de la Deduccihn Automática. el lector debera remitirse a las publicaciones f~~tldamentales de Johnson-L~ird!;Byrne (1991) y la de Bibel (1993). o bien a las publicaciones <dnformáticas2). e n las que 10s ejemplos son partic~~larmente banales (ccClycle es u11 E l e h t e ' > .g.Tweedy- es un pájaro>,)y 1" notación l()gica llastante co~nplicada.Con todo, cahe citar Touretzky (1986). Shastri (19881, y el libro compilado por Lenzerini. Nardi )- Sirni (1991). Los libros de introduccihn a la Inteligencia Artificial (Capitulo 2) y 10s dedicados a la Representacidn del Conocirniento suelen induir secciones acerca de la herencia de propiedades, por cluc el lector puede empezar por ellos, antes cie pasar a la bibliografia especia1iz:lda. La formalizaci()n del ,.razonaruiento taxonOmico>> que aparece e n este capitulo se llasa en 1:r de Hort), (19')l). Horty, Tllomason Touret&!; (1990). La itltegraci6n entre Sistemas Espertos, Relaciones Tasonómicas y S-encuadres'~ suele estar bien expuesta en la docurnentaci6n especifica 3 10s progranlas especializaclos e n tales tareas (cf.Anexo), ~ i quebtratan ~ exl~lsia-¿ilnente ~ ~ este problema, descrihiendo numerosos progratnas comerciales, son: Tella (1989), Pa)-ne !;&lchrthur (1990). Acerca de los lenguajes cle actores, resulta funcia~nentalel lilxo de Agha (1986), el de Hewitt y Agba (1990). Tello (1989, capitulo 9) puede senir como introducci6n senciila. Observación y Descubrimiento Cient'ifico El objetivo de este capitulo es presentar una serie de técnicas inf'orrnáticas capaces de descubrir la regularidad que pudiera haber e n la base de datos que contiene 10s resultados de una excavacicin arqueo16gica: <~KEGIJLAKII)AD: una iimitacicin en el espacio de todas las situaciones posibles; existe ~re~ularidad' si alg í ~ nhecho es imposible o menos probable que o t s ~(Zytkow >~ y Baker 1991: 34). Habitualmente, esta tarea ha sido encomendada a la Estadística (Carnap 1950, Carnap y Jeffre)' 19711, definiéndose un principio general a partir de las ohselvaeiones iniciales (I)A.I.os), y expresándolo en tkrminos de la covariaci6n detectada entre las propiedades que las describen. En Arqueologia, I). Clarke (1978) fue clno de 10s principales defensores de esta rnanesa de abordar las inferencias inductivas. Propuso utilizar c~nmomecanismo de descubrimiento la correlacihn estadística: 10s tipos arqueol6gicos, culturas, tecnocomplejos, etc ..... se definirían e n tanto que <<pacIuetes,% cle atl-ibutos o pl-opiedades estrecharnente correlacionados. Asi, pi)r ejemplo, artefacun artefacto litico pertenece al tipo Pzlnlu de La C~mvette,si los rasgos morfornétricos cluc definen to estan correlacionados estadisticamente de igual modo que en la definici6n del t@oPzllztu d~ La Graz)ette.A su vez, este tipo de artefacto se definia pol- medio de la comparacicin de todas las puntas morfolOgic'amente semejantes halladas en un lugar concreto (La Gravette), calculanclo a continuacihn la correl;tciOn cle sus rasgos morfometricos y usando el valor de esa correlaciOn como regla discrirninante del tipo e n cuesticin. En este capitulo 10s operadores estadisticos son substituiclos por programas informlticos que han sido utilizados con ttxito en otras disciplinas, tales con10 medicina y geologia. Estos programas suelen agruparse hajo el epigrafe eAprendizajc Auton~ático= 6 Muchilze Le~zr~zing, y aunque utilizan calcc~losestaclisticos como t;lra de fondo, pretenden imitar la manera en que los seres hun~anosaprenden conceptos a partir de ejemplos: &do un espacio que contiene ~odoslos hecllos posibles (~lnaBase de natos con todas las cornbinacioncs po~iblesde 10s atributos que descrihen esos ejemplos), se extrae el hecho o 10s hechos que sean mas posibles que las demas, utilirando para esa extraccihn criterios hec~risticos(por ejemplo, el más <<probable'>, rnatenlaticanlente hal~lando). El mecanisrno de f~~ncionamiento de estos programas =deincluccihn au tom liti ca^^ puede formalizasse del siguiente modo: Sea Uel conjunto universal, es decir, todos 10s artefactes que podemos encontrarnos en el transcurso de una excavacicin; por ejemplo, todos los útiles liticos que puctiera halxr en una cueva ocupada por cazadores paleoliticos. No hay limitaci6n alguna para la cantidad de elelnentos en L! IJn principio beneral G, bburiles del Magdaleniense final,,-puede clescrit)irse, entonces, en vanto que subconjuntci de (il. ~DescubrirG significa poder reconocer los objetos que aparecen e n G; esto es, aquellos útilej liticos que sean buriles y que puedan datarse e n el Magdaleniense final. Una vez que G haya sido descuhiertc, el sistellla ser5 capaz de reconocer si un ohjeto cualquiera Xpertenece o no a G. Obviamente, si la base de d;ltos no contiene ~ejemplos.de esa categoria, el programa será incapaz de obtener un resultado intcrpretal~le2n tkrminos arqueol6gicos. Asi pues, el propcisito de un descubrimiento cientifico es poder llegar a describir una enticlad p e r a l , partiendo de lo que sospechanlos son instancias de esa entidad. Un ejemplo para aprender la entidad S es un par (objeto, clase) clonde o(?/etoes la descripcinn de un artekicro ar-lrleológico 1. clasc oper:iclor que p ~ ~ e ctornar ie clos valores: '<+'> 0 "->'.Si objeto pertenece a G. entonces cla.se = + de otro CIO clasc.= - . ~n ei caso de 10s artefactos liticos citado al principio, el par (CV12569, buril) donde 1'CV12569)> es el número de inventario de un ohjet0 y ,,buri13> una adscripción tipológica. Al haber definicliremos que el par es un ejemplopositivo; de otro modo -si la adscripción tipológid o G en tanto que <huril'>, ca fuese g~raedera>'. dirialnos que el par es un cjeniplo ~~e~ycitioo del principio C. Dado un conjunto E cle ejeinplos positives y negatives, constituiclo por aquellas piezas que sabemos con total certidumbre que son o no son buriles J: que &tan o 110 &tan e n el hlagdaleniense final. debemos encontrar una fórmula F , expresada en un lenguaje descriptiva especifico, tal que: para todos 10s objetos X (1) Si X es un ejemplo positivo e n I:, e~zto~zccs X coincide con E ( 2 Si .X es un eje~nplonegativo e n Ii. eclzto~zcwX no coincide con F. como resultado, F consti1uir.i la rrlanera e n que el sistem:l .<compretlde)> la entidad G. Esta fórmula constituye el equivalente si~~zh6lico de 10s discrimi~idoresestadisticos. La califica~rlosde g~sirubijlica>j porque no esti basada de 10s i~~isnlos. L o habitual es represene n la covarianza o correlaci6n de atril,utos, sino e n la co-oc~~i-~*e~zcia tarla nlediante ~*cglns de pproducciri~zdel t i p siguiente: Si el objeto X tiene las propieclades a, b, c, d, e Entonces el objeto X es una installeia del -rrrm Y. Utilizdrernos este fornrato -relacionaclo estrechamente con los Sisternas Expertos- para expresar 10s resultados que obtengan 10s programas de descubriiuiento automiitico. Como verernos. esos programas actúan sobre una base de datos. buscando el esquema cle asociaciones y co-ocurrencias entre 10s atributos que la definen. Precisarnente por ello son potencialnlente lnu). í~tilese n arclueologia: ponen de reliel-e o <~descul~ren>' asociaciones entre los artefactos y las variahles que tlescri1,en s u morfologia o LI form:~de deposiciótl. SLIernpleo ser% tanto miís recornendal~lccuanto ~ n : ~ y ose:i r 121 [,ase cle datos. Mecanismos fundamentales de descubrimiento Desarrollemos el esquerna fortral adelantado e n la sección anterior: si alguna entidad pertenece 31 conjunto G y tiene la PI-opiedacl P. entonces, toclas las entidades que pertenezcan a G manifestarin la n~ismapropiedad P. Por ejemplo. a partir de las siguientes evidenci:is arqueol6gicas: En el yacinliento Y se encontr:lron liuesos de reno. La funci6n economica del yacirlliento Y (establecida iuediante el examen de la industria lítica) es .<cazatnayor'> En el yacimiento Z se encontraron huesos de reno. La fLlnciónecon6tnica del yacimiento Z (establecida nlediante el examen de la industria lítica) es '-caza mayor'2 En este ejemplo tenemos dos entidades (10s yacirnientos Y, Z) que pertenecen al conjunto G (yacimienpropied:~dP (hallazgo de huesos tos e n 10s que se practicaha la Caza Mayor), y atnbos comparten una ~nisll~a la propiedad P, para 10 cua1 afirlllarelllos 10 sicle reno). Descul7riy significa, e n este contexto, ~c?zeralizur guiente: <<en todos 10s yacimientos donde se practic6 la Caza Mayor aparecen huesos de reno>'.Expresiíndolo mediante' una regla de proclucci6n: x es un yaciniiento con huesos de reno Si FUNCIOS E C O N ~ R I I C A(x) = Ca7.a Mayor Entonces que nuestras evidencias arqueol6gicas de partida (Yacimiento i', Yücilniento Z)erari dos ES f;icil Lo Únic0 que hemos heejemplos positives de un rnisrno tkrmino general <'FunciónEcononlica = Caza Mayor3>. ha sido proponer una descripción de ese misrno termino general que cubre todos 10s ejemplos positives y CUADERYOS DE ~ ~ R Q U E O L OMEDITERR~NEA GL~ I TOMO 11 ninguno d e 10s posibles ejernplos negativos. Este tipo de generalizaci6n suele aparecer designado como Reneralizació?~ por szrwza de t~ariables, ya que la nueva \-ziriable 'CX!~ sustituye a las constantes "yacisnieflto Y., <'Yacimiento Z.2 que aparecian en las instancias. E1 ejernplo puecle parecer tri~.iaI.y real~nente10 es: no obstante, el lector puede imaginar @cilmente la apariencia que adoptaria un caso real: una base de datos que contendria las tipologias de íitiles liiticos enc(jntrados en cada yacirniento 1. 10s restos de fauna asociados a esos utensilios. Datla una hip0tesis ini,ci"l ( ~ ~ ~ c o s 6 ~ 1 1 cel. ~programa ). de descubrimiento debe encontrar los atributos asociados con cada uno las \-alores que pueda adoptar esa hiphtesis. La definicihn de esa hip6tesis inicial es el momento miís delic:"d(j de todo el proceso: la hiphtesis ha d e :lparecer- como un atrilxrto m5s. de modo que el programa c ; ~ l c ~ t0chs ~ l e las as()ciaciones posibles. En algunos casos (la C K O N O I . ~ ( ; ~ - \ .por ejemplo) esto es relatilxnente sencillo. @Lles "empre podemos incluir en la base d e datos una nueva ~7arial,lecon 10s resultados de las d:ltaciones aksc)l"t;ts o relativas que se han llevado a cabo en 10s distintos ).acimientos. En otros casos (la ~ u h c : r oI :~C O \ ~ A I I C A . ~ i irn nl5s lejos), la adscripci6n cle 10s \.alores cle esta nu?\-:t \-ari:lble es mucho 1n5s cliscutible. ya que no existe "Parentemente. una definicibn 11ni~-essal de la rnissna. Una solucibn :tcept:~l>leseria utilizar 10s resultados de UP"induccibn negativos fuesen sociedades conocidas etnolhgicamente Y en 12s que previa, en la que 10s ejemplos positivos !se asociaria su modo de suhsistencia paradigmiítico con el utillaje litico ~tbandonadoen sus asentan.lientos. En el Capitulo 6 vol\-eremos a plantear esta importante cuestibn, lo que nos interesa ahora es describir 1" 'llanera en que. para definir las asociaciones \- co-ocurrencias que pudiera haber en una base de d:ltos, el orden"d)r tiene que basarse. necesal-iamente, en ejemplos positivos y negativos del concepto que se quiere '<descubri'". T. Mitchell (1977. 1982) propuso que el algoritmo de generalizacicin se descrihiese en ttlrmit~osde la belsqueda heurística en un espacio ahstracto que contuviese reglas potenciales: a partir de u n a serie de eje111plos positivos y negativos. el algoritmo impone un proceso secuencial. generando, refinando y rech-az+ndo h i ~ o t e sis sucesivas que le irán acercando paulatinamente al concepto o regla que se quiere obtener. C& hiphtesis representa una aproximacihn al concepto final, y es el resultado del procesainiento de una cantií-lad determinada de ejemplos. A medida que aumenta el nílmero de ejemplos. la hiphtesis experimenta nue\'a"nodificaciones. El algoritmo puede describirse del siguiente modo (vease Bratko 1989: 271): Para aprender un concepto C a partir de una serie dada de ejenlplos E,. E,. . . E,, (en donde EI ha de ser, necesariamente, un ejemplo positix-o d e C ) 1. adoptar E, corno la hipótesis inicial, H I . 2. procesar 10s restantes ejemplos Para cada Ei (i = 2. 3....) hacer: 2.1 Comparar la hiphtesis actual H c o n E, : el resultado de la comparación es una descripció", D. de las diferencias entre H y 8. 2.2 Modificar H de acuerdo con D. segíln sea El un ejenlplo positivo o negativo dG C. El resultado de esa modificacihn es una Hipótesis refinada H,. acerca de C . Consideremos el siguiente ejemplo: en un Lirea geogsiífica bien clelimitada se conocen tinc0 a s a t a mientos prehisthricos con una í~nicafase de ocupaci6n. Ademiís de su cronologia, la informació~que d i s ~ o nemos de cada yacinliento (PI, P2, P3. NI, N2) es la siguiente: P1 - 2 cabanas - cabana A: 2 hogares, 2 silos, presencia de restos de fauna - cabana B: 1 hogar, 1 silo, ausencia de restos de fauna P2 - - N1 - 2 cahanas - cabana C: 2 hogares. 1 silo, ausencia de restos de fauna cabana D: 1 hogar, 2 silos, presencia de restos cle fauna 2 cabañas - cabana E 2 llogares. 1 silo, presencia de restos de fauna - cabaña F: 1 llogar, 1 silo, presencia de restos de fauna N2 - 2 cabanas - cabalia G: 1 hogar, 2 silos, ausencia de restos de fauna - cabaña H: 2 llogares, 1 silo, presencia de restos d e fauna ~ ~ ARQUEOLOGIA AUTOMÁTICA. INTELIGENCIA ARTIFICIAL EN ARQUEOLOG~ P3 - 2 cabaiias - cabaiia I: 1 hogar, 2 silos, ausencia de restos de fauna - cabaiia J: 1 hogar, 1 silo, ausencia de restos de fauna En la argumentación que sigue, las caracteristicas d e cada yacimiento se expresarán del modo siguiente: PI = {[2,2,presencial 11, 1, ausenciall en donde cada tripleva debe leerse en ei siguiente orden {[nohogares, no siios, presencia/ausencia de restos d e faunal); es importante tener presente que el orden d e las dos tripletas es indiferente. Nuestro objetivo es calcular una fórmula general para adscribir una cronologia a futuros yacimientos que puedan descubrirse e n esc área. Consideramos probada la cronologia de 10s asentarnientos PI, p2, p3 en una fase Mesolítica; 10s yacimientos N1 y N2, por el contrario. son claramente posteriores. Tal y como indica el algoritmo, seleccionamos el primer ejemplo positivo y definimos una hipótesis inicial e n sus mismos términos: MESOL~TICO= {[2,2,presencial [I, 1, ausenciall A continuación comparamos esta hipótesis con el segundo ejemplo (P2 ). Como se trata d e un ejemplo positivo, intentaremos extraer 10s rasgos comunes. Tenemos varias opciones, según sea el orden en el que comparemos cada una de las dos cabañas (Fig. j.1.). 1 H I = { [2, 2, presencia] / I [ I . 1, ausencia] I . Fig. 5.1.Analisis de las asociaciones y correspondencias entre u n a Hipótesis y u n Ejemplo Positivo. Esta operación genera cuatro modificaciones posibles: H2a = (2, ?, ?)(I, ?, ?) H2b = (?,?, ?)(?, 1, ausencia) H2c = (2! ?, ?)(?.?, ?) H2d = (?, 1: ausencia)(l, 1, ausencia) en donde el signo <$>,indica que la característica en cuestion es irrelevante, por ser distinta en dos ejemplos positivo~de un mismo concepto. Cada una de estas cuatro hipótesis debe ser corregida con ayuda del siguiente ejemplo; en este caso N1 es un ejemplo negativo (no es datable en el Mesolitico), por 10 que eliminaremos todas las posibles coincidencias. H2a coincide con N1 (en ambos casos aparece la especificación dos hogares e n una cabafia y una en la otra), por 10 que la eliminaremos como hipótesis candidata; el criteri0 a seguir, por tanto, es el siguiente: de las dos cabañas del asentamiento, una ha de tener dos hogares y la otra uno; no se especifica cual de las dos cabanas es la que tiene dos hogares. De la confrontación entre NI, H2b y H2d se infiere que la única modificacion posible es: H3 = I[?, ?, ?I[?,. 1, ausenciall CU,.\DERNOS DE .I\RQUEOLOGI,.\MEDITERR;\NEA/ TOMO I1 Coino 10s ejernplos siguientes PS )- N2 no modificarían esa afirmacihn. H3 ser2 la hipotesis qL1e 'etengamos como ~'generalizacMncronolhgica'j de la elriciencia disponi1,le e n esa regihn. En termines arc1 ue(llhgicos, pues. diremos clue un :~sentatiiientode la regi611 e n c ~ e s t i 6 npoc16 ser datado en el blesolitico, cu ando se registre una deposici0n diferencial de 10s restos de f i ~ u i ~e na 121s distintas ~lniclaclesde haI>itacihn, es@ es. curido e n una de las cab:~n:ls. hal3ienclo un i~nicosilo. falten 10s restos de fauna: los restantes atril>utOs c1-0nol6gic31nente, irrele, antes. Acluellos )-acimientos que no se ajusten a es:[ fi~rmulatanto p~ledenfec-'Ilarse en el mesolitico como en otr;l h s e . N o cabe cluda que este ejemplo estri demasi:ldo simplificado, pero ayuda a comprender I?askante bien el mecanismo de búscluecl:~secuenci:ll. Contril>uye,adellilis, a poner de m:lnifiesto 10 que pudiera ser urla dificultad ~II:IJO~del algoritmo cle SJitchell: la potencial esplcxii6n com1,inatoria cualldo el ní~inerode caracticristicas seleccionada~es dcmasiado gr:~nde.Hemos \risto cluc el algoritmo recluiere 1:1 en~ltneracihnde todad 121s tombinaciones cle rasgos descriptix-os posil7les. e1imin:~ncloa continuacihn todas aq~lellasque no coinci&11 con 10s ejemplos positi\,os. Las coml>inacionesretnanentes dcspui.s de aplicar el procedimiento cle elirnitla&ihn han de ser genera1iz:lciones correcras del conjunto de ejenlplos positivos. El prolllema radica en clue el conjLlnto de generalizaciones posil>les es demasi:~clogrande corno para poder ser enumerad,l;5 una por una. hipbtehIitchell resoli-i6 esa dificc~ltadexplotando a fonclo la relacihn cie orclen parcial que existe sis generales e hiphtesis especific:ls. Iliremos clue si un:r Iriphtesis H6t abarca iris cjeml~lospositi\.os cluc otrd i f b , entonces H6t es nlds ~ ( > I z L ' ? z I ~ HI). en t;lnto que H17 es nzds cqc>cz;fi'caque H(l . En nuestro dlelllplo anterior. H2d es m5s especifica cluc HLc. El operador cluc llemos ~rtilizaclo~:LI.;I c;~lificarde este rnocl0 a las clos hipotesis es el niumero cle rasgos clescriptix os que contienen: H2d contiene cinco caracteristicas tlece""'as, e n tanto que HLc precisa t:ln s610 de un:i. Kesulta ficil ol>seri-arcicle 121s hil~htesismris especificas imagillal3les coinciclen con las evidenci:ls, los ejemplos de p:rrtid;r. pues todas las c:lr;~cterísticasaparecen esl,ecific+das: por 1' contrario, la lliphtesis mris general seria aquella e n la que ninguna de las caracteristicas estu\.iese eyl'ecificada. El algoritmo explota :I fondo esta nociOn de gener31idad,/especificiciacl pam e\-itar incurrir t:n la expiosi6n combinatori:^ del espacio dc hiphtesis. 13os son 10s esquernx 115sicos cle búscli~eclaheu ris tic:^: (a) enlpiez:~con 1:. hipOtesis mris general posil>le (aquella cluc sea cornpatible con todos l.~'"le'nplos positi1.o.s y neg:tti\ os :r nLlestr:, clisp~sicihn),la cua1 ser5 modificad:t paulatinamente. ~ s ~ e c i f i c á n dola con ayuda de 10s ejemplos positivos. (b) etnpieza con 1:r hiphtesis nlris esl>ecífica (una de los ejemplos posiii\'os). generalizalldo a partir ejernl>los, esto es, se eliminan progresivamt'nte 10s atride ella a medid:~que se proccsan 11~1ex~os butos que incli\~iclualizanlos ejernplos positivos )- se retienen acluellos cluc :lp:rrecen t:n todos 10s ejell~plospositivos y e n ninguno de 10s negatii,os. En el caso antes conlentado de ICS ).'acilllientos mesoliticos se ha utilizado un esquema especifico-general como este. n impleAunclue la direccihn de la I3ílscjueda es distinta. atnl~osmetodos son llastante similares. ~ : la lnentacihn del algorit~nopul>lic:1da por 12Jitchell (1982) :lnll>os ~necanisinosestan combinaclos. El progmma retiene dos conjuntos de hiphtesis -el conjunto 1115s especifico de descripciones cotnp:ltil>les con 10s datos (E), el conjunto ~rllisgeneral cle tales descripdoncs (GI-. Cuando s e proces;l un ejeml~lopositi\ o que no coincide con las hiphtesis e n E, el pl.ogram:i opera siguiendo el primer mecanismo para autuentar la generalidad de 10s elementos de E. Igualmente. cuando el ejelnplo es negatii-o, el segundo mec:lnismo entra e n accihn. elll lliti en do una especificacihn de los elernentos e n G. La funcihn de estos dos conjuntos es controlar la exploiif)n cornhinatoria que pudiera d:irse en caci:{ uno de ellos: el conjunto E resume todos 10s ejemplos positivos y se Pra eliminar 10s miembros de G que sean tlernasiado específicos: del mismo nlodo. el co~ljuntoG res-IIne 10s ciatos negatives. )- lo usaremos para control~rrlos miemt~rosexcesiv;imente generales de S (1:~base d-' datos). En esta \,ersi6n particular del :~lgoritmo.13 operacihn cle clesculx-imientt, habri concluido cuanclo los -onjuntos E !G coinciclan. Generalización de Descripciones La nis c o n ~ c i d ade las 1,;iriantes del algorit~node I\.litcliell es el programa AQ cle Michalski cf. Michdlski 1980. 1983). AQ" (en clonde 1 1 inclica las sucesii.as versiones clel programa, la íiltinla p~ib1icadae"Q'~) es un programa de descubrituiento o ind~rcci6nmultiprop6sito. c u p objetii7oconsiste e n la formulacijn d e reglas generales que descril>an di\,ers:ts clases de ejemplos. Los elementos de entrad:l (i~zpulj consistenen vectores ARQUEOLOGIA .~VTOMATICA. INTEIJGENCIA ARTIFICIAI, EN A R Q U E O L O G ~ de valores de atributos; incluye tarnbikn conocimiellto de fondo acerca del lirnhito o tema e n el que se va aplicar el programa. El resultado del programa son expresiolles del tip0 donde CONDICIÓN pllecle ser una conjunci6n o disy~~nción de conjunciones, de manera que describa todas las entidades asignadas a la (;I.ASE. Una versihn siillplificada clel algoritmo es la siguiente: Seleccionar 31 azar un ejernplo positivo (llamado GER3fEY) 2. Coml)arando el c,athre\- con el primer ejemplo negatil-o, generar todas las hip6tesis ináximan~ente generales que cubren el C;EIISIP\ y excluyen el ejemplo negatim. 3. Especializar la tiip6tesis para escluir todos 10s ejell~plosnegati\<os.Esto puede lle\rarse a cabo considerando un ejcinplo negativo despues de ()tro. ). afiactienclo.cu;~ncloses necesario. requisitos adicionales a la hip6tesis. Despues cle cada un(] cle los etapas de especi:llizaci6n. 121s hip6tesis recien generadas se ordennn segíln su potencia ciasificaclola segíln 10s otros aspectos definidos e n el criterio de preferenci:~.Shlo se conserva la hip6tesis 1115s pronletedora. Las hiphtesis obtenidas al final del procedimiento de especi:iliz:lcicin configuun un conjunto drnominaclo FSI.REI,L-A (c'star)',e n la terminologia de hlichalski). 4. Elegir de entre toclas las hiphtesis e n 1:i I~STKE~.I..Aaquella C ~ L esté I ~ mejor ordenada. Si esa hip6tesis cubre todos los ejemplos positivos, ac:ibar la sesitjii (se ha ol,tenido una solucihn al prol,lema). De otro niodo. encontrar 10s ejesnplos positixros que s i g ~ ~ esin n ser cotnp:rtit,les con la hip6tesis. 5. Repetir los pasos 1-4 pala el c o n j ~ ~ n remanente. to Continurr llasta clue todos 10s eiempios positicompatibles con la hipotesis. La elis)-uncihn cle hiphtesis elegida al final cle cada ciclo es v o sean ~ una descripción consistente y cornpleta de todos 10s ejeinplos positivos ): maxirniza el criterio de preferencia. Por consiguiente, el programa construye una descripcicin disy~~nti\-a cie un concepto, ley o expresion general cuando la tlesci-ipciGn conjuntiva no es posil~le.Los conjuntores inclividuales pueden diferir significativainente segí~nsea el tamaño del conjunto de ejemplos. Este resultaclo da pit. :I una interes:~nte interpret:lci6n: el conjuntor cotupatil>lc con la mayoria de ejelnplos puede considerarse coino una caracteriz:iciOn de los miemnientr ras que los conjuntores con~patiblescon pocos ejemplos c:rracterizar:in los casos bros tipicos o 'ideales>>. excepcionales. AQn ernpieza con reglas nlrisinlanlente pc.~lcr.:tles.especific5nclol:i:; p:lul:itinaillente: ai%rde:I 121s reglas nue\.os términos para excluir ejernplos negati~os.mantenienclo 1 : ~coinp:~til,ilid:~dcon 10s ejemplos positivos. El sucesor de AQ", el programa IXI)T~(;E 1.2 (Dicttericll y blic11:ilski 1981). es su opuesto. Empieza con una descrip) )';L no esta ci6n muy especifica 1. la mantiene di~rantela gener:ilizacihn. Los elementos de entrada (el i~~pzlt liinitado a pares (.~I.RIHTI.IC), VAT CIR). sino que incluye cuantificadores. funciones predic:~dos relacionales con mas de un arguinento. El programa explora el e p a c i o de las clescripc~ionessigclienclo el mCtoclo Ilamado Bílsqueda Radial (,(bearnsearch~j).El mecanisme general puede esq~1ern:ltizarseen los siguientes pasos: 1. Crear el conjunto H de inanera que contenga un subconjunto :ileatorio de elementos de entrada con tasnano ITT 2. Generalizar 10 tnenos posil,le cada un:i cle las descripciones en H 3. Eliminar las descripciones iinpla~~sil,les, reteniendo tan shlo las mejores, es decir, aquellas que sean silnples y compatibles con snuchos ejemplos positi\.os: ILIS peores son las descripciones complejas ): compatibles con pocos ejernplos 4.Considerar como resultado acluell:i descripciOn en H compatilde con un nilinero suficiente de ejemplos. Si H esta vacio, o \,ien se ha ol)tenido ya un ní~merosuficiente de reglas. acabar la sesi(jn: de otro inodo. continuar desde el paso L . El mis a\lanzado de los programas de la fa111ili:r A Q es, posiblemente, CLUSTER/2 (Michalski y Stepp 1983a, 1983b, Stepp y Plichalski 1986). Este progranla construye cln conjunto de descripciones abstractas que organiL;i estructura del algoritino es la siguiente: zan las datos iniciales e n p;lrticiones clisyc~ntix~as. 1, Dada: a ) una serie de datos iniciales ( illdiz?idrlo.s ) b) un núlnero k de grupos 11ipott.ticos 2. Elegir al azar k individuos 3. 4 5. 6. Construir distintos grupos basandose en las diferencias ohsenradas entre 10s individuos elegidos. Disponer 10s grupos obtenidos en el paso anterior en grupos disyuntivos. Evaluar la agrupación usando el criterio LEF Si la agrupación n o es satisfactoria, elegir de nuevo k individuos, peso ahora eligiendolos de entre aquellos situados en 10s mil-genes de 10s grupos anteriores, esto es, n o relacionados con la agrupación que no ha pasado el criterio d e evaluación. Volver al paso 3. 7. Si la agrupación es satisfactoria. FIN d e 10s dlculos. El criterio LEF. utilizado para evaluar la 'calidaci,)d e la agrupación, y consiguientemente, la naturaleza d e 10s términos inducidos, es una función parametrizable que tiene en cuenta las siguientes propiedades: - el ajuste entre 10s grupos 1- 10s datos - la simplicidad de la descripción de 10s grupos - el grado d e diferencia entre 10s distintos grupos - la cantidad de paranietros en cada gnlpo - la dimensionalidad d e la agr~pación.esto es. la cantidad de información necesaria (no de variables) para situar cada individuo e n cada uno d e 10s grupos. - El progralila utiliza estos par%metros para prod~lcirun valor numérico que refleje la '<calidad,> de una agrupación final, d e modo que las distintas agrupaciones posihles puedan compararse JT elegir la ~ ~ m e j de o r ~en~ tre ellas. Ninguno de los programas d e la fasililia AQ ha alcanzado difusibn comercial. probablemente por ese motivo n o han sido nunca aplicados e n arqueologia. Aunque basado en un algoritme diferente, podemos citar a titulo d e ejemplo el proyecto coc~usa.actualmente en fase d e experimentación. debido a O. Grey en colaboración con el Museo del Louvre (Grey 19911. Aunque se tram d e un experimento realizado con hachas de bronce. sus lineas maestras pueden reproducirse e n cualquier ensayo tipológico. La priiiiera etapa del proyecto consiste en comprobar las tipologias existentes acerca d e las hachas d e la Edad del Bronce (1800-700 3.C.). para \-alidarlas o rechazarlas. Se ha analizado un centenar de liachas atrib~lihlesa toclos 10s periodos d e la Edad del Bronce. Las informaciones asociadas a cada objeto se refieren a su decoración, morfologia. coniposici6n metalica. etc. Esas informaciones estjn representadas por medio de una red seiilantica como la que aparece en la Figura 6.2. Los distintos nodos que aparecen en el grafo (términos en el interior de rectkngulos) representan 10s conceptos: 10s arcos (termines e n el interior d e una elipse) configuran las conesiones o enlaces posihles en<COI?tre conceptos. Este grafo presenta la propiedad adicional d e que cada secuencia <co~zcepfo><relnci6~~> cepto> solo aparece una \-ez. d e modo que podemos cliseccionarlo sin ambigiiedades en tripletas: HACHA So 1 POSEE CUERI'O cuerpo posee superficie-plana bordes exTremo mistna-altura ...I ... Los ohjetos a clasificar n o son los í~nicclsconociillientos contenidos e n COCLL-SH. Por medio d e axiomas y taxonomias poden~osprecisar lo que sabemos acerca del dominio de aplicación (.<Hachasde la Edad del Bronce.). Las taxonomias sin-en para ordenar series d e conceptos. especificando, por ejemplo, que todo borde, superficie o extremo de un hacha son elesnentos constitutives d e esa pieza. Los asionias expresan relaciones conocidas entre conceptos. 1- cstán representados por medio d e las reglas d e producci6n que \.a nos son Eimiliares: (bordes altura ?x) Y (extremo altura ?x) SI ENTONCES (bordes misina-altura extremo) SI (filo estado usado) EhTONCES (objeto es-un Gtil) (filo estado nuevo) Y (perforacibn funciona1 no) SI EhTOSCES (objeto es-un sistema-premonetarn COCLUSH contiene un centenar d e grafos como el anterior. El objetivo e s calcular agrupaciones d e ob- relacion deducida a partir del axioma no 1 \ I estado triangulo sombreado Fig.5.2.Red Seminticu utilizdu por elproglwna COCLCrSHpam representar el conocimiento inicial (Grey 1-1). jetos similares y generalizar expresiones a partir de esas agrupaciones. Las agrupaciones de objetos se representan por medio de expresiones como la siguiente: (hacha, RELACION hacha,) en donde el término R E L ~ C I O Nhace referencia a tres criterios de clasificación distintos: - Relación eEspacio-Temporal* - Relactón <TecnolÓgican - Relación eFuncionaln con 10 que obtenemos tres ciasificaciones distintas: una en la que 10s agregados de objetos contienen hachas con la misma cronologia, otra con hachas fabricacias del mismo modo, y una tercera con hachas utilizadas para la misma actividad. En cada uno de 10s tres casos. el objetivo es calcular la intersección y/o co-ocurrencia de descripciones entre hachas relacionadas. En otras palabras, partiendo de diversas informaciones acerca de la morfologia de 10s útiles ;v de las relaciones entre objetos distintos. el programa debe calcular una definición general que sea adecuada a t o d a los objetos que estén relacionados cronológica, tecnológica o funcionalmente. El programa utiliza para el10 tos siguientes operadores de generalización : - trn~~for~~a dec iconstalztes ó~z elz ua:at.iables.Por ejemplo. la expresión PRESENCIA ?) es más general que (BORDES PRESENCIA ANIUOS). (BORDES signo representa una variable libre. CUADERNOS DE ARQUEOLOGiA MEDITERRANEA / T O M O I1 - elitizi?zncidt~ de co~zdiciotrc~.~. LI afirr~lacion: ( C ~ ~ E KI'RESENCIA I'O BORDES) & ( C I ERI'O I'RESENCIA SLPERFICIE) - puede convertirse en la m i s general: (CUFRPO PREENCI.1 ~ ~ O K I ) E ~ ) bz~ísqueclade coizexio~zc~s ta.volzd?izicasentre conceptos. Utilizando las taxonomias que agsupan conceptos clue represent:in el conocirniento que tenemos sobre el clorninio de aplicación podemos generalizar (c~llrcror3~it.s~r\cr;l srrrr;~~~crr:) en ( C L I E R I>RI.SENCIA L~I EI.ESJFY,I.O-ESTRIICT~JRAL). Corno resultado de la accihn del programa. el usuario ol~tieneun:i definicihil coillpacta de todas las hachas relacionaclas. Por ejenlplo, toc1:ts las 1l:~chascon la cronologia -Sigla IX a.C.'>se caracterizan por: - posees un filo con forlna st.rnicircul:~r - poseer una decoraci6n incisa compuesta de triángulos sornbreados - constituir u n sistema prernonetario. Estas caracteristic:ls comunes han siclo calculadas por el programa a partir tle una comparaci6n de todos los grafos correspondientes a las hachas cle un misillo tipo cronol6gico. El grafo resultante de esa comparación h a sic . . io simplific:~do .' utilizando ttlguno cle 10s o p e ~ ~ d o rde e s generalizacihn anteriores. y al misrno tiempo se han ejecutado las regl:~s-:~siornitic:~s~~, cluc atklden nuevos c:iucteres no morfomtltricos a la genemlizacihn resultante. Llamamos gc~~zeiziliz~1c~i6u al resultado porque, ol)\.iarnente, lla sido ol~tenidapor agregacihn de definiciones particulares, )- simplificaciOn a posteriori del resultado de esa agregaci6n. Inducción de arboles de decisión LJn metodo automiitico de descubrimiento algo diferente a 10s anteriores es el conocido como ID3 (Intemcti~eDicl~otoi~7izci-.7 ) (Quinlrrn 1986. Su continuador se denomina C.4.i). Aunque limitado, es bastante m:is riipido que los que ac:lbarnos dc \.es. y se adapta inuy bien a las lirnitaciones dc s-ncmoria y rapidez de proceso impuestas por 10s microordenadores actuales, por lo que es, de largo, el sistetua m%spopular y utilizado. P:ir;~empezai- necesitasnos un conjunto de ejemplos positivos y negatives de algiln concepto, y 10s represent:rrcrr~os por medio tle una lista de pares atril~uto-valor.Por ejemplo, consideremos 10s datos de la tabla siguiente, refesidos a ciertas casacteristicas cie unas cefimic:ls: grande grande grande grande medio medio media pequeño peyueño pequeño presente presente ausente ausente presente ausente ausente presente ausente ausente presente ausente presente ausente presente presente ausente presente presente ausente tardia ardia tardia rnedia tardia media media antigua antigua antigua El objetiro es obtener una f0rmula distintiva de cada periodo cronolhgico, de manera que podarnos usarla para distinguir la cronologia de 10s ol~jetosa partir de su tanlano y decoración. El programa funciona del modo siguiente: 1. elegir al azar un subconjunto de tamaño Ven el conjunto de ejemplos a nuestra disposición (ese subconjunto recibe el nombre de <'ventana')) 2. aplicar el algoritmo CLS (esplicado m%sadelante) para generar una generalización a partir de la ventana elegida 3. analizar el resto de la base de datos para encontrar excepciones a esa regla 4. si se enalentran excepciones. se incluyen en la ventana (sustituyendo expresiones anteriores), repitiendose el paso 2; si no se han identificado excepciones, el programa muestra la generalización obtenida. El metodo de selección de una cwentana. suele denominarse -filtradopor medio de excepciones~,y su importancia es grande a la hora de procesar grandes bases de datos, con miles de datos, tal y como suele ser el caso con 10s datos procedentes de excavaciones arqueológicas. De esta manera, el procesamiento de la informaciÓn tiene lugar en un lapso de tiempo aceptable. El algoritme CLS (Hunt et al. 1966) es una subnltina del programa principal. CLS es un acrónimo de Conc q t Leunzing S~stemy deriva de ciertos trabajos en psicologia experimental realizados entre 1950 y 1960; empezó como una teoria psicológica acerca de la formación de conceptos en la mente humana. y s610 posteriormente se convirtió en un programa de ordenador. La función del programa es encontrar el atributo más discriminante, dividiendo a continuación 10s datos con respecto a ese atributo. Según las implementaciones,existen varias formas de calcular el valor discriminante de 10s atributos; en ID3 Quinlan utilizó la estadística de la información. esto es. el grado de entropia: en donde Pise calcula mediante el cociente entre la cantidad de ejemplos con el mismo valor en el atributo i, y la cantidad total de ejemplos en la base de datos. De 10 que se trata es de comparar la entropia inicial a la entropia parcial de cada atributo, que calcularemos mediante la fórmula: H (A) = ,prob(A i) .H P i el incremento de información aportado por la clasificación según A, se evalúa por la disminución de la entropia producida respecto de la inicial: M = H - H (A) El criteri0 de discriminación utilizado en ID3 es ordenar 10s atributos en el árbol de decisi6n según el valor del estadístic0 AI. El lector no tiene que ser un matemático 11\rerado para poder usar cualquiera de 10s programas de inducción basados en el ID3, pues es el programa el que se encarga de hacer 10s cálculos. No obstante, puede tener interés la manera en que calculariamos a mano el árbol de decisión asociado a 10s datos anteriores acerca de la cronologia de las cerámica decoradas. La variable experimental es. obviamente la CRO~OLOGIA.Resulta sencillo calcular el contenido de información inicial: la probabilidad de que una cerámica decorada sea antigua, media o tardia es: cronologia tardía: 4\10 = 0,4 cronologia media: 3/10 = 0,3 cronologia antigua: 3\10 = 0,3 Aplicando la primera fórmula averiguaremos la entropia inicial: Si consideramos ahora el primer atributo tumano, obtenemos: el subconjunto tarnalio grande. cura probabilidad es 0,4. La entropia se calcula del modo siguiente: Consideramos en primer lugar cuantas cerámicas grandes tienen una cronologia tardia (3/4 = 0.7 5): a continuación las ceramicas grandes con una cronologia media (1/4 = O,25). Seguidarnente aplicamos la fórmula anterior. de 10 que resulta: - 0,75 log, 0,7j - 0,25 logz . 0,25 = 0,311 + 0,jO = 0,811 CLADERZOS DE 4RQL'EOLOGL.I \IEDITERR4NE4 TOMO 11 e n el subconjunto cle t a m n ~ i o~ ? z e d i o c r ~ z ltardia gí . la probahilidad es 1'3, mientras que en el subconjunto ta??zalio171edio/cr(11~01íj~gíc1 t~zediala probabilidad es de 2,/3. La entropia resultante es: - 1,/3 log, 1,'3 - 2,/3 log, 2,'3 = 0.528 + 0.390 = 0.918 e n el subconj~~nto de cerárnicas de t~/7?1al7opeqz~e1io, todos 10s objetos tienen una nlisnla cronoloa?ztigzla es gia (antigua). pol- lo que la probabilidad del subconjunto tn??za12opequev2o/cronología de 313 = 1. La entropia resulta: -1 . log, 1 = 0 el promedio clel atributo tanzatio es: 0,4 * 0.811 + 0.3 " 0.918 = 0,6 Por 10 tanto. si utiliz5sernos este atributo ~01110primer nodo e n el árbol de decisión, el incremento cle itlformaci6n alcanzado seria: 1.571 - 0.6 = 0.c1-1 Considerando el atributo Decoració~zPz?ztada : El suhconjunto Deco1*clcz61z Pi17ta~ln Presente, cuya entrop' i la es: -0.75 log, 0.-5 - 0,25 log, 0.25 = 0,811 El subconjunto Drcomcz61z Pz?ztadaAz~sente.cuya entropia es. -1,6 log, 1 6 - 1 2 log, 112 - 113 log, 1 3 = 0.431 + 0.5 + 0,528 =1,459 El promedio es: 0.4 * 0.811 + 0.6 " 1. 457 = 1.20 El incremento de inforinacihn asociado a este atributo es: 1,571-1.2 = 0.371 Finalmente. e n el caso del atributo Decoracz6?zI~zcisa: Su promedio es: 0.6 1,457 + 0.4 1.5 = 1,475 el lncrenlento de ~nformacion: A 1,571 - 1,475 = 0.076 Por consiguiente. construiremos el árbol d e decisi6n partiendo del atributo ta??za~?o (Fig. 5.3.) A partir de este rirbol podenlos inducir una asociacihr~entre 10s ohjetos d e tanlanopequeho y las de cronologia antigua. si bien no aparece clara la relaci6n entre los distintos tarnanos y las cronologias media y tardia. El análisis continí~a,ahora. limit5ndose a 10s datos que aparecen e n cada uno de 10s conjuntos al pie de las ramas <'grande'ny <gmedio>'. En el primer caso. la entropia inicial del subconjunto es: Tomando e n constderaclon el atnbuto Decomczcin Pzntada e n este primer subconjunto e . entropia es nula el subconjunto Decomtz61z Pz?ztuda P r t - ' ~ t ~ tcuya el subconjunto Decorac161zP ~ ~ z f a auserzte dn cu) a entropia es - 2 0,5 log, 0.5 = 1 ARQUEOLOGIA AUTOMATICA INTELIGENCIA ARTIFICIALEN ARQUEOLOG~A tamaño grande medio I pres., pres., tardía aus , pres., med~a aus., aus , med~a pres., pres , tardía pres., aus , tardía aus., pres., tardía aus., aus., tardia pequeño \pres , pres., antlgua aus., pres., antlgua aus., aus., antlgua Fig. 5.3. Arbol de Decisión (Primerpaso). El promedio resulta: 0.5* 1 = 0,5 Lo que representa un incremento de información de: 0,811- 0,5= 0,311 Utilizando el atributo Decoración Incisa : el subconjunto Decoración Incisa Presente, cuya entropia es nula. el subconjunto Decoración Incisa Ausente, cuya entropia es: - 2 " O,j log, 0,j= 1 ' El incremento de información es igual al obtenido para el atributo anterior: 0,811- 0,j= 0,311 /' Resulta por tanto indiferente usar un atributo u otro como siguiente nodo del árbol de decisión. Hechos 10s mismos cálculos en el subconjunto de datos asociados a la rama g'tamafio medio,, (no se detallan aquí), resulta que el incremento de información del atributo Decoración Pz~ztadaes mayor que e n el atributo Decoración ~nczsa.El dendrograma resultante aparece e n la Figura 5.4 CUADERNOS DE ARQUEOI.OGL~ MEDITERR~NEA;T O M O I1 tamaño grande medio pres., pres., tardia pres., aus., tardia aus., pres., tardia aus., aus., tardía pres., pres., tardía aus., pres., media aus., aus., media Decoración pintada Decoración pintada / pequeño pres., pres., antigua aus., pres., antigua aus., aus., antigua I \ presente pres., tardía aus., tardia ausente presente pres., tardia aus., media pres., tardía ausente pres., media aus., media I Decoración incisa presente tardia ausente media Fig. 5.4.Arbol de Decisión Completo (Segundo y Tercerpaso) El programa I.X.L. NO abunclan programas de ordenador de difusión comercial capaces de realizar inducciones automaticas. Los pocos publicaclos (cf. anexo) sotl bastante distintos entre si, por lo que no poclrernos llacer una descripcihn cle conjunto de 10s mismos. En su lugar, esta sección estara dedicada a la presentación detallada de una de 10s programas existentes: I.X.L. (I'arsaye !- Hanson 1987. I'arsaye et al. 1989. Intelligence\K~re 1990). La descripci6n est5 Ixisacla e n la versihn 2.0 del program:l, si hien IntclligenceWJare acaba cie anunciar la disponibili- dad de la versión 3. La principal diferencia entre ambos es la velocidad de ejecución: la versión 3 es alga como 20 veces más rápida (según anuncia el fabricante) y es capaz de gestionar la memoria extendida. I.X.L. es un programa de <'descubrimiento>, o aprendizaje que funciona en un microordenador PC/AT 6 IBM PS/2. El propósito del programa es definir las asociaciones entre casos y variables existentes en grandes bases de datos, presentando 10s resultados bajo la forma de reglas: Actividad = Caza Mayor SI fauna = reno útil = punta de flecha 7 , j t Long. Max. Útil tipo 5 < 8,3 Es decir. 'dos yacimientos en 10s que se ha identificado actividades relacionadas con la caza mayor son aquellos en 10s que 10s restos de fauna más abundantes son 10s de reno: el útil litico más frecuente es la punta de flecha, y la longitud mixima de estas oscila entre 7,5 cm. y 8,3 cm. En cierto sentido, la inducción automatica en 1.X.L. tiene ka apariencia de un analisis de regresión g'cualitativo>>. en el que el resultado no es Llnd ecuación general, sino la enumeración de las asociaciones encontradas. Al empezar una sesión de trabajo con 1.X.L. es preciso identificar 10s ficheros de datos que se han de analizar. Por ejemplo. imaginemos que nos interesa definir las asociaciones espaciales de una serie de artefactos liticos; la base de datos contiene: por tanto. el no de inventario de cada artefacto. sus coordenadas x e y , su tipologia (buril, bifaz, punta, etc.). di\.ersos rasgos métricos (longitud, anchura). e indices de asociación. Para que el programa proporcione resultados útiles para el arqueólogo! es preciso que esta base de datos sea lo suficientemente completa. La gran ventaja del programa es la posihilidad de investigar ficheros con miles de individuos y más de un centenar de variables. Obviamente, cuanto mayor 1- más colnpleja la base de datos, más tiempo de ejecución ser5 necesario. Los ficheros de datos pueden presentarse en tres formatos distintos: - Dbase I11 P.DBF) - Lotus (*.DIF) - Ascii (*.ASC) El usuario puede además modificarlos a voluntad dentro del mismo programa, eliminando registros y/o campos, combinando distintos ficheros! restringiendo la búsqueda a unos pocos casos. etc. Una vez seleccionada y modificada la base de datos. el usuario introduce 10s parámetros del módulo de descubrimiento. El primer0 de ellos consiste en especificar el objetivo, es decir, el esquema de dependencia entre las variables: coordenada x -+ tipologia, dimensiones coordenada Y -+tipologia, dimensiones En resumidas cuentas, <'seleccionarel objetivol) consiste en la identificación de la variable dependiente; seleccionaremos un objetivo distinto para cada uno de sus valores. El programa es mucho más efectivo con variables cualitati\ras que con variables cuantitativas: aún asi. es capaz de encontrar asociaciones entre 10s atribuj 7 un rango determinada de la variable o variables dependientes. En este caso, vamos a detos -independientes)> finir rangos significatives en las coordenadas x e y, utilizando para el10 información contextual: acum~ilaciones no aleatorias de material, presencia de hogares u otras estructuras. Por ejemplo, si definimos 13,j < coordenada x l 25.6 9,4 < coordenada y I15,3 El programa buscar5 todos 10s artefactos situados entre esas coordenadas y calcular5 una o varias reglas que definan las caracteristicas tipométricas de todos 10s objetos encontrados en esa zona. El programa hubiese permitido también una búsqueda c(ciega'>, es decir, una enumeración de todas las asociaciones posibles entre todas las variables y atributos; esa acción exigiria, no obstante, una gran cantidad de tiempo de computación (ivarias horas!). Ademas de 10s objetivos, el usuario ha de fijar otros parirnetros antes de lanzar el programa. Uno de ellos 10 conwituye el ,<nivelde interéslx de la asociación. Alguna de las variables en la base de datos nos interesan más que otras. Por ejemplo. la longitud máxima de las piezas puede producir resultados engañosos si muchas de CUADERNOS DE A R Q U E O L O GMEDITERR~S'JEA ~ / TOMO 11 las piezas est5n fragmentadas. En consecuencia. para cada ~ b j e t i v oO y cada variable L!debe fijarse un número entre 0 y 100 que refleje el interes que tenemos ( o la utilidad practica) e n el estudio del efecto de sobre O. A primera vista puecle parecer un tanto filera dt. Iugar un pafinletro de .'intertts>'como este, no obstante su importancia se pone de manifiesto cuando 10 cluc analizarnos es la hase tle d:ltos que coiltiene el registro comenorme cantidad cle ariab ab les que prohablemente no pleto de una excal-ación, e n el cua1 se ha incluido ~1x1 tengan re1:rciOn alguna con el objeti, o que helllos definido prel-ia1llt.nte. Si cambiamos el ol>jetivo,introduciremos modificacio~lese n esos panimetl-os. 1.0s paKimetros rest:rntes que el usu:~ri(jdebe especificar para guiar 1- controlar el proceso de inducci6n son: - ?zbt7?zeror?z~2.-\-in?o de cl¿ius~~las e11 161s rcjqlas : este parillletro especifica un limite maximo para la longitud cle una regl:~.Aquellas que superen ese li~niteno seriin inducidas. - 116117(-'~0 717ínit71ode casos: fij:~un limite inferior para la cantid:ld de casos ir~lplicadose n la inducción cle una regla. Por ejeniplo, el programa ignorar5 aquei1:rs reglas aplicables (que sean verdader~s)a menos de 50 casos. - C O I ~ ~ ~ ~ I ??iil~in~a Z Z L I (-'I? lrls regl~ls: clefine u n limite inferior p;~rala confianza que teneinos e n una regla. - 112Lixi~to inc~);q~n ~lc' ~ ~ Y clefine O I : ull limite superior para el error producido al estin~arla confianz:i e n una regla. Xltos m5rgenes de error pueden liaherse producido al utilizar mu) pocos casos para inducir una regla. - polAcellt~;je ~1í7zi7)zo rle la b~~sc) de (latos: define un limite inferior para la frnccih11de la Ixse de datos que se usar5 para inducir una regla. Xsi por ejemplo. las reglas aplicables a menos clel 10°/o de la base de clatos ser5n eliniinadas. - slg1~<ficaci61z 1)líilil71a: tnide la g~calidad'jde un inten-:rlo, s e g í ~ nsi la distribucicin cle ~ i l o r e se n ese inten-alo es distinta e n el resto de la base de datos. O significa que casi todos 10s rangos est5n siendo considerados. 100 significa que s610 se utilizan los 1115s significati\,os. Otros tres p:lr5metros :ifectan 1:i cletertninación cle internalos e n las variables y ohjetivos con valores cuantitativos continuos: - ge11c~i~llidad t?zí1zii7z~: fija el lilnite superior de inten-alo clefinido por el programa. Si es O s610 se tendril1 e n cotlsicleración inten alos mulr pequenos: si es 100 tan solo se producirán intervalos muy grandes. - gelzemlidad ~n¿ixit~za: fija el lisnite inferior del inten-alo definido por el programa. - inc~'eme~zto de lla ge1zerwlidad deteri~linael número de illten~alosentre 10s parámetros de generalidad maxima y mínima. Supongamos que 13 base de datos contiene 1500 artefactos y que I.X.L. ha incluciclo la siguiente regla: ConGanza=80 13.5 < coordenada X < 25.6 Si 15 < longitud < 18 5 < anchura < 26 Margen de error = 2 Porcentaje cle la base cte datos aplicable = 15 Ní~merode casos a 10s que es aplicable = 100 La regla afirma que 10s objetos encontrados e n la zona del yacirniento deterininada por esas coordenadas tienen unas dimensiones especificas. La longitud de la regla es 2, ya que se han asociado dos variables al objetivo: la regla contiene, por tanto. dos cl6usulas. El ncimero de casos a 10s que es aplicable explica que hay 100 artefactes e n la hase de datos con una longitud entre 15 y 18 cm, J. una anchura entre 5 y 26 em. El porcent~tie& la base de datos aplicable afirn~aque la expresion '<li< longitud < 18; 5 < anchura < 26'>es aplicable al 15% de la base de ciatos (100 es el 15% cde 1500). La confianza=80 otorgada a esta regla nos indica que 80 de 10s 100 artefactos con una longitud entre 15 y 18 cin )- una anchura entre 5 y 26 cm. han aparecido entre 1:~ (x) 13.5 y 2 5.6. En otras palabras, e n el 80% de 10s casos la relacihn inducida situación/ta- mano es correcta. El ma7,gen de error = 2 indica que el factor de confianza puede ser redondeado e n un 2%, con 10 que el valor final se situari en el interval0 82-78%. El margen de error puede estar afectado por la cantidad de artefactes que se han utilizado para inducir la asociación. Por ejemplo, si tan s610 se hubiesen utilizado 10 registros. 11 hubiésemos impuesto el mismo nivel de confianza, el margen de error alcanzaria el 50%. debido a que no se disponia del número suficiente de datos para llevar a cabo la inducción. 1.X.L. demuestra cómo puede controlarse el proceso de inducción: - especificando un margen de error lo suficientemente bajo - requiriendo un alto porcentaje de la base de datos para inducir reglas - fijando un ní~meron~inimode casos para 10s cuales la regla sea aplicable El algoritmo usado por 1.X.L. para inducir reglas a partir de grandes bases de datos esta basado en topologia~dffusas , las cuales permiten definir distancias inexactas entre elementos. Este método encuentra su fundamento e n ciertos principios matemáticos definidos por Postin (1974. cf, tambien Menger 1953); la idea fundamental estriba e n la construcción de grupos difusos. )i no e n la conversión de 10s datos e n puntos con coordenadas espaciales precisas. 1.X.L.construye grupos topológicamente difusos, y a continuación generaliza esos grupos para detectar las reglas que caracterizan a sus miembros. Desgraciadamente. las caracteristicas del algoritmo que utiliza I.X.L. para inducir reglas est2 protegido por una patente comercial, por 10 que no es publicable más allá de 10s pocos principios generales que acabo de resefiar. Algoritmes genéticos En esta sección abordaremos una manera distinta de enfocar el descubrimiento de la regularidad e n una base de datos. Dada la novedad del enfoque, no existen todavia aplicaciones arqueológicas del mismo, aunque Reynolds (1987) ha utilizado estas técnicas con unos propósitos un tanto distintos. Los trabajos de Reynolds se describen e n el capitulo 6. Los algoritmos genéticos están hasados en ciertos principios extraidos de la teoria de la selección natural. Dicho asi puede parecer un autentico desprophsito, sin embargo, la idea además de sencilla es realmente el resultado de un mecanismo automático de ininteligente: el objetivo del algoritmo genético es tt~a~zsfornzar ducción simulando las leyes de la evolución biolhgica. fundamentalmente la superzduencia de 10s indiuiduos mejor adaptados. En este contexto. el término ,'adaptacihn'>significa adecuación a una tarea especifica, definida de manera no ambigua al inicio del algoritmo; para ello, las expresiones resultantes son evaluadas de acuerdo con un criterio especifico (velocidad de procesamiento. sencillez. claridad. valor predictivo, etc.). En otras palabras, las generalizaciones obtenidas mediante este método compiten entre si. subsistiendo tan s610 aquellas que demuestran ser 1124s apropiadas para resohrer el problema en cuestión. Esa competencia simula también el comportamiento de 10s seres vives, especialmente e n 10 que se refiere a la reproducción: el algoritmo genético produce diversas ge~zemcio~qes de expresiones, e n cada una de ellas tan solo aparecen las expresiones que han superado con éxito la lucha por la supenivencia en una generación anterior: obviamente, las reglas mejor adaptadas, aquellas con una mejor puntuación de acuerdo con el criterio inicial, son las que se 1-eproducirán con más frecuencia en las generaciones sucesivas. La principal diferencia con la Evolución Biológica es que el entorno al que hay que adaptarse no cambia a 10 largo del proceso: el propósito final es seleccionar mediante un procedimiento automático las <<mejores%' generalizaciones. En definitiva, un algoritmo genético es un tipo peculiar de sistema estocástico e n el que una cantidad de individuos se combinan y recombinan para constituir una generación completa. El algoritmo opera del siguiente modo: Construye una población inicial de reglas. En la mayoria de 10s casos. esa población se configura por medio de una selección al azar entre todas las reglas posibles (espacio del problema). Evalúa las reglas. y si el grado de efectividad global de las mismas es 10 suficientemente bueno, detiene el programa y muestra la mejor de ellas Si el grado de efectividad no es 10 suficientemente bueno, ordena las reglas según su probabilidad de activación: p=e/E donde e es su puntuación y E la suma de las puntuaciones para todas las reglas CUADERNOSDE , ~ R Q W O L O G MEDITERRÁNEA ~ /TOMO I1 4. Calcula una nueva población (-generación.) de acuerdo con la ~robabilidadde activación. Para ell0 utiliza distintos operadores geneticos. ): (4)hasta que se haya obtenido un candidato lo suficientemente bueno. Cada uno d e 10s pasos e n este bucle corresponde a una generación de individuos. 5. Repetir (3) Los operadores geneticos utilizados e n el eiQ paso son: - reprodzlcción: su función primordial es transferir una expresión de una generación a la siguiente. Con ese fin, detemina el grado de adaptación de cada una de las reglas existentes e n la población d e partida: las mejor ~adaptadas.tienen una posibilidad mayor d e aparecer tanlbicn e n las generaciones sucesivas. Una forma de inlplementar esc operador es programando Una funci6n que calcule el ajuste de cada una de las reglas. )-sume 10s ajustes de toda la población. Ese ajuste total se divide entre el ajuste particular de cada una de las reglas. con l o que se obtiene una medida del xajuste relativa. de cada una de las reglas. A continuación. se asigna a cada una de las reglas un rango de \-alores entre 1 )- 100. Por ejemplo. supongamos que la población inicial contiene tres reglas, cuyos ajustes relatives son: 0.5. 0.2j, 0.25. Los rangos asignados son: 1-50. 51-75, 76-100. Seguidamente la funcion genera un nilinero aleatorio entre 1 )- 100: si esc ní~merose sitila en el rango 150, entonces el programa hace una copia de la prinlera regla )- la sitila e n la segunda generación; si el nuillero aleatorio se sitira e n el rango 5L-j. entonces la segunda regla se copiar2 e n la siguiente generaci6n. )- asi sucesivarnente. Obsen-ese que la primera regla tiene un rango mayor que las otras dos. puesto que su ajuste relati\-o es nYd)-or: la probabilidad de ser seleccionada para reproducirla será. por consiguiente. tambien mayor. - mtlt~f~ión: induce pequenos canlbios y mtxlificaciones aleatorias en las reglas durante su reproducción, d e modo que e n ia generación siguiente aparecen reglas aparentemente -nue\-as.. - tr-u?zsmisio~z (-crosso\.er.): permite la combinación al azar d e dos espresiones que se intercanlbian parte del c6digo en el que han sido implementadas. Una 1-ez que se ha aplicado el operador de reproducción. las regias que aparecen en la generación siguiente se coiubinan a pares. con lo que producen -descendencia. . esto es. nuel-as reglas con características mixtas ex~raidasde las i-eglas que se han coinbinado. Veamos un algoritmo genético e n acción: el programa UEAGLE -.Biologic Evolutionar). L%lgorithmGenerating Logical Expressions.- (Fors!Th 1989. Fors)-th )- Rada 1986) es uno de 10s nlas sencilios )-í~tilespara la inducci6n automática de hipOtesis arqueol6gicas. El programa contiene seis componentes principales que suelen actuar sucesil-arnente unos despues de otros. SEEI) (=Selectivel)-Extracts Esample Data.) transforma datos externos (por ejemplo, la descripción morfometrica de unos bifaces) en un formato apropiado. ROOT (~KuleOliented Optimization Tester.) cornpn~ebauna serie inicial de reglas sugeridas por el usuario. HERU ori heu ris tic Evolutionary Rule Breeder.) genera reglas de decisi6n de acuerdo con la selección natural. SEM (-Signature Table Evaluation Module.) ordena )- estructura las reglas producidas por el módulo anterior. L E . ~(-Zogical Evaluator And Forecaster.) utiliza el resultado de s n : ~para producir predicciones o clasificaciones a partir de 10s datos introducidos e n el primer componente. El componente denominado H E I ~ Ues el corazón de BEAGLE . pues implementa el algoritmo genetico propiamente dicho. Su funcionamiento puede representarse por medio del diagrama de flujo que aparece en la Figura 5.5. Supongamos que deseamos obtener una regla discriminatoria para distingr~irla actividad econcimica que tuvo lugar e n un conjunto de asentamientos estacionales. La base de datos contiene 194 ).acimientos descritos por medio d e 10s siguientes atributos: 1 = Pino. 2 = Encira, 3 = Abedul n0lw 1 = Roedores. 2 = 01-iclipridos.3 = Bóvidos. 4 = Cérvidos. FAUNA Cantidad total de material litico (en gr.) VOLUMEN No DE H O G m , S Cantidad de llogares distintos en cada asentarniento 10 tipos distintos de actil-idad, establecidos por analogia etnoarqueológica ACTlVIDAD Tipologia de í~tileslíticos: 1 = buril. 2 = raspador, 3 = punta, 4 = pico. 5 = bifaz, TIPOS 6 = núcleo. 7 = resto de talla. Tipo del yacimiento. 1 = e n llano, O = e n lugar d e dificil acceso. YACLMIENTO r- Evaluar cada regla en cada caso, primando las reglas mas cortas Ordenar las reglas en orden descendiente de merito, y eliminar la mitad inferior I Sustituir las reglas <<muertas,) apareando una pareja de supervivientes elegido al azar 4 lnducir una mutacion en una pequeña cantidad de reglas y ordenar las nuevas reglas asi producidas N ( Hasta el final) S - Fig. 5.5.Diagrama de Flujo correspondiente a u n algom'tmo genético. El algoritmo genktico crea al azar y modifica sucesivamente varias reglas, hasta que alcanza un conjunto de soluciones estables, de acuerdo con un coeficiente estadístic0 predeterminado. En nuestro caso, las reg l a ~resultantes podrian ser: (ACTIVIDAD = 2) $ ((YACIMIENTOINOH0GARES)-TIPOS) $ 71,29 20 13 1 160 (FLORAS2.5) $ 56,17 20 28 1 145 ((FAuNM~.~)<(((FAUNA~~)~TIPOS)<VOLUMEN) $ 54,08 21 32 O 141 Esta expresión empieza con el predicado (ACTIVIDAD = 2) que define el concepto que se pretende discriminar. En otras palabras, el objetivo es construir una regla que permita distinguir el tip0 de actividad no 2 (Caza Mayor, por ejemplo). El programa ha inducido cuatro reglas posibles. La más simple de ellas es: que afirma que la Actividad de Caza Mayor est5 asociada con aquellos yacimientos e n 10s que se ha identificad o polen de pino y encina. La expresión FLORA12.5 es verdadera para 10s valores 1= Pino, 2 = Encina, y fal- CUADERNOS DE A R Q U E O L O GMEDITERRÁNEA ~ / TOMO I1 sa e n el caso del valor 3= Abedul. El signo S lo utiliza BEAGLE corno separador de reglas y no tiene ningún significado especial. El ní~rnero56,17 es la puntuacihn adquirida por esta regla si la utilizarnos con10 discriminante: se basa e n el coeficiente estadístic0 phi (una vari:lnte del Chi-cu:~dl-aclo).Los otros nílrneros se leen asi: 20 no de yacirnientos con polen de pino y eneina en las que se han identificado actividades relacionada~con la caza m:~yor no se han identificado acti1,idades re28 no de ).acimientos con polen cie pino y eneilla e n las lacionada~con la caza mayor 1 no d e yacimientos con polen de al,eclu] e n 10s que se han identificado acti1-idades relacionadas con la caza inayor 145 no d e yacimientos con polen de abedul e n los que no se han identificado actividades relacionadas con la caza mayor Como ninguna regla proporciona resultados pedectos, el programa ha inducido otras tres. El enunciado de la regia es u n ejeinplo claro que BEAGLE no siernpre proporciona discrirninantes claros y evidentes por si mi~lllos.Una de las peculiaridades del programa, que conlplica la lectura de las inducciones por él generadas, es que las expresiones 16gicas del tipo (FAUIA22) proporcionan un valor de 1.0 cuando son verdaderas y 0.0, 10 cuai transforma una expresihn booleana e n un coeficiente nutnérico cuyos 1-alores pueden compararse con otros vaiores numericos. tales corno 10s que proporciona la variable \-OLUMEN. Analicemos con un poco miis de detalle chmo ha calculaclo el programa esas expresiones inducti~ls:basándose e n la teoria de 10s algoritmos gen6ticos parece haber sustituido una serie de reglas que no se ajustaban lo suficiente a 10s datos iniciales por nue1,as reglas generadas a partir de las anteriores. Por ejemplo, imaginemos que e n el segundo paso el progi-arna hubiese producicio aleatoriainerlte dos reglas: Conm resultado de la aplicación de 10s operadores de transinisión y reproduccion, el programa habria produciclo una nuem generación de expresiones irrtercalnbiando variables. valores y relatores; por ejemplo: (FLORA121 (FLOKASYACIMIENTO+NOHOGARES) A continuaci6n el programa obliga a esas clos expresiones a luchar por su supeivivencia; el grado de .adaptaci6n. de cada una de ellas. y por tanto la probabilidad de ser seleccionadas para formar parte de la siguiente generaci6n se calcula mediante las estadísticas asociadas a la nueva regla: el coeficiente phi o puntuación de esa regla, no de casos a favor 1- e n contra, etc. La dificultad con 10s :~lgoritmosgeneticos es que el usuari0 no tiene control ;~lgunodel nlecanismo de descubrimiento; los programas l~asadose n algoritmos geneticos p ~ o d u c e nasociaciones al azar basánclose en juicios probabilisticos acerca ck la idoneidad de las reglas asi generaclas y desprecianclo el conocimierlto previo que tiene el usuario acerca de las misnus. N o es de extranar, pues. clue los resultados sean impi-edecibles. iQué sentido riene decir que 1:i sumtl de 10s valores correspondientes a las \-ariahles y4CIh~IIE?TT0y I"DE HOGARES es mayor u igual que el valor de la Elriable FLORA? Esa relaci6n existe, efecti\.amente. e n la base de dasin embargo no es g4nterpretaI1le'~en términos artos, por lo que es el resultado de m a inducción '<correcta'), queol6gicos. QuizBs la dificultad estribe en el operaclor genktico usado: si la transmisi6n de Illaterial '.genético,>no se produjese 31 azar, y la hihridacibn d e reglas en generaciones sucesivas estuviese e n toclo inornento controlada por criterios de evaluación heuristicos, esto es, específicos al problema que se quiere investigar, el rnecanisrno de 10s algorit~llosgenéticos seria Otil para resolver el problema de la excesiva cantidad de expresiones generales siri interés para el usuario que resultan de la acción de los programas de inducción autornitica. En cualquier caso, el uso de algoritmos genkticos para representar inferencias científicas es, probablemente, uno de los aspectos más interesantes de la moderna Filosofia Computacional de la Ciencia, si bien también el que necesita mayor trabajo teórico y de implementación. Algunos intentos iniciales en ese sentido han sido realizados por R.A.Young (1990a). Limitaciones de 10s programas de descubrimiento automático El algoritmo ID3 ha sido aplicado en Arqueologia por Fernández Martinez y Garcia de la Fuente (19911, con resultados no excesivamente brillantes. Estos autores pretendían analizar las posibles asociaciones entre 25 variables que describen 389 tumbas excavadas en una necrópolis meroítica (Egipto, siglos 111-1 a.C.). Esas variables hacian referencia al momento cronológico. estado de la tumba (intacta o violada), tip0 general, tip0 de fosa, de suelo en fosa y cámara, de cierre de la cámara, presencia o ausencia de superestructura sobre la tumba, dimensión de la tumba, posición del cadáver, posición del crineo, manos y piernas, tip0 de acomodamiento del cadáver), presencia/'ausencia de cuentas de collar, faldellín de cuero y sudari0 de tela, posición del ajuar dentro de la cámara, tip0 cultural del ajuar y ní~merode unidades del mismo,... En la aplicación del ID3 a este caso se tom6 sucesivamente como variable a discriminar cada una de las anteriores, haciendo que el algoritmo agrupara 10s estados del resto de las variables, de forma que se discriminaran unívocamente en función de dichas agrupaciones 10s estados de la variable que en ese momento se tomaba como diagnóstico. En el caso del valor FASE^ en la variable FASE, el programa obtuvo las siguientes asociaciones: ((TIPO C-OESTE)(ATAUD LECHO)(EDAD NO)) FASE 1 2/52 ((TIPO C-OESTE)(ATAUD LECHO)(EDAD ADU)(MANOS PEL)) FASE 1 6/52 ((TIPO C-OESTE)(ATAUD LECHO)(EDAD ADU)(MANOS PAR)) FASE 1 1/52 Es importante destacar la poca potencia de discriminación (el porcentaje de casos que son clasificados por la misma): e n 52 tumbas adscritas a la fase 1; las tres reglas tan s610 son aplicables en 9 casos(2+6+1). La dificultad no estriba e n la imposibilidad de descubrir regularidades en la base de datos, sino en la aparici6n simultánea de un número excesivo regularidades aparentes. cada una de las cuales tiene una relevancia muy escasa. Los programas de descubrimiento parecen ser incapaces de descubrir un esquema de regularidades o coocurrencias genetwl a toda la base de datos: produciendo en su lugar uria enorme lista de expresiones muy específicas adscritas a un pequeño número de casos dentro de la base datos. En otras palabras, 10s métodos y algoritmos que estamos analizando tienen tendencia generar árboles de decisión de tamaño monstruoso, que no proporcionen información alguna. Un problema semejante ha sido registrado por M.S. Lagrange y M. Renaud (1987a) utilizando una variante del método de Michalski (Sallantin y Quinqueton 1984, Forsyth y Rada 1986) para analizar la planta arquitectónica de diversas iglesias góticas. El objetivo del análisis era proponer la definición intensiva correspondiente a una clasificación empírica de iglesias cistercienses. basandose en 47 variables binarias, que incluían característica~morfométricas de las plantas arquitectónicas, asi como información geográfica y cronológica. El programa (TRINITA), desarrollado por Sallantin y Quinqueton, utilizaba la adscripción a las distintas clases empiricas como variable dependiente, calculando la conjunción de variables independientes asociada a cada uno de 10s grupos de iglesias. Las generalizaciones adoptan el formato siguiente: (NAPABA) & (1SICLFR) STAT : 67 7 : DIT : 197.7 Que significa: <(Laexpresion ~~descriptivo KAve-con-PAredes-BAjas est5 presente y el rasgo Santuario-Individualizado-con Capillas-Laterales-de-Forma-Redondeada no está presenten, es verdadera en el 67% de 10s casos del grupo A y en el 7% de 10s casos del grupo B.. Expresando lo mismo mediante una regla de producción: Si Y Entonces, NAPABA es verdadero SICLFR es falso la pertenencia al grupo 1 es verdadera. CUADERNOS DE ARQUEOLOG~AMEDITERRANEA / TOMO 11 La primera dificultad estriba e n la longitud de la regla. Qui. es m i s conveniente, una regla de dos, de tres, de cuatro, o incluso de quince ckíusulas? TRINITA. al igual que otros programas (por ejemplo el caso Ya conocido de I.X.L.)perrniten al usuario que defina esc panimetro, no obstante. el criterio usaclo es totallnente arbitrari~.Aíln con esta limitacicin, se obtuvieron 440 reglas. Aunque IRINITA dispone de un rncidulo especifico para reducir el níinlero de reglas, l~asándosee n su porcentaje de \,aliclez . debi6raruos plantearnos entonces si un ní~merotan grande de regularidades es una descripción adecuada cle la complejidad clel escIuema de asociaciones y co-ocurrencias subyacente e n la base de datos. o bien si es una consecuencia de la arbitrariedad y glabalidad de las estructuras de control. Otras limitaciones o aspectos que afectan negati\,amente Ios resu1t:idos calculaclos por un progranxl de inducci6n o descubrilniento son 10s siguientes: La naturaleza c:iml~iantede 10s datos iniciales. calidad de una generalizaci6n depende dt. la calidad de 10s datos iniciales (ejemplos). y resulta imposiI>Ie construir un conjunto conlpleto )- definitiva de ejemplos positivos y negativos. sea cua1 sea el concepto a generalizar. Variahles irre1ev:intes: no existe tnodo algun0 de saber si un:i \.ariable es relevante antes de emplearla en una fijnnula de generalizacihn. Por cjemplo. jchrno salxr que es mas importante. si el diametro o s puecle establecerse de tnanera abmgximo o el diir-netro de la base? La relc\.ancia de los a ~ r i l ~ u t no soluta, sino depencliente de 10s objeti\.os: para definir la cronologia ser5 m i s i~nportanteel diarnetro n~ixirno,e n tanto que el dialnetro de la base sirve para cliscrilninar entre funciones posibles de una vasija. Irnportancia excesiva de 10s datos incompletos. que pueden llega a falsear totalnlente una generalizaci6n. <-Kuidoblancon e incertidumbre. La lnfluencia del Az:~r (problemas de muestreo y errores de medida) afectan tarnbien 1:1 calidad de 10s resultados ohtenidos por induccii~n. Los progralnas que estamos analizando no buscan <<a ciegas'j regulariclades, sino que intentan '<generalizar)' 10s ejenlplos positivos y negativos de un concepto inici:d yue pudieran existir e n esa base de dato. Dada esa condiciOn previa, si la base de datos inicial contiene informacihn l~eterogene:~ o redunclante. ser2 irnlmsible definir una regulariclatl interpretable entre las regulariclades clescubiertas. El mec:rnismo autonxítico (algoritmo) dehiera estar dirigiclo e n todo momento por el conocimiento pre\-io que tiene el usuario acerca de la distribuci6n de las propiedades e n el conjunto de eietnplos cle pal-tida. Ese conocirniento es, precisamente. el que nos ha permiticlo clistinguir entre <'ejeruplospositi\-os>> ) <gnegativos>' clel concepto que \!amos a inducir: resulta evidente que ese conocirniento se expresari e n termines de las propiedades que describen 10s eiemplos. En clefinitiva, 10s programas presentados e n este capitulo son efecti\.os tan solo en la medicla e n que hayamos definido previ:imente :iyuello que dese:lmos descubrir. La preg~untacluc \.amos a resol\-er con a),uda del programa dejillilse et1 esia hnse de d a i o s sino, ;estsldr? asociadns 162s c~~~-inhkcs X , E: Z e?z no es iQzié rqzrl~~t*idadc:,-pz~edetz esta base de datos? El conocimiento previcj que necesitanlos para "inducir2' o generalizar conceptos arqueol6gicos adopta la forma de: expresiones obsen-acionales (HECHOSI, que representan el conocirniento especifico acerca de deterninad dos objetos, situaciones o procesos una expresión general hipotktic:~(que puede ser nula) conocimiento general que define los supuestos >- limit:icic>nes impuestos a las expresiones ot~servacionales y a la expresihn general Ilipotetica. Suele adoptar el aspecto de un ct,itelAio~lep~-q/krencia o criterio de validez. La necesidad de conocinliento previo tarnbien es característica de la Induccihn Estadística: e n muchas l~s ocasiones 10s arquecilogos nos olvidamos de la important? distincihn estadística entre ~ ' a r i ~ h~~.7;pet~inze~ztales y z~ariab1t.sobsetzjadas, aplicando indiscri~~~inaclaruente la formula de 1:1 correlacicin a sitnples \ ~ ~ r i a b l eobsemas bles. cuando lo realmente importante es llzi?z~fCrir el conocinliento que ya disponemos a c e r a de la varial~leexperimental :I un conjc~ntode v:iriahles obserc.adas correlacionadas. En termino~formales, tanto en el caso del descubrimiento de expresiones sitnb0licas como en el de expresiones estadisticas lo que se pretende es lo siguiente: dado un conjunto de artefactos arqueolhgicos adecuadamente descritos por ~ n e d i ode diversos atributos (d, , d, , cl, ... ), y una ( o \-arias) variables experimentales o controladas(Al, hay que encontrar 10s rasgos descriptivos comunes a 10s ejemplos de A, es decir, identificar (y resumir) un cierto grado de coherencia en 10s objetos que verifican A. A diferencia de So que pudiera creerse, el objetivo no es calcular 10s valores de la variable A apartir de 10s atributos que describen 10s artefactos arqueoligicos, sino cómo expresar de manera compatible a esos atributos la expresión general (A ) cuya idea básica se conoce. Aprendizaje Automático en sistemas a base de Redes Neuronales Vimos en el capitulo 2 que, en una red neuronal, cada unidad de procesamiento (neurona) recibe estimulos a lo largo de sus conexiones de entrada, y 10s traduce en una respuesta de salida, que será transmitida, a su vez a lo largo de la conexión de salida que une esa unidad de procesamiento con las demás (cf. de nuevo la Fig. 2.5). Esa respuesta de salida es una simple función matemática, que suma todos 10s valores de entrada, y envia como respuesta un número que depende de esa suma. En ocasiones: el valor transrnitido es el resultado de la suma (función lineal); en otras ocasiones. por el contrario. la neurona o unidad de procesamiento envia siempre el mismo valor (por ejemplo 1.0). siempre y cuando la suma de 10s inputs alcance determinado umbra1 (funciones sigmoidales o booleanas). La forma concreta en que la unidad relaciona la señal de salida con la suma de las señales de entrada se denomina función de activació~z. En una red neuronal, las unidades de procesamiento o neuronas están conectadas por una gran cantidad de enlaces ponderados, por 10s cuales pasa la señal procedente de las unidades de procesamiento. Cada unidad recibe muchas señales 2 través de las conexiones de entrada; algunas de ellas proceden de otras unidades, otras proceden del mundo exterior, a través de un sistema de entrada de datos. Cada unidad tiene muchas de conexiones: sin embargo. s610 produce una única senal de salida. Esa sefial de salida se transmite por las conexiones de salida (que son análogas de las dendritas en la neurona humana), cada una de las cuales termina en una destinación diferente. Cada una de esas ramas o conexiones de salida transmite la misma senal, pero con intensidad diferente debido al peso o ponderación que recibe cada una de las conexiones. Cuando la red neuronal está en funcionamiento, cada unidad recibe cierta estimulación de las restantes unidades de procesamiento. Esas senales se modifican cuando pasan a través de conexiones ponderadas. Dado que 10s pesos o ponderaciones son distintos entre si, cada unidad recibiri una estimulación distinta a la de sus vecinas. Comc resultado, ciertas combinaciones de unidades se activaran con grados distintos según sea el estimulo que reciban. Supongamos una red neuronal que contenga dos conjuntos de unidades (Fig.5.6). El primer conjunto contendra una descripción del dato arqueológico que queremos interpretar. Dispondremos, pues, de tantas unidades de procesamiento como variables o rasgos descriptivos sean necesarios. La estimulaci6n de esas unidades procede del exterior. es decir, que su grado de activación coincide con el valor de la variable que describe el artefacto arqueológico: la activación de la unidad longitud)^ ser5 igual a 13.5 ya que ése es el valor de la variable; en el caso de atributos presenciaiausencia, la activación ser%1 si el rasgo esta presente y O si no lo está. El segundo conjunto de unidades contendrá tantas unidades de procesamiento como soluciones alternativas tenga nuestro problema: cronologias posibles del material arqueológico. El propósito es que la descripción de un material se traduzca en un vector de activaciones de las unidades del primer grupo, activándose a continuación alguna de las unidades del segundo grupo (cronologías), como resultado de las señales de respuesta enviadas a través de las conexiones que unen ambos grupos. Obviamente, cada unidad del primer grupo dispone de conexiones con todas y cada una de las unidades del segundo grupo, de modo que cualquiera de 10s resultados del problema tiene una probabilidad igual de ser activado. En palabras más sencillas; si un artefacto es semejante a otro, la activación de las unidades del primer grupo (Descripci6n) ser%idéntica (o muy parecida en ambos casos): y por consiguiente también 10 ser5 la activación de las unidades del segundo grupo (Cronologia). Si un artefacto es distinto a otro, la activación de las unidades del primer grupo ser5 diversa, como 10 ser2 la senal de respuesta que éstas envien y la unidad del segundo grupo activada en correspondencia. Para que este ohjetivo pueda cumplirse debemos fijar el peso o ponderaci6n de todas las conexiones que unen el primer grupo con el segundo de modo que cumplan el requisito antes establecido: ohjetos distintos, distintas respuestas; objetos semejantes, semejantes respuestas. Este proceso de aprendizaje puede ser realizado por medio de un algoritmo determinado. El mas conocido de todos 10s empleados actualmente es CUADERNOS DE ARQUEOLOG~ MEDITERRÁNEA /TOMO I1 D E S cR .. I P c O LONGITUD O DM. MÁXIMO O ALTURA O ALTURA CARENA SlGLO X SlGLO IX SlGLO Vlll @ @ SlGLO VI1 SlGLO VI SlGLO V @ @ o SlGLO IV SlGLO III SlGLO II @ @ @ e R O N O L 1 A Fig. 5.6.Ejenlplo de una i-ed ~zezrr-oizalseircilla. cou dos capas de zzlnidndes deproce.sa~?ziel~to. l~laadc. e l ~ t m d n(input 1 y o//-ade snlidn ( o z ~ t pj~. ~Todas t las i~~aidades de la capa dc. e ~ z t ~ a d~stdlz a conectadns con todns las 1~izidac4es de la capa de salidn. si Oien p a m 1 7 0 c.oi?~plicarei1 e.~ces.soel esqlzlenzu s610 se /7urz I-ep,-c..se~ztadolas coi~e.xionesde l ~ l p ~ i n i c / , nziltivza el denominado algoritmo de ret?~oprogaciri?z de 10s errores, que nos perrnite calcular el valor d e la ponderación de todos 10s pesos que unen las unidades de entrada con las de salida. Se trata, en realidad, de un aprendizaje s~lpemisado.);a que necesitamos u11 conocimiento inicial (resultados asociados :I descripciones) que hara las veces de '<profesor.> del programa, esto es, dir2 en todo momento, qut. aprendizaje es correcto y cua1 incorrecto. de 10s pesos o ponderaciones de una red fue disenado inicialmente por Este algoritmo de ap~,e~idizuje Rumelhart. Hinton y \Villiams (1986). No es el mejor de todos 10s algoritmes de aprendizaje disponibles (cf. Caudill y Butler 1992), pero es muy í~tilen ciertas tareas específicas, siendo aclemis el algorit~nocuyas propiedaeles muestrales son tnejor conocidas. Existen abundantes implementaciones colllesciales sobre microordenador por menos de 200 dolares, que aparecen en el anexo. Las redes neuronales que utilizan el aprendizaje por retropropagacid~zde 10s el-rores tienen dos caracteristicas fundamentales. En priiner lugar cuentan con un grupo intermeclio de unidades de procesamiento -las zlnida~ksocz~ltns-cuyo prophsito es simplemente cornputacional: per~nitenque el sistema pueda aprendei- a distinguir estiruulos parcialmente semejantes. Las unidades en ese grupo, pues, no significa^^)> nada en ti.rminos arqueolhgicos, mientras que las unidades situadas en 10s otros dos grupos si que tienen significado: .,descripción'~y si resulta do'^ (Fig. 5.7). Topol6gicamente. todas las unidaeles del primer gnlpo estan u n i d a ~a todas las unidades ocultas, mientras que todas las unidades ocultas estan unidas a todas las unidades del último grupo. No existen conexiones. ni positivas ni negativas, entre las unidades de un :nismo grupo. Grupo Inicial Grupo Final RESULTADO Fig. 5.7.A?*quitecturabásica de una red neurona1 calculadapor retropropagación Cada unidad recibe una estimulación procedente de las unidades de procesamiento en el grupo que la antecede. Asi, el primer grupo recibe las estimulaciones del exterior (una base de datos que contiene una descripción del registro arqueológico). las unidades ocultas se activan cuando reciben estimulación de las unidades situadas en el primer grupo. La respuesta es activada, por tanto, por intermediación de las unidades ocultas. Todas las unidades, sin distinción del grupo al que pertenecen! usan la misma función de transferencia. Es decir, que la cantidad de estimulo que reciben es igual a la suma ponderada de las conexiones. La respuesta proporcionada por cada unidad se calcula mediante la función sigmoidal anteriormente expuesta. Una vez definida la topologia de la red, podemos iniciar el algoritmo de retropropagación. Para el10 necesitamos una base de datos que contenga el valor de activación de las unidades del primer grupo y del segundo grupo. En otras palabras, precisamos de un conjunt0 experimental de datos e n 10s que hayamos podido asociar previamente la descripción con el resultado. La misión del algoritmo es comparar la señal de respuesta emitida por las distintas unidades con la respuesta conocida de antemano; la ponderación de las conexiones entre todas las unidades se va corrigiendo iterativamente, cada vez que el sistema intenta calcular el estado de la activación de la unidades finales partiendo del mismo vector extern0 inicial, pero con una topologia modificada. Como resultado del proceso iterativo de corrección: 10s resultados proporcionados por el sistema se van aproximando cada vez más a 10s conocidos. El error se reduce, pues, a medida que aumentan 10s ciclos iterativos de corrección. El procedirniento es: en realidad, bastante sencillo. ya que intenrienen tan s610 sumas y diferencia~de vectores, asi como productos escalares de vectores por constantes. no obstante. todos esos cálcu10s se producen en paralelo. ya que cada unidad de procesamiento en el último grupo está unida a todas las unidades de procesamiento ocultas, por lo que es necesario corregir una gran cantidad de conexiones para cada caso. n'o debe extrañar. pues, que el proceso de aprendizaje, aunque se parta de una base de datos reducida, necesite varias horas de cálculo en un ordenador personal de mediana potencia. El algoritmo de retropropagación del error es un proceso iterativo de corrección refinamiento progresivo de la inatriz de pesos neuronales creada por la función anterior: en cada ciclo, se utiliza el error (diferencia entre el resultado real y el calculado por el programa) para ajustar 10s pesos y la función de activación de cada una de las neuronas que componen el sistema, de forma que ese error se reduzca progresivamente, manteniendo constantes 10s estirnulos iniciales. El algoritmo actúa del modo siguiente: para el estimulo i de la neu- CUADERNOSDE ARQUEOLOG~MEDITERRÁNEA / TOMO II rona j en el tercer nivel (el del resultado), se asigna un valor aleatori0 al peso w,¡ ajustándolo progresivamente al valor especificado en el estimulo; para ell0 se suma el peso aleatorio inicial a un termino determinado por el producto de la proporcidn de uprendizaje, del termino de error y el valor de cada uno d e 10s estímulos. Una vez calculados 10s terminos de error en el ílltimo nivel, se repite el procedimiento para el nivel d e neuronas ocultas y, finalmente, para el nivel inicial, variando e n cada caso el termino de error utilizado, ya que e n cada uno de 10s niveles se utiliza la suma del error alcanzado en el nivel siguiente. El algoritmo recibe el nombre d e la acción que lo caracteriza: la propagaci6n hacia atris del termino de error. La mayoria cle implementaciones comerciales de este algoritmo ofrecen al usuario del programa varios resultados: en primer lugar 10s valores d e la función de activación, algo que nos interesa bastante poca. El resultado de la inducci6n aparece de dos formas: en primer lugar como '<aproximaci6n,b a la conceptualizaci6n del estimulo; asi, si una de las matrices binarias era característica de cerimicas de baja calidad (escala = I), la red utiiizari 10s valores de la función para aproximarse a ese valor, 0.96 por ejempio. Si la calidad fuese excelente (escala=4), la aproximación seria de 3.94 posiblemente. El usuario ha d e estudiar estas aproximaciones para decidir si la red neuronal ha generalizado correctamente 10s ejemplos o si resulta preciso variar algunos parámetros para que su efectividad sea mayor. Se deja en manos del usuario la decisi6n final acerca d e la eficacia,, del programa en esa situación concreta. El segundo resultado útil es la predicción: junto a 10s estimulos hemos introducido varias matrices binar i a ~sin especificar la calidad de ceriimica correspondiente: es la red neuronal la que utilizará 10s valores de la funci6n de activación para calcular esa adscripción, tambien en termines de aproximaci6n, por lo que leeremos resultados como: 2.93; 1.57; 0.36; 3.75; etc. que utilizaremos para adscribir cada caso a una categoria distinta. Veamos un ejemplo. Analizaremos las rnisrnas representaciones rupestres que nos siivieron para introducir el uso de 10s Sistemas Expertos: las Estelas Decoradas del Sudoeste (cf. Capitulo 3). Las 30 primeras unidades de procesamiento (neuronas) representan la informaci6n descriptiva, y coinciden con las siguientes variables: Presencia de escudo Presencia de espada Presencia de lanza Presencia de ~'espejiforme.(o maza, o -lira.) Presencia de Figura Humana Presencia de peine Presencia de fíbula Presencia de carro Presencia cle casco Presencia de m i s d e una Figura Humana Presencia de animales Presencia de arco y/o flecha Presencia de series d e puntos Presencia de diadema Escudo y Figura Humana simetricamente dispuestos e n plano horizontal. Escudo y Figura Humana simetricamente dispuestos e n plano vert. Escudo e n posicihn secundaria respecto a la Fig. Humana Espada y lanza paralelas, flanqueando el elemento central Espada y lanza, paralelas y juntas Espada cruzada sobre la figura Humana Espada y lanza independientes Escudo con escotacluras en V en todos 10s círculos Escudo con circulo exterior con escotadura en V, e interior sin ella Escudo con circulo exterior sin escotadura en V, e interior con ella Escuclo con circulos conc6ntricos lisos Escudo con lineas paralelas Escudo con disposición radial Escudo redondo, liso, sin escotaduras Casco de cuernos Casco de cresta Cronológicamente, estos monumentos deben situarse entre el 1100 a.c. y el siglo VI a.c. (cronologias n o calibradas). Este periodo de tiempo ha sido dividido e n cuatro fases: - BRONCE FINAL I1 - BRONCE FINAL 111 -Horizonte de la Ria de Huelva- ORIENTALIZANTE - POST ORIENTALIZANTE Dado que suponemos que la seriación cronológica ser6 diferente e n distintas zonas geográficas, han sido afiadidas nuevas variables: - VALLE DEL TAJO - VALLE DEL GUADIANA - VALLE DEL ZUJAR - VALLE DEL GUADALQUIVIR Por consiguiente, la capa de salida de la red dispondrá de ocho unidades. Estableciendo un total d e diez unidades intermedias (en la capa oculta), la red contiene un total de 48 unidades o neuronas. (Fig. 5.8). d File Edit Group Oefaults Windows Functions Mecro E~tra Fig. 5.8.Arquitectura del programa estelas en la que todas las unidades de procesamiento estan interconectadas entre sí. (Usando el programa MacBRAIN 3.0, de Neurix, Inc.). Se ha seleccionado un conjunt0 inicial de 33 estelas cuya cronologia es conocida, debido a la aparición e n ellas de algún elemento iconográfico datable por su semejanza con el registro arqueológico (espadas pistiliformes, espadas de lengua de carpa, fíbulas de codo, ausencia de fíbulas de codo, ... cf. Barceló 1989). Los pesos y niveles de activación de las unidades ocultas e n red neuronal han sido calculados a partir de esa base de datos. En cada uno de 10s casos se ha consignado el área de geográfica de aparición, y la cronologia más probable. Para que la red neuronal aprendiese por retropropagación a discriminar las Estelas de una Cronologia y Región se han seguido 10s siguientes pasos: CUADERNOS DE A R Q U E O L O GMEDITERRÁNEA ~ /TOMO 11 1. 2 Asignar al azar unos valores a las interconexiones iniciales (todos con todos) Introducir un registro (descripción de una Estela) 3 Activar el estado actual de la pauta de interconexiones (utilizacibn de la Función Sigrnoidal de Activacibn) 4. Comparar el resultado obtenido con el resultado que aparece e n la Base de Datos y que corresponde a la descripción de esa Estela) Utilizar el algoritnlo de retro-propagación del error para corregir 10s errores obsen-ados entre el 5 resultado producido y el conocido. 6 Introducir un nuevo registro (otra Estela). Este algoritlno ha sido repetido unas 2000 veces, 10 que ha exigido unas cuatro horas de tiempo, hasta que se obtu\.o una soluciOn estable (10s errores e n el resultado entraban dentro de u n interval0 de probabilidad aceptable). Una Red Neuronal no puede utilizarse cotno si de 10s resultados de un Aniílisis Estadistico se tratase. El grafico que obtenemos al final no es un dendogr:lma cotnparable a 10s que obtenernos al final de un Aniílisis de Conglomerados, pol- ejemplo. En resumidas cuentas. una red neuronal no pertnite que su resultado sea leído. sino que una vez creada la p:tuta de itlterconexiones entre unidades de procesamiento. el usuario debe expel-irne~ztal-con ella a fin de contrastar (o no) sus 11ipOtesis. S o olvidemos que una Red Neuronal es un programa de ordenador. )- no un fichero de ní~meros:como [;il. el programa no contiene inform:rción viílida, sino que es tan s610 un mecanisnlo de razonamiento que debiera permitirnos resolver ciertos problemas. Lo pritnero que debemos hacer es avei-iguar si la topologia de la red obtenida tt-as la aplicación del algoritmo de retropropagación tiene un minimo grado de fiabilidad, esto es, si no se equivoca al establecer la cronologia y la adscripción geogrrifica de las Estelas que han sido utilizadas e n su creación. Los resultados obtenidos e n esta primera experimentación han sido excelentes. En todos 10s casos el progranla asigna la cronologia correcta a las elistintas Estelas. Se obsetva, 110 obstante, s11 resistencia a tralxijar con '~excepciones>j. como son ciertas Estelas cot1 un esquetna iconogriífico caracteristico del valle del Tajo, pero aparecidas ell el valle del Guadiana. La Recl Neuronal no proporciona resultaclos icleales cu:rndo las diferencias entre 10s datos son muy escasas. La siguiente t:ire:i est2 direct~lmenterelacionada con el :inrilisis de Estelas f~iginentadas,De 10 que se trata, ahora. es estudiar cual es la releKincia de cada una de las variables, ora juntas, ora por separado. ActivareInos la Recl Neuronal, no con clescripciones de estelas, sino con descripciones hipotéticas, del tipo: iQué pasaria si una Estel:r contuviese tan shlo un casco de cresta? iQué pasaria si una Estela contu\-iese tan s610 un escudo d e circulos concéntricos? iQuC paxu'ia si un:l Estela contuviese tan shlo un espejo y un carro? Los resultados son extraordi~urialnenteinteresantes. Cot110 era de esperar, 10s atributos más generalizados (10s que ap:~recene n todos 10s monumentos) son muy poco discriminantes. Si aparecen aisl,'i dos e n utla Estela dificiltllente podremos conoccr su cronologia o lugnr d e ~ ~ r i c i bIZIayor n. significaciOn tienen las variables que registran la distinta tipologia cle escuclos. Así. se detlluestrti c6tno el escudo con escotaduras e n V e n todos 10s circulos es propio del Bronce Fin:ll 111. es decir. actix-ando la unid:~dde entrada ESClJnO CON ~sco-r.4DUR-\S EN l7 se ohtiene una í~nicaactivación en l;r capa cte salida: 1:r unidad KKOKCF F I ~ A I .I I I . LC) ~nistnosucecle el caso del escudo con escotaduras s610 et1 el circulo interior. mientras yue el escudo cot1 escotacluras e n \' en el exterior es caracteristico del Orientalizante Pleno. Cu:indo en la Estela s610 aparece una figura humana. la simulación nos indica que se tmta de un prototipo tardio, clel siglo 1-1a.c. Las rasiables iconogrrificas, esto es. aquellas que describen la manera en que estrin dispuestos 10s motivos represeiltados en las Estelas 11311 p~-olx>rcionado poca infornlacihil. LO 1x5s interesante procede de la manera e n que se asocial1 la espacla )- la lanza: cuando estos elementos flanquean la figura central (1.2sea un antropomorf~o un escudo) se trata de un prototipo :~ntiguo,clatalAe e n el Bronce Final I1 6 Bronce Final 111. Cuando la espada ); la lanza aparecen par~llelas)- juntas. la cronologia 1115s probable es la del Post-orientalizante, e n tanto que la espada cruzada sobre la figura Humana aparece inclistintanlente e n el orientalizante ). en el Post-orientalizante, esto es, se activan dos unidacles e n la capa de salida para una sola activación en la capa cle entrada. Se han realizado diversas sitnulzlciones para estudiar c6111o responde la red neuronal ante estímulos cont r a d i c t o r i ~y~ante estirnulos que se refuerzan miltuamente. Cornentaretnos aquí s610 alguno de 10s resultados ARQUEOLOGÍA AUTOMATICA. INTELIGENCIA ARTIFICIAL EN ARQUEOLOG~ rnás evidentes. Por ejemplo, al activar dos variables contradictorias en la capa de entrada, como son fibula y escudo/figura Humana enposición simétrica vertical aumenta la indeterminación cronológica, ya que se activa rnás de una unidad e n la capa de salida; en otras palabras, una Estela que mostrase esas dos variables en su descripción no podria ser asignada, con claridad, a ninguna datación. En el caso de la activación a partir de las variables espejo y casco de cuernos observamos que al ser 10s resultados de cada una de las dos variables muy semejantes, el resultado conjunt0 no varia del obtenido al procesar por separado cada una de las variables. Lo mismo sucede en la activación de las variables carro y escudo con escotaduras en T/; o bien c a v o y jgura humana, si bien e n el primer caso, la fijación cronológica de la segunda variable reduce la indeterminación de la variable cawo. En definitiva, cuando las variables activadas son contradictorias, en algunos casos aumenta la indeterminación, al equilibrarse la probabilidad entre cronologias alternativas. Por el contrario, siempre que la red sea activada con variables asociadas (presentes en 10s monumentos de la misma época), 10s resultados obtenidos en la activación individual se mantienen o se refuerzan (mas detalles de este ejemplo aparecen en Barceló 1995a, 199513). Ahora bien, la validación de todos estos resultados dependerá de la verosimilitud que concedamos a la red neuronal. Ciertamente hemos basado esa verosimilitud en 10s resultados de la primera tanda de simulaciones, esto es, las experimentaciones con Estelas conocidas: en todos 10s casos, la red neuronal ha proporcionado 10s resultados esperados. Pero, la muestra de datos utilizada en la creación del programa puede ser parcial o incompleta, o bien, 10s resultados de la investigación arqueológica pueden superar rápidamente a lo que se sabia en un momento dado, y eliminar 10s criterios sobre 10s cuales se han creado 10s pares (DESCRIPCIOK-CRONOLOGIA). De ahi que resulte imprescindible insistir en el carácter fundamental que tiene la selección de 10s datos iniciales. La fiabilidad del análisis depende, pues, de la manera en que hayamos seleccionado esa información. Limitaciones de las Redes Neuronales Aparentemente. el algoritmo de retropropagación y el aprendizaje a base de redes neuronales no parece seguir el algoritmo general de generalización como búsqueda, o algoritmo de Mitchell: con el que empezábamos el capitulo. El énfasis en el '(ajuste>literativo de 10s pesos neuronales y función de activación nos remite a un algoritmo de opti17zizaciótz,antes que a un algoritmo basado en la búsqueda heurística. A pesar de ello, no parecen haber demasiadas diferencias en 10 que pudiéramos llamar la ~~epistemologia~~ del método. Tanto el liaprendizaje))o descubrimiento simbólico como el neuronal est%nbasados en el mismo principio: encontrar el rasgo común a una serie de ejemplos positivos y/o negativos, calculando a continuación la ~<similaridad>' de nuevos estimulos con 10s ya conocidos para predecir su adscripción o no al concepto al que se refieren 10s ejemplos. Las diferencias en uno y otro caso estriban e n la computación, esto es, en la manera de estimar 10s términos generales a partir de 10s ejemplos particulares. Si en el aprendizaje simbólico el termino general a inducir es corregido paso a paso, a medida que se presentan nuevos ejemplos positivos o negativos, en el caso de las redes neuronales esto se hace por medio de una traducción del ejemplo en términos de una función matemática. En otras palabras, cambia~zdo10s pesos de las neuronas y no introduciendo nuevos estimulos. Los modelos de aprendizaje en una red neuronal son reglas o procedimientos que explican a cada una de las neuronas cómo modificar sus pesos y conexiones en respuesta a ciertos estimulos. De este modo, la redundancia de 10s estimulos iniciales no afecta al resultado final; si bien el algoritmo no funciona muy bien del todo (bajo poder predictivo) cuando las diferencias entre los estimulos iniciales son minimas. Otra ventaja de las redes neuronales es que algunos algoritmos de activación neuronal permiten el aprendizaje sin necesidad de definir ejemplos positivos y/o negativos; es decir, se trata de programas capaces de realizar inducciones a ciegas o no supervisadas. El método más conocido capaz de el10 es el algoritmo de autoorganización (Kohonen 1988): su funcionamiento no se basa en la corrección progresiva del error, ya que al faltar 10s ejemplos no hay manera de calcular la diferencia entre el resultado esperado y el calculado, sino en la agrupación de estimulos que activan neuronas vecinas entre sí. El nivel final. aquel cuyas neuronas representan el resultado, corresponde a las agrupaciones de neuronas provocadas por 10s estímulos en el primer nivel. Los pesos de las neuronas se organizan de modo que las neuronas topológicamente unidas sean sensitivas a estímulos semejantes entre si. Al igual que en el algoritmo de retropropagación, 10s pesos neuronales son es- tablecidos al principio de manera aleatoris, siendo mejorados progresivan~ente,si bien, el término de corrección no es ahora el término de error. sino la distancia euclidea entre el estimulo y el resultado. Estas ventajas de las redes neusonales sobre el aprendizaje simbhlico o heuristico. deben conlpensarse con las desventajas obvias del metodo. ~ 1 primer 1 lugar. el fen6meno de cqja ~ z e g :~ell procedimiento de culo del algoritmo de retropropagaci6n es mucllo 1112s complejo, lll:ite~~~áticamente. que las técnicas estadistijY se tuta del algoritme de aprenclizaje neurona] nxis sencillo! En definitiva: la red neucas nlultidin~ension:~les. ronal es efectiva. y resulta sencillo para el usuari0 apercibirse de esa efectividad. no obstante, al desconocer 10s cálculos ei usuario pclede ser incapaz de crear ulla red neuronal. En este senticlo es importante tener e n cuenta que la parametrizacicin inicial de la red es 111u!~iinportante: antes de ernpezar una sesihn de aprendizaje, el usuario debe fijar por si n~ismomucl~osde 10s \.alores iniciales de la funcibn de activacihn, tales c o ~ n ola proporcion de aprendizaje. ni\-el de ruido existente e n el estimulo. tolerancia clel entrenalniento y de la comprobacihn, cantidad de iteraciones necesarias. etc. Aunclue 10s programas co~nercialesinc1u)-en valores por defecto. estos no suelen concordar con el problerna que se pretende resolver. Otro inconveniente de las redes neuromles es mlis .<tectlolhgico>, que tehrico: la tecnologia inform2tica utilizada 110~;en dí:^ p:m PI-ogr:t~lzarsedes neclronales no estri lo suficientemente prol,ada. Pongamos por caso la cuesti6n cle la configuracihn de la red: parece estar claro por cluk el primer ) el í~ltimonivel de neuronas tienen el níilnero de unidades que tienen: coinciden con el enunciado del prol,lerna y 1:1 sole~cicinque se busca. Pero iqu6 decir del nivel intermedio, cle las .enigmáticas,>neuronas ocultas. cuya función exacta no es bien conocida? Los resultados sefln distinros si configuramos la red con dos. cuatro, cinco o las neuronas que sean. En otros casos podemos disponer incluso redes de celatro o nxis niveles (en un inicroordenaclor el mAximo suele ser 6-10 niveles), en 10s que las neuronas ocultas se agrupan en clistintos niveles. iQuC config~~racicin es la rnejor )- por que nloti\.o? El ílnico criterio que proponen 10s informiiticos es la fi:~bilidaclde la precliccibn, o bien ciertas mediclas estadisticas cicle hacen referencia a la distribucion clel error de clasificacihn. En cualquies caso, parecen soluciones acl-boc para salir del paso. sin que re\.elen un conocimiento profunclo de lo que est2 calculando el ordenador )- por quk lo hace. Se trata de un procedirniento cle generalizaQuiziis esto sea 10 iniis irritante e n la c~induccicinneurona13>. ci6n efec1iL.o. pero cuya complejidacl est5 nu)^ por encima del nivel del arquehlogo que pt-etenda usarlo. La conclusi0n. I: mi juicio. es e\ idente. jno debi6ratnos prescindir del rnétodo, sino empezas a estudiar glgehra! Comentarios bibliográficos Acerca del aprenclizaje 1- la inducción automáticas, el lector puede consultar 10s manuales de Forsyth y Rada (1986). Fors),th (1989), \Yeiss y Kulikon,ski (1990), Bergadano, Giordana y Saitta (1991). Thornton (1992), Langley (1994). Llichie y Spiegelhalter (1994): e n castellano, el libro de Cuena et al. (1985) y Castillo y Alrarez (1989). El libro de Kearns (1991). :lunclue e x h a ~ ~ s t i \es ~ oprobablemente , deinasiado difícil para el lector medio. Lectura fundament:ll sigue siendo el libro de Hollal~det al. (1986). En todos ellos aparecen descripciones detallada~de 10s mktodos explicaclos en este capitulo )- otros muchos. A ese respecto t3mbit.n pueden consultarse los libros de P:lo (1989) )I Gaines y Boose (1991). Algoritmes genkticos: Gold1,erg (19891, Davis (1990). Redes Keuron:lles: los libros citados e n capítulos anteriores explican con detalle la nlanera de definir la funcihn de activ:~cihnde 121s neuronas y los distintos algoritmes. Los libros miis sencillos son el de Caudill y Butler (1990) y el de A41exandei-y hlorton (1990). El lil7ro de Zeidenberg (1990). auncll~ecompleto, especialmente e n lo que se refiere a ejernplos reales, es tn5s difícil par:L el lector sin preparacicin especifica. Otro ejemplo arqueol6gico .'real>jpuede encontrarse e n Gilxon (1993) y en Claxton 1995. 6.+ SIMULACION E INTELIGENCIA ARTIFICIAL Simulando la conducta del hombre prehistórico Durante mucho tiempo 10s matemáticos han trabajado con Sistemas Artificiales que parecían capaces d e modificar por sí solos su estado inicial. Me refiero a las técnicas de Simulación y Modelización, procedimientos de resolución de problemas e n el que lo que se pretende averiguar es la situación futura de un sistema real. Esa solución aparece como la ez'olución lógica del estado inicial del sistema. Supongamos, por eiemplo, que hemos de averiguar, dado el conocimiento que tenemos de una comunidad humana e n una fase cronológica determinada (Estado Inicial), si alcanzará o no un nivel de desarrollo social determinado (Escado Final). Lo fundamental, pues, radica e n la formulación de la ley evolutiva capaz de esa transformación. es decir, e n el procedimie~ztocapaz de transformar el Estado Inicial e n Estado Final. En el fondo, esos Sistemas no son más que series de ecuaciones que represeutan ciertas entidades reales y que sinzzllan su conducta. Esquematizándola al máximo, una simulación informática puede ser vista como <(elarte de explorar un campo de posibilidades a partir de leyes formales definidas a priori~l(Quéau 1986: 118). Esto es, una entidad artificial compleja (un sistema de ecuaciones) '<quese refiere a sí misma)' (nutorrejerencia) por medio de iteraciones ~7 retroacciones. La simulación permite a 10s signos matemáticos (símbolos, al fin y al cabo) proliferar automáticamente: podríamos decir, casi ~'biológicamente~~, constituyendo una rnateria experimental susceptible de todo tipo de rnanipulación. El mecanismo informitico del simulador analiza las distintas y sucesivas modificaciones del sistema real simulado centrindose e n la 'conducta individual>)de sus componentes, conducta que suele representarse por medio de ecuaciones matemáticas, pero que puede progralllarse también mediante u n Sistema a base de Reglas o u n Sistema a base de E n c ~ ~ a d r e(Orientado s a Objeto). El programa resultante, n 3 obstante, se limitará a una simulación discreta (esto es, sin ecuaciones diferenciales, que son las que permiten representar mejor la evolución temporal de la entidad simulada). La estructura bksica de un Sistema Experto modificado de ese modo seria: una Base de hechos que contenga la descripción del Sistema e n el momento inicial un conjunto de objetivos que especifiquen la forma que adoptar5 la entidad simulada al final de la simulación una serie de reglas, responsables de la modificación del Estado Inicial (hechos) e n Estado Final (objetivos). Obviamente. esas reglas representan 10s procesos reales responsables de la evolución de la entidad o entidades simuladas. La única, y fundamental, diferencia con 10s Sistemas descritos en capitulos anteriores es que las reglas de producción no representan un mecanismo de inferencia: sino procesos físicos! existentes e n el Inundo real, susceptibles de modificar el estado inicial del sistema. tal y como ha sido representado en la Base de Hechos. En términos de simulación, lo Único que hemos realizado es substituir las ecuaciones matemáticas por reglas de producción, formato de representación más adecuado para aquellos fenolnenos no expresables matemáticamente. De todo el10 se deduce que no cualquier sistema evolutivo es inteligente. A nadie se le ocurriria decir que una simulación es l'inteligente'l, sino que es sofisticada, correcta. etc. Lo importante no est5 e n la transformación del Estado Inicial e n Estado Final, sino la <consciencia>) que pueda tener el Sistema de que sus contenidos han evolucionado. Veamos un ejemplo (adaptado libremente de Tello 1989: 269s~). Sea un yacimiento arqueológico en el que se asentó una comunidad hun~anaesencialmente agrícola, conclusión a la que se ha llegado analizando la calidad de 10s suelos cultivables y la cantidad y diversidad de útiles relacionados con actividades agrarias. El jracimiento más cercano (mico) en varios kilhnetros a la redon&a, es un asentamiento dedicado esencialmente a la producción de mineral, situado e n una región de suelos agrícolas pobres y con un registro arqueologico e n el que faltan iltiles dedicados a las actividades agrarias. En (17 CUADERNOS D E ARQUEOLOGIA MEDITERRANEA / T O M O I1 el principio de la simulación, la situación e n el yacimiento agrícola (pacimiento A) es más próspera que e n el yacimiento B (minero): área de habitat más extensa, estructuras de residencia m%scomplejas, y arquitectónicaizlente elaboradas; abundancia de representaciones artisticas, etc. yacitniento B, est5 al borde del abandono, ante la f:~ltade recursos alimentarios. La finalidad de la simulación es analizar el mecanisme de intercambio entre ambos, de manera que en el Estado Final del Sistem:l ambos constituyan una red reciproca e n la que 10s minerales son intercainbiados por cornida. La representacihn del conocimiento se realiza por medi(] de encuadres. e n el que las entidades fundamentales representan :i los yacimientos. Las atributos son: recui-sos (agricolas, initleros) y situaci6n (prospera, critica). La sii~lulaciónes llex-a& a cabo por un conjunta de doce reglas (ilzecanisino de encadenarniento hacia adelante). La primera regla (esto es. aquella con un mayor nivel de prioridad) establece que todo )'acilniento precisa de recursos alimentarios (agricolas e n este caso) para no ser abandonado. Cna regla auxiliar establece que e n ausellcia de tales recursos el yacimiento estari e n situación critica. La simuiaciótl eillpieza al-eriguando las necesidades de 10s yacirnientos: si un yacinziento necesita alga y no lo tiene. entonces procurarli obtenerlo. Esta situacibn est9 expresada mediante una regla que establece: <cuanc10un yacitniento intenta obtener algo ( L ' ) , si hay alga que considera que puede intercambiar (u) y existe otro );acimiento que tiene lo que el priinero busca, entonces el priillero intentar2 establecer una red de intercambio con el segundo>'.El forinato de esa regla seria: Si J' Y Y Y Y Entonces ((x) ES UN yacliniento) ((x) INTENTA4((li) OBTENER ( ~ 7 ) ) ) ((y) ES LN yacimiento) ((y) TIENE (1 )) (x) f (y) ((x) CONSIDERA ((x) PUEDE INTERCMBIAR (u)) (x) ESTABLECE INTERCAIIBIO CON (y) (LI)A CAVIBIO DE (v) Otra regla afirmar5 que si se establece intercambio con u n yacimiento 77 considera que tiene lo que se le solicita a carnbio, hari efectivo el intercambio. Este sisteilla experto representa por tlledio de reglas de producción ciertos fenóinenos, que, aparentemente, van tnucho inás allá de la inera i~~anipulación de sitnbolos. Fijemonos especialmente e n el comportainiento de expresiones relacionales coillo '-CONSIDERA>). Es precisamente ella la que da la impresion de que la entidad simulada sea a<inteligentej>: el encuadre ~~Yacimiento~~ . que e n el fondo no es 1115s que un sector de la memoria del ordenador que contiene cierta infortnación, parece adquirir conciencia, ya que es capaz de ((considerar))o <'ci-eer~j algo. Existen dos nod dos de impleillentar esa ilusión de <actividadcognitiva artificial>',uno de ellos usa el término CONSIDERA coizlo una mera expresión relacional, esto es, cotno una secuencia de caracteres alfabéticos que el orcler~adorregistra )r compara con otras: e n el otro caso, el programa pertnite al encuadre acimiento en to'^ una cierta actividad propia (en forma de subprograma particular). En el primer caso, existe una regla que asigna esa expresión concreta al encuadre. Por ejemplo: Si Y Entonces: ((x) ES UN yacimiento) ((x) PUEDE INTERCAMBIAR (y)) ((x) CONSIDERA ((x) PUEDE INTERCAMBIAR (y)) A su vez. la expresion 'gPUEDE INTERCAMBIAR]'es producida por la regla: Si Y Entonces: ((x) ES UN yaciiniento) ((x) PRODUCE (y)) ((x) PUEDE INTERChMBIAR (y)) En otras palabras, lo que parece consctencia propla)!por parte de las estructuras de datos no es más que un sugerente juego de lenguaje: lo que en el ser humano es una acctón (el verbo (considerar>,),para el orde- nador es una propiedad (un adjetivo) de cierta estructura pasiva de datos. Los Sistemas Expertos suelen simular la acción verbal mediante adjetivos relacionales, que se convierten e n acciones, ya que son capaces de <(aCtivar>lreglas u objetos. Es decir, s610 si a esa estructura de datos que representa el concepto humano ~'Yacimiento~ se le asigna el adjetivo considera^^, podrá ponerse en marcha un mecanismo capaz de generar ciertas acciones (asignar nuevos adjetivos). Con el10 no quiero decir que esa implementación de la <'conscienciaartificial)'sea un truco sin interés: la <<Conciencia>> del encuadre "Yacimiento))es algo mas que una etiqueta. Su apariencia de actividad se ha logrado programando su definición (las acciones condicionales) y dándole la oportunidad de generar nuevas acciones; la expresión 'CONSIDERA>) es una condición para la asignación de nuevas expresiones, por 10 que definiremos su significando enuinerando las acciones que es capaz de producir en otras entidades. Por 10 tanto, siempre y cuando un programador sea capaz de definir un concepto abstracto o una acción cognitiva exclusivamente en términos de sus condiciones y sus consecuencias, esa acción cognitiva ser2 implementable mediante reglas de producción. Este mecanismo no est5 tan alejado, como parece, del razonamiento humano. Es cierto que expresiones como <CONSIDERA')parecen meras etiquetas conceptuales, ahora bien. no se trata tan so10 de una mera palabra anadida a otra; CONSIDERA^^ es e n realidad un concepto ya que tiene un significado propio (acciones que contribupe a generar). En el caso cognitivo humano, la condición de activación denominada ~'CONSIDERAR>), ACERCA DE (x))':que contiene a su vez una función comes sinónima de la expresión '1TEKER INFOR~~ACION putacional capaz de realizar una acción (leer una Base de Datos). Martin Biskowski (1992) ha desarrollado una simulación arqueológica bastante semejante. El Sistema Experto construido por este investigador contiene tres componentes mayores. El primer0 de ellos es la superficie de 10s recursos, que representa el área de distribución de la tierra cultivable )i otros recursos naturales o artificiales.en el espacio. El segundo componente es un conjunto de subprogramas de toma de decisiones, cuya misión es generar^^ el razonamiento de diferentes individuos simulados. El tercer componente es un conjunto de subprogramas de arbitraje que controlan dónde se produce la decisión. qué tipo de información está disponible para cada individuo y cómo las decisiones )- las no-decisiones se traducen en modificaciones de 10s subconjunsos en la superficie de 10s recursos. La superficie de 10s recursos representa la distribución regional de diferentes productos importantes para las primeras sociedades complejas. El modelo utiliza información empírica del área centroamericana, como por ejemplo: tierra con diferentes potenciales para agricultura de secano u otras formas de agricultura más intensivas, fuentes de obsidiana, arcilla, madera y basalto. La superficie de recursos presenta, además, las relaciones espaciales entre 10s recursos. Los programas de aitoma de decisiones)'constituyen, e n realidad, un sistema experto que simula el conocimiento cultural y personal de un individuo acerca de las diversas maneras de interactuar con la superficie de recursos, con el fin de cumplir diversos objetivos y necesidades. Se incluyen reglas para elegir 10s individuos con 10s que se intercambiarán productos, asi como el valor de diversos elementos. La función especifica de cada sistema experto es simular cómo un individuo intenta satisfacer las necesidades y objetivos impuestos por un árbitro. El razonamiento simulado del individuo se traduce en tres tipos de acciones: interactuar con la superficie de 10s recursos hacer intercambios buscar información en otros individuos acerca de 10s procedimientos necesarios para obtener 10s bienes' deseados. Los subprogramas de arbitraje controlan la simulación. Se han dispuesto cuatro módulos: 1 Determinacion de Procedimiento: El conjunto de reglas de producción usadas por 10s individuos serán seleccionadas de acuerdo con un modelo de la transmisión cultural de ideas. Un aspecto interesante de este subprograma es determinar cómo tratar con las fuerzas que impelen a un individuo hacia la posesión de reglas de producción contradictorias: patrones de comportamiento existentes entran e n conflicto con el curso aparentemente racional de una acción. En otras palabras, la acción de un individuo no siempre es racional -en términos de nuestra propia vida acomodaticia de la Europa Occidental-, sino que está sometida a 10s esquemas ideológico-sociales de su comunidad. 2 Determinación de Objetivos/Necesidades: Los objetivos y necesidades de 10s individuos simulados dependen de factores tan diversos como el lapso de tiempo entre las decisiones tomadas e n momentos diversos o el papel desempeñado por 10s individuos simulados en la sociedad (estatus). Las limitaciones CUADERNOSDE ARQUEOLOG~AMEDITERRÁNEA/ TOMOII impuestas a 10s individuos son: obtencibn de 10s hienes subsistenciales necesarios, obtenciÓn/expansi6n del control sobre los recursos materiales y/o sociales, obtencibn de prestigio en su propio beneficio. 3 ResoluciAn de intercambios: Los intercambios podrin aceptarse o rechazarse segun sea el contexto social, la disponibilidad de individuos con 10s que se pueda intercambiar algo, la comprensión de 10s valores de 10s productos intercambiados. El subprograma de arbitraje habrá de determinar: si 10s productos intercambiados son obligatorios o determinados libremente, si el intercambio se produce por regalo, trueque u otro medio de interaccihn, quien inicia el acto de intercambio, si alguno de 10s participantes e n el acto de intercambio excede la noci6n preconcebida de '<coste>,. 4 Control del Mundo: Control de 10s diferentes factores que afectan el ~ n u n d osimulado: variabilidad climatica, inversión en obras de irrigacihn, etc. Ejemplo de las reglas de producci6n del Sistema Experto ideado por Binkowski serían: SI Y ENTONCES 1. Los productos/posesiones de algunas unidades domesticas exceden las necesidades previstas 2. El exceso de bienes es intercambiable Hay un exceso de bienes intercambiables SI Y ENTONCES 1. Conoce candidatos para establecer un intercambio 2. Algunos candidatos son socialmente apropiados Hay disponibles suficientes individuos para un intercambio SI Y Y ENTONCES 1. Hay un exceso de bienes intercamhiables 2. Hay disponibles suficientes individuos para un intercambio 3. Se puede negociar el intercambio Se pueden obtener bienes utilitarios por medio del intercambio. ~a propuesta de Riskowski es extraordinariarnente interesante, fundamentalmente e n lo que hace referencia al =objetivo. del sistema experto: simular la cognición de 10s individuos del pasado. El problema puede que se establezca e n la implementacibn, debido al formato excesivamente rigido de 10s módulos. A excepción de 10s ejemplos aquli citados, Biskowski no ha publicado todavía una versi6n operacional del programa (cf. Biskowski 1992). En otras palabras, el programa es un conjunto dt: reglas, cada una de las cuales se refiere a una a c c i h . Falta. por canto, una representaci6n m5s individual de la especificidad de cada uno de los individuos. Eso se consigue mediante los llamados <clenguajesa base de actores'>,prograrnas informiticos no rnuy alejados de los lenguajes orientados objeto en los que expresiones relaciones semejantes a las anteriores sirven de llamadas a subprogran~asespecificos que realizan una tarea determinada (recuerdese 10 que deciarnos sobre 10s lenguajes Orientados Objeto y 10s sistemas -distrihuidos>'en el capitulo 4). Asi, en el caso anterior, siempre que el ordenador encontrase la palabra clavc CONSIDERA, la ejecutaria corno un mcnsaje'>, con 10s siguientes componentes: el agente (o <<actor,,) que va a llevar a cabo la acciOn de '<considerar,) el objeto de la consideracibn, esto es, la inforniaci6n que se va a introducir e n la representación interna del actor como resultado del mensaje. Pongamos por caso la simulacihn, en un Lenguaje a base de Actores, de la jerarquización social. iC6mo a un la representariamos usando 10s elementos que se acaban de mencionar? LJn Actor (x)est5 '<subordinado>> actor (y) si (y) es capaz de imponer tareas a (x).Un actor ( y ) podrB imponer tareas a un actor (x)si (y) envia un objetivo o mandato a (x) y (x) intenta ejecutarlo o cumplirlo. El mecanisme es bastante diferente del que veiamos e n el caso de la simulación mediante reglas de producci6n. Aquí la -actividad,' de 10s objetos u actores no se lleva a cal20 mediante juegos de lenguaje, sino mediante programas especificos que <<hacen>> algo. Es decir, si en el caso anterior la expresión relacional ~~CONSIIIEPA~' era para (-1 ordenador una mera secuencia de caracteres alfabéticos que se asigna a ciertos objetos, en el presente caso, esa expresión contiene conocimiento procedural, pues se refiere a un programa que, efectivamente, ejecuta diversas acciones. Cada actor dispone de su propio modelo de conducta (aquell0 que debe cumplir por si sólo o en colaboración con otros actores), definido por un subprograma especifico. La tconsciencia artificial))de cada actor está representada por su conocimiento de algunas de las caracteristicas de 10s actores que le rodean con 10s que interactuar enviando y recibiendo mensajes; en otras palabras, la pa cons cien cia'^ de un actor no es más que la suma de conocimiento declarativo que tiene no s610 de 10s objetivos que debe cumplir (modelo de conducta), sino de 10s objetivos y características internas de 10s actores que le rodean. Esto es relativamente fácil de programar y provoca que 10s mensajes s610 puedan enviarse a aquellos actores que son conocidos por la unidad que emite dicho mensaje. Este principio: sin embargo, no es fijo, pues la identificación particular de un actor puede ser, a su vez, un mensaje, e integrarse en el conocimiento que tiene un actor acerca de 10s demis, 10 cua1 contribuye a modificar paulatinamente la estructura de interconexiones posibles. Una primera aplicación de 10s Lenguajes a base de Actores en el dominio de la simulación arqueolhgica es el estudio de Jim Doran acerca de las redes de intercambio entre comunidades prehistóricas (Doran 1987, Doran y Corcoran 1985). La Hipotesis que se pretende modelizar es la que propusieron en su dia Wright y Zeder (1977): la proporción de bienes intercamhiados está relacionada con sus niveles anuales de producción. En el programa EXCHANGE ('intercambio'2) cada ((actor>' simula un asentamiento. Su modelo de conducta contiene conocimiento 'tecnológico' acerca de la manera de combinar materias primas -0btenidas directamente del entorno fisico- en bienes de consumo. Los productos manipulados por 10s actores son totalmente abstractos e n el sentido en que no poseen propiedades a excepción de su distribución y de las reglas de combinación a las que obedecen. Dado que la disponibilidad de materias primas es desigual, un actor individual está motivado para implicarse en una red de intercambio reciproco y obtener así 10s materiales necesarios para 10s bienes de consumo que ha de producir. Según Doran, el esquema general de producción e intercambio deriva de la distribución de las materias primas. el conocimiento particular que cada tiene actor acerca de 10s demás elementos en la red, la distribución de ese conocimiento (transmisión de mensajes), la estructuración concreta que adopta el intercambio, y las motivaciones (modelo de conducta) particulares a cada actor. Resulta evidente la incomparable mayor riqueza expresiva de esta simulación que usa técnicas de Inteligencia Artificial sobre la original de Wright y Zeder, limitada a una simulación estadística. Mas ambicioso es el proyecto actualmente en curso por Jim Doran y sus colaboradores en la Universidad de Essex (Proyecto EOS: Doran 1993, Doran et al. 1994), que pretende simular un modelo teórico de la evolución de las sociedades humanas. El modelo adoptado por Doran es el de Mellars (1985): en el sudoeste de Francia, durante el Paleolitico Superior, la riqueza y diversidad de 10s recursos alimenticios, la concentración de 10s mismos en el espacio y e n épocas puntuales del año, su estabilidad a largo plazo 71 predictabilidad favorecieron una importante densidad de ocupación humana en grandes unidades co-residenciales, 10 cua1 impuso un cierto grado de sedentarismo. En esas circunstancias la presión demográfica y la necesidad de coordinación sirvieron de impulso a la mayor complejidad de la organización social, que incluia la aparición incipiente de jerarquias sociales y de sistemas de privilegio. Esta tendencia a la complejidad social se reforzaría e n el momento e n que el sistema se viese afectado por disminución de recursos subsistenciales. El sistema esta configurado por un conjunt0 de actores situados e n un contexto concreto que fija 10s objetivos '-subsistenciales~~ de cada actor individual. De 10 que se trata es de analizar con esos elementos la siguiente hipótesis: e n circunstancias ideales cada miembro de la comunidad de actores satisface localmente su subsistencia sin interferir e n las acciones locales de 10s otros actores en ese contexto. Sin embargo, cuando un proceso determinado obliga a 10s actores a actuar más cerca unos de otros, aparecerán interferencias e n la satisfacción de 10s obietisros individuales. La estructura interna del sin~uladores la siguiente: a un problema de explotación de recursos, el cua1 requiere cooperación entre 10s actores para poder ser resuelto. El sistema genera automáticamente una serie de recursos que deben ser aprovechados por 10s actores. Estos están distribuidos en distintas localidades y tienen que intercambiar y combinarse 10s recursos para producir con el fin de producir bienes de consumo. El objetivo de todos 10s actores es el consumo de esos bienes transformados. b la densidad de la poblacihn de actores. Las variables clave son: 1) la cantidad de actores que conoce cada actor y 2) el grado de competencia que existe entre 10s actores para conseguir 10s recursos existentes. c la respuesta cognitiva de 10s actores a la densidad de población (esto es, a la presión demográfica). A medida que la densidad de poblacihn camhia, 1ambit.n lo hace el grado de dificultad de la tarea colectiva de adquirir y distribuir recursos. Cada actor clispone a su vez de un modelo social, bajo la forilla de una jerarquia de clases. A medida que la densidaci de pot,l:~ción aunienta. cada actor simplifica ei conocimiento que tiene de 10s dem:is por una descripci6n cle la clase a la que pertenecen. d ka capacidacl de un actor para genemr e intentar la ejecución de ciertas estrategias para la consecución de SLI supel-vivencia. En general, es:1 estrategia se I,as;t e n la actividad coordenad:l de 10s actores 1115s cercanos entre sí (segíln las especificaciones del modelo social del actor). Las ofertas de colaboracibn que recihe cada actor soll ciiversas, por lo que tiene que elegir entre ellns p:lra decidir con qu6 gmpo iniciar5 una actividacl concertada. En circunsr~nciasde presi6n deinogrrifica, como 12s que se intenta estudiar en este programa. esas decisiones convergen entorno a una org;inización jerarquizada de 10s actores. La implementacihn informlitico de EOS est5 definida por: u11 entomo simulado hi-dimensional o (<paisaje>) con una población de agentes móviles y recursos camhiantes que proporcionsn <,energia'> :L esos agentes. agentes estructuraclos con10 sistemas de producciones, con reglas que ~~reactivaruente'~ conectan el input sensorial (percepci6n que el ageiite tiene del gcpaisaje'>)con la acci6n. Hay reglas clue implementan la comunicaci6n inter-agente y que generan. inantienen J- actuaiizan planes silllpies 0 modelos sociales de 10s otros agentes. En otras palabras, cada agente dispone de un modelo o representación de 10s dernás agentes y cle sus itltenciones. El programa (EOS1) funciona con los siguientes pasos: 1 Simulación de la recogid:l de i11fornl:iciOn concurrente y asíncrona: cada agente adquiere información acerca de los recursos existentes en el <'paisaje>' y acerca de las intenciones y conocimientos de otros agentes. Fijaci6n de los objetivos p:ira la adquisici6n de recursos y propuestas de acci6n colectiva propuestas por 10s diferentes agentes. 2 Comunicaci6n inter-agentes, que concluce a la adopción de un pequeno nunlero de planes colecti\-os para "1 ejecuci6n. 3 Ordenaci6n social de 10s agentes según las propuestas sugericlas. Aumenta el 'qxestigio')individual de aquellos agentes cuyos planes de acción colectiva han sido adoptados por el grupo. 4 Una vez clue un agente ha adquirido prestigio, se activan relaciones de tipo líder/seguidores semi-permanentes. Agrupacibn social de los agentes. 5 Forn~acionde jerarquias (grupos de gnlpos de grupos) por tnedio de la instanciación recursiva de mismo tipo de procesos de forrnaci6n. Las próximas versiones del programa (EOS2. Doran 1993, con~unicaciOnpersonal) pretenden superar alde la versión inicial. e n especial la excesivamente funcionalista y regunas de las liinitaciones <~antropológicas>) duccionista descripcilon del proceso de formaci6n de las jerarquias sociales. En definitiva. 10s lenguajes a base de actores perrniten representar parcialrnente la complejidad de ese modelo social, especialmente aquello que cada actor conoce acerca de los den1:is (si pertenecen o no a su propio grupo), y la efectividad de la resolución de conflictes e n una colnunidaci e n la que se recluiere un esquema de intercarnbios recíprocos para el proceso productiva. La efectividad de 10s intercarnbios varia con respecto a la variación e n la base de datos clue representa las <<creencias'> que cada actor tiene con respecto a 10s demás: el intercambio es nl5s sencillo dentro de un mismo grupo. Otro prograrma inform:itico que pretende modelizar la manera e n que los hombres prehistóricos tomaban decisiones economicas. esto es, la manera e n que adoptaban nuevas estrategias productivas es el, dirigido por R.G.Reynolds (Reynolcls 1984, 1986, 1987. 1989, 1990, 1991, Savatsky y Keynolds 1989). El mecanisme inforrnático sobre el que se basa la sirnulaci6n es, sin embargo. bastante distinto al de Doran. d la que utiliza algoritmos genkticos (cf. Capitulo i) y no lenguajes de programación a base de actores. De entre 10s distintos programas pai-ticulares integrados e n este proyecto (simulación de una economia de base ganadera, sirnulación de la conducta econbmica e n grupos de cazadores-recolectores1 he elegido el estudio de la adopcidn de una economia agrícola e n el valle de Oaxaca, e n el Mkxico pre-colombino. El programa intenta reproclucis 10s motivos que lle\~arona un grupo liurnano, situado e n un ecosistema especifico, a decidirse por una econonlia de producci6n (de base agrícola), antes que a una economia de re- ARQUEOLOGÍA AUTOMÁTICA. IXTELIGENCIA ARTIFICIAL EN ARQUEOLOG~A colección. El programa desarrolla la Teoria que sobre el Origen de la Agricultura formulase Kent Flannery a fines de 10s años 60 (Flannery 1968), proponiendo un método que permite la operacionalización de dicha teoria, el principal punto débil de la formulación original de Flannery. El supuesto de partida es el siguiente: (Consideremos un grupo de cazadores-recolectores en un ecosistema semiárido como el de Oaxaca (México). En determinadas épocas del año, ciertos productos son m%s abundantes y fáciles de recoger que en otras; la estrategia económica de ese grupo humano, pues, debe adaptarse al ciclo anual de 10s recursos disponibles. La adopción de la agricultura provoca conflictos en la gestión y programación de la secuencia estacional de las restantes actividades subsistenciales, ya que distrae una importante cantidad de trabajo en la época del año en la que la recolección es mas eficazl~. . . . El programa informático propuesto por R.G.Reynolds (sin nombre o acrónimo que lo identifique) calcula la manera en que 10s miembros de ese grupo organizarían sus actividades económicas en ese supuesto, equilibrando la cantidad de trabajo necesaria para cada una de esas actividades. La idea fundamental estriba en definir un punto de equilibrio idóneo entre todas las actividades subsistenciales, de modo que la subsistencia y reproducción del grupo quede asegurada. Si el modelo fuese correcto, 10s resultados del programa debieran ser idénticos a 10s resultados de la excavación arqueológica: la cantidad de restos de comida medida por 10s arqueólogos en el transcurs0 de la excavación debe ser idéntica a la cantidad de cornida calculada por el programa a partir del punto de equilibrio supuesto. Para conocer más detalles acerca de la excavación arqueológica sobre la que se basa la sin~ulación,el lector deberá consultar la monografia original de Flannery (1986). La simulación utiliza un grupo humano de cinco o seis individuos (tal y como se deduce de la excavación del yacimiento de Guilá Naquitz) que tiene acceso a 10 estrategias económicas (o actividades de subsistencia) alternativas durante un periodo de 4 meses; esas estrategias económicas han sido establecidas en función de 10s hallazgos arqueológicos de restos faunisticos y vegetales. Se supone una dedicación de 10 días para cada una de las 10 estrategias, lo que da lugar a que el grupo humano recurra a ellas en repetidas ocasiones durante el periodo fijado. Cuantas más veces se acuda a una estrategia determinada, más influir5 ésta en el registro arqueológico (mayor cantidad de huesos animales o de restos vegetales). Cada vez que un miembro del grupo acude a una de las 10 estrategias adquiere una cierta cantidad de comida. Tanto en la excavación como en el programa de simulación se han medido las cantidades de proteinas y de calorias proporcionadas por la subsistencia así obtenida; las medidas permiten estudiar el grado en que las necesidades energéticas de la población están satisfechas. Otro parámetro importante hace referencia al esfuerzo necesario para reunir esa cantidad de comida. El programa utiliza una estimación de la cantidad de proteinas y calorias por unidad de área en la que el grupo humano busca 10s recursos. Otro tipo de información que el programa necesita se refiere a la <=competencia>) entre las distintas actividades, dicho de otro modo, qui. estrategias son viables en un mismo momento, dadas las circunstancias del entorno en ese instante. Dados estos parámetros, el objetivo de la simulación es constatar las modificaciones inducidas por ese grupo humano en el orden e importancia relativa entre las distintas actividades. Transcurrido un periodo de tiemp o determinado (4 meses), debe llegarse a una secuencia de actividades en equilibrio. Para cumplir este objetivo, el programa diseñado por Reynolds consiste, en realidad, en un algoritmo genético (cf. Capitulo 5). En una primera etapa, el programa asigna aleatoriamente un número de orden y una intensidad específica a cada una de las 10 actividades o estrategias. Con aluda de la información disponible acerca del grupo y del entorno (ecosistema), ese orden e intensidad se modificaran paulatinamente, hasta definir una situación de equilibrio. Los distintos ciclos del programa pueden expresarse del modo siguiente: se elige una muestra de estrategias de producción se evalúa la efectividad de las distintas estrategias seleccionadas, reproduciendo, a partir de la información disponible, el mecanismo de toma de decisiones que, verosimilmente, produjo esa selección. se utiliza la regla de decisión asi obtenida para producir nuevas decisiones económicas se utilizan las decisiones económicas anteriores para modificar la muestra inicial de estrategias de . subsistencia. No es este el lugar para desarrollar la forma en que se ha implementado el algoritmo; una introducción general a 10s mismos ya ha sido presentada en el capitulo 5. La cuestión fundamental a la que debiera prestar el lector una atención especial es al hecho que el programa aparenta ser capaz de alterar su conducta basán- CUADERNOS DE ARQUEOLOGÍAMEDITERF&NEA / TOMO I1 dose en su experiencia. En resurnicias cuenras: la toma de decisiones subsistenciales es modificada segun se aproxime la secuencia de estrategias a un punto de equilibrio, que se ha establecido en función de ciertas medidas de consumo proteinico y calórico por el grupo humano simulado. El lector interesado puede consultar (Reynolds 1986) para saber mas detalles acerca del algoritmo genetico en cuestión. Para pocler estudiar la relevancia de la agricultura en una secuencia estacional de estrategias subsistenciales, Reynolds ha trabajaclo con distintos casos: un modelo pre-agrícola (ninguna de las 10 estsateaias posil>les hace referencia a la agricultura). un modelo de agricultura incipiente (en el que la agricultura es una mas de las 10 estrategias posibles). La comparación de 10s puntos de equilihrio a 10s que se llega en cada uno de estos dos modelos, y las estirnaciones de consumo proteinico y calórico; perrniten analizar la relevancia de la agricultura entre todas las actividades, asi como 10s efectos que la adopción de la agricultura produjo en pequenas comunidades asentadas en ecosistemas semiiridos, e n 10s que la secuenciaci6n de actividades subsistenciales es critica. Los proyectos de J. Doran y de R. Reynolds expuestos en esta secci6n debieran permitirnos examinar m i s a fondo una de las cuestiones mis importantes aborciadas en este libro: el tnecanismo infoi-mático no es tan s610 un vehiculo de representación, sino una representacibn en si. En ambos casos se afirma explicitanlente que 10s seres humanos actúan del mismo inodo que lo hace el ordenador. Los trabajos cle Uoran y cle Reynolds, n o obstante, delnuestran la no universalidad de 10s tnecanisrnos sociales de tollla de decisiones. al lnenos en 10 que hace referencia a la adopción de estrategias económicas. En ambos progr:lmas las ciecisiones del grup0 se llevan a cabo gracias a la integmci6n de las decisiones individuales: se parte del principio, dernostnll>lefori~~almente, que 10s limites e n la cornunicación entre 10s individuos irnponen una restriccicin en la forma e icloneidad de las decisiones del grupo. Ahora bien, lo que diferencia el progralna de Doran del de Reynolds es la función matematica utilizada para calcular esa integrailih. En el caso de EOS se tuta, aparenternente, de una acumulación simple de decisiones individuales (mensajes cruzados por 10s distintos actores); no obstante, la existencia de numerosas estructur:ls cle control, ya a nivel individual. ya a nivel colectivo (inform:~cihns o l x el entorno), perrniten la representación de decisiones extremaclamente complejas. En el caso clel programa de Reynolds, la acu1nulaci6n de decisiones individuales esta calculada por medio de un algoritmo genktico. La diferencia entre ambos siste1n:rs es, en realidad, la diferencia entre un programa declarativo y un programa algoritrnico. iPueden lograrse resultados comparables acerca de la conc1uct:r humana en el pasado utilizanclo diferentes mktodos informaticos? Tendremos que esperar llasta la publicacicin definitiw de ambos proyectos para poder respondes a esta pregunta fundament:rl. Provisionalmente. podernos decir que en atnbos casos parece halxrse llegado a un resultacio semejante: la clebilidacl estruct~iralde 10s ~necarlisrnosde toma de decisiones en grupos humanos con una estructura social igualitaris; la toma de decisiones e n estos casos no esta afectada por la cantidad de individuos en el grupo, sino por la canticlad de informaciOn recogida por 10s miernbros individuales y por la forma en que esa información circula entre el grupo. Sirnulando la "inteligencia"de 10s arqueólogos Los programas presentados en el capitulo anterior son en realidad mecanismos de universal es^, de generalización: exploran la posibilidacl d e que en una base de datos cualquiera puedan -o no- existir regularidades. Lo que hacen esos programas no es rngs que traducir o re-escribir un concepto inicial, de manera que la nueva expresibn, siendo forlnalrnente ecluivalente a la de partida. t e n p ciertos atractivos adicionales. Por lo tanto, las regularidades asi descubiertas no son 'cinterpretaciones'>de una pob1:icicin inicial de datos o resultados observacionales, sino expresiones equivalentes que expresan de lnanera 1115s simple y comprensible el esquema de co-ocurrencias existente en la población inicial. Los infor~naticosagrupan estos programas bajo la etiqueta <<Descubri~niento del Conocimiento>,,y definen su f~~ncion:imiento como <=la estraccihn no trivial de la informa(Fra~vleyet al. 1991: 3). La clefinicicin de conociOn implícita, previalnente no conocida y potencialmente í~til,~ cimiento que se deduce es 1:1 siguiente: <'unaexpresi6n que tiene interes (de acuerdo con cierto criterio de evaluaci6n establecido por el usuario) y que es lo suficientelnente cierta (tatnbikn de acuerdo con un criterio determinado)',. Ahora bien. al final del capitulo anterior, se afirmaba que la calidad del esquema de asociaciones y coocurrencias descubierto e n los datos dependia de la homogeneidad y adecuacijn de la base de datos al pro- blema en cuestión. Según esto, jhasta qui. punto las regularidades encontradas son significativas? En otras palabras, json esos programas realmente capaces de descubrir unidades de conocimiento ? La respuesta a esa pregunta debe ser negativa: 10s programas de descubrimiento automático, al menos tal y como 10s hemos descrito e n el capitulo anterior, son incapaces de <descubrir>l unidades de conocimiento, puesto que son incapaces de evaluar la utilidad o relevancia de sus resultados. Tanto la cwalidez)~como la ~~utilidad~~ son cuestiones relativas, que no dependen de 10s datos ni son gen e r a d a ~por el algoritmo. Ambas forman parte de lo que se denomina conocimiento del entorno del problema , y hacen referencia al contexto especifico en el que tiene lugar la inducción y en el que se utilizarin 10s resultados. Precisamente porque son universales es^^ 10s programas descritos en el capitulo anterior no incluyen ninguna referencia al contexto de la inducción, por 10 que sus resultados no pueden conceptualizarse como a n i dades de con oci mi en to^^. Debido a esta incapacidad o inadecuación, la función de programas de descubrimiento al estilo de 1.X.L.o 10s basados en el algoritmo ID3 y semejantes debiera reducirse a la búsqueda de la representación interna de la clase o concepto al que pertenece una instancia del mismo. Para que sus resultados, expresiones del tip0 DATO -+ INSTANCIA + CLASE adquieran el rango de cono oci mi en to^^ es preciso que las clases resultantes estén organizadas e n un sistema coherente, esto es, debe existir una relacibn no trivial entre 10s resultados y 10s objetivos. Por otra parte, 10s programas de descubrimiento no reproducen adecuadamente el razonamiento cientifico. Para ello, debieran ser capaces de ap?,ender conceptos y no tan sólo señalar la existencia de co-ocurrencias. En este caso, la nocicin de <<aprendizaje') estaria definida como eaquel fenómeno exhibido cuando un sistema (agente humano o máquina) mejora en la ejecución de una tarea concreta, sin necesidad de haber sido reprogramado". Ahora bien, 10s conceptos cientificos no pueden ser generados algoritmicamente; un científic0 no analiza la realidad aplicando fórmulas migicas a sus datos y usando el resultado de esas fórmulas como conceptos o leyes absolutas, sino que modifica progresivamente la forn~ulaciónde un concepto inicial (hipótesis), acercándose paulatinamente a un concepto '~rnejor~~ que el de partida. <~Mejor>' puede significar cosas distintas: un mayor porcentaje de soluciones correctas, ~ l n arespuesta más rápida, soluciones más prácticas o eficaces, o con un mayor abanico de posibilidades de aplicación, etc. Es precisamente en este punto donde radica la necesidad de que el concepto o ley inducida sea "útil". El aprendizaje de una categoria suele definirse en Psicologia Cognitiva en tanto que transferencia de conocimiento de un conjunto de ejemplos a una expresión lógica. Sin embargo, no toda transferencia de conocimiento permite aprendcr; es preciso que el conocimiento de la segunda unidad aumente como consecuencia de esa transferencia. Pero no hay aprendizaje, no hay <'incremento>' del contenido, si no se definen previamente 10s parámetros que permitan establecer la ~~mejora'~ del sistema. Aquí radica el problema de la induccibn, que durante siglos se han planteado 10s filósofos: a diferencia de 10 que sucede con la deducción, no puede probarse si las leyes o entidades generales resultantes de una inferencia inductiva (p.e. una generalización) son correctas. Mientras que la deducción es un t i p ~ de razonamiento finito, es decir, concluye tras un número determinado de pasos, la inducción no concluye nunca, porque no puede establecerse con seguridad cua1 de sus resultados es el definitivo. De este modo, la creación inductiva de conceptos cientificos es en realidad un proceso continuo, que no puede reducirse a la aplicación de un Único operador. Lo realmente importante en una inferencia inductiva no es la naturaleza de 10s operadores (estadisticos o lógicos), sino las heuristicas de procesamiento que asegurarán que las conclusiones inductivas son plausibles y relevantes para el objetivo que se está procesando. En definitiva, el control de la inducción tiene más importancia que la inducción en si misma. En Inteligencia Artificial suelen utilizarse para el10 dos estrategias distintas: introducir estructuras de control en el algoritmo, o bien controlar la base de datos. El '(error>) en la aplicación de Fernández y Garcia (1991) descrita e n el capitulo anterior, estriba en no haber controlado ni 10 uno ni 10 otro: el algoritmo ID3 no incorpora estructuras de control efectivas, ese es su mayor defecto, reconocido incluso por 10s autores de la aplicación. En esas circunstancias, el tamafio y complejidad del árbol de decisiones resultante puede reducirse controlando el tamafio y la diversidad de la base de datos. A diferencia de 10s procedimientos estadisticos, e n 10s que priman muestras grandes que preserven la Ley Normal, en la inducción automatica 10 importante es la (calidadb'de 10s datos: la cantidad de ejemplos positivos y negativos ha de estar equilibrada, y al mismo tiempo esos ejemplos han de ser exhaustivos; un mayor número de ejemplos no mejorará la interpretabilidad de 10s resultados, sino que aña- CUADERNOS DE ARQUEOLOG~ MEDITERF&A / TOMOU dir%redundancias y aumentara peligrosamente la coinplejidad del árbol d e decisiones al incorporar rasgos peculiares a cada uno de los ejeinplos particulares. Por consiguiente, cuanto mejor (*mas especifico.) y más apropiados sean los datos iniciales, mas útil y aprovechable seri el &rho1de decisiones. Obviamente, el -control d e los datos iniciales))nos introduce de lleno en el terna de la experiinentación científica, que suele definirse e n tanto que creació??controlada de resultados obsen,ables. (cf. por ejemplo Bunge 1983). La segunda opción para controlar la cantidad, coinplejidad y utilidaci prictica de las inducciones autoiirliticas consiste en la prograniación de rutinas especializadas e n el control de las inferencias. Parcialiliente, ése es el enfoque adoptado en todos los prograrnas que derivan de ulla manera u otra del inétodo de Michalski. En COCLUSH (Grey 1991). la inducción se controla por 111edio d e la evaluación post-hoc de 10s resultados del programa. Los criterios de evaluación son 10s siguientes: - estructurar al maxirno la infolmacicin contenida e n 10s objetos - tener un poder de predicción aceptable - reflejar una relación: la pertinencia de una propiedad varia según la relación que se haya establecido entre las liachas que constituyen un grupo. En el primer caso, el programa detendra 10s operadores d e generalización-especialización cuando e n la clase ya n o sean posibles rnás operaciones, o bien cuando la cantidad de objetos con 10s que la descripción resultante es compatible sea inferior al limite definido por el usuario del programa. El segundo criterio hace referencia a la maxiinizacihn de las correlaciones en el intei-ior de una clase y a la niinirnización de las correlaciones entre clases. La calidad de una clasificacihn se mide entonces usando la fórn~uia: Calidad-Clasificación = 2 cohes~hn(SC) contraste (scl La coliesión de una clase es mayor cuanto mayores sean las siinilasidades entre los objetos que pertenecen a la clase. El contraste evalíla las disimilaridades entre 10s objetos de una clase y los de otra. La xcalidad. de una clasificaci6n ser%iixlyor cuanto mayor sea el resultado de esa ecuación. Hay que limitar la busqueda de generalizaciones y,'o asociaciones. aun con el riesgo d e omitir informaciones importantes. No puede llaher aprendizaje si no se controla d e un modo u otro el il~ecanismod e inducción. ya se 11-ate de la generalizacihn o de la correlación d e propiedades. Cuanto 1115s estrictas sean las condiciones que ilnpongamos al mecanisnio, iiyayor riesgo de eliminar genesalizaciones interesantes: si esas condiciones filesen dernasiado dehiles, las dimensiones del espacio d e busqueda seran excesi~aspara encontrar e n el hiphtesis satisfactorias. De este modo, en el dolninio de la Inteligeiicia Artificial, las inferencias inductivas se caracterizan d e un modo bastante distinto al de la inferencia estadística cllisica: el objetivo no es distinguir quk atrihutos o variables estiin correlacionados con que objetos en una base d e datos. sino en modificar progresivamente la definición de un objeto paradign~%tico de modo que la definiciiin final sea utilizable para todas las instancias posildes del rnis~noobjeto. Se trata d e un tipo de inferencia que ejecutaremos en respuesta a ciertos objetivos específicos, tales c o ~ n ola bí~squedade una explicacicin plausible para un resultado inesperado. Et estudio de la it?dl~cci61zes, pues. c.1 estztdio de c6nzo se nzodijica el conoci?nicuto u tmz'@sde sr~uso. Por consiguiente, deberuos programar sisternas informaticos capaces de generar )r revisar las unidades de conocimiento que sirven para construir las Teorias Cientific:is. Esos sisternas deben lle\ral- a cabo tres tareas interrelacionadas: 1 e\raluar las reglas del sistenia como instrumentos para alcanzar 10s objetivos. rnejorándolas cuando sea posilde 1. fa\-orcciendo la aplicación de las mejores. 2 generar plausibleiiientc nuel-as reglas útiles que sean capaces d e estraer y explotar las regularidades que pudiera liaber en la experiencia 3 proporcionar asociaciones y agrupaciones entre reglas para crear estructuras de conocimiento progresi~ainentemayores que conduzcan a una modelizaci6n efectiva del entorno. La ejecución de ese progralila estari dirigida por el tnecanismo autoniático d e resolución del problema, basado a su vez e n la retro-aliiuentaci6n ifee~llbuck concerniente al exito o fl-acaso de las predicciones generadas por el sistema. R. Forsyth (1987) ha propuesto un escluema general paix explicar la estructura d e ese programa. Se cornpone de 10s siguientes mhdulos: El Critico coinpara el resultado obtenido con el resultado que se esperaba olxener. Para ello debe existir algo asi conio un 'sisterna ideal' que sin7a para rnedir la conducta del sistema. En la pi-kctica, se tmta d e la figura del expert0 humano o del profesor, que identifica 10s errores cometidos por el agente que está resolviendo el problema. De su actuación se deriva la importancia de la etr ro-alimentación evaluativa, cuya función consiste, precisamente en identificar errores y relanzar el mecanisrno de solución partiendo de nuevas premisas (definida~,precisamente, por el error que se ha cometido). El mecanisrno de aprendizaje constituye el núcleo básico del sistema. Es la parte del sistema que tiene la responsabilidad de corregir la base de conocimientos para impedir la obtención de resultados erróneos. El módulo ejecutivo es el que lleva a cabo la acción (validar 10s objetivos). No se limita a hacer las veces del elmotor de inferencias'),sino que funciona como ~'intérprete)~ de las instrucciones procedurales almacenadas en la base de reglas. Cuando las reglas experimentan modificaciones, la conducta general del sistema cambia, debido a la conexión entre la base de reglas y el módulo ejecutivo. En las páginas siguientes, cuando hablemos de inducción automática nos referiremos siempre a la modificación de las reglas existentes e n una base de conocimiento y a la generación de nuevas reglas. La modificación adoptar5 la forma de revisión de parámetros tales como el factor de certidumbre de una regla. la enumeración de sus condiciones de activación,... . La generación de nuevas reglas se caracterizará por la generalización o especificación de las ya existentes. Ambos procedimientos conducen a la recombinación del conocimiento previo. Precisamente esa recombinación ser5 la que nos perrnita representar informáticamente el aprendizaje inductivo. Obviamente, cualquier procedimiento de recombinación de 10s elementos constitutivos del conocimiento depende de las técnicas empleadas para identificar esos elementos constitutivos. También se usa conocimiento heurístic0 para guiar la modificación y recombinación de reglas; por ejemplo: 10s rasgos presentes en las reglas que demuestran un alto poder predictivo son elegidos como candidatos para incluirlos en la condición o acción de nuevas reglas. En las páginas siguientes se presentaran distintos programas de ordenador que intentan responder a las dificultades derivadas del uso indiscriminado de 10s algoritmos universales de generalización automática. En otras palabras, programas que pretenden acomodar de una manera u otra el principio de Occam: entia ~zo?z sunt multiplicandapmeter necessitatem . El lector puede pensar que no son programas útiles, en el sentido en que eT arqueólogo no puede emplearlos tal cua1 para facilitarle la labor de investigación. Antes al contrario, se trata simular, reproducir por medio del ordenador. la actividad de un investigador en distintas disciplinas; de ahi que esos programas no superen el nivel de la ~~experimentación~,, Su función es, pura y simplemente. poner de manifiesto cómo debe utilizarse el razonamiento inductivo estándar en la investigación científica. Como la Ciencia no puede reducirse a la Inducción! esos programas son limitados, pero tan sólo porque son específicos. No pretenden reducir cl método científico a una mecánica simple, sino que ponen de manifiesto uno de 10s muchos mecanismos de razonamiento posibles. Los primeros intentos en esta linea (simulación informática del razonamiento cientifico) fueron 10s de Lenat (1777), si bien puede decirse que la Filosofia Computacional de la Ciencia empieza con las sucesivas versiones del prograilla t r h c o l (Langley 1979. Langley et al. 1987), sobre la base de 10s trabajos teóricos de H.A. Simon (1973; 1977). Estos programas fueron diseñados específicamente para estudiar la lógica del descubrimiento científico, reproduciendo experimentos clásicos de la Historia de la Astronomia. de la Física y de la Química. Dado que nunca se ha intentado algo semejante en Arqueologia, !a explicación que sigue quizás pueda parecer un tanto ajena al lector, aunque no por el10 pierde interés. Todos 10s programas de la familia BACOY consideran que el descubrimiento de leyes científicas en una población de datos es formalmente idéntica a la resolución de problemas por medio de algoritmos de búsqueda heurística. La misión de BACON y sus versiones sucesivas (de BAC ON.^ a BAC ON.^) es analizar la inducción de leyes cuantitativas que describan una población de datos numéricos. distinguiendo propiedades intrínsecas y prestando atención al ruido o error aleatori0 que pudiese existir. Las leyes inducidas o g'desc~ibiertas>) ponen en relación diversos términos. Precisamente, el ohjetivo de 10s programas es crear esos términos y encontrar alguna relación matemática que describa adecuadamente su relación mutua. Por ejemplo, supongamos que 10s datos se refieren a una secuencia de signos: El objetivo del programa es definir la ley o proceso que ha dado lugar a esa secuencia: una lista alfabética normal interrumpida cada tres signos por la letra M. Arqueológicamente hablando, supongamos una secuencia de cerámicas, de buriles. o de cualquier otro artefacto, descritos por medio de variables morfométricas; el objetivo del programa seria encontrar el sentido do'^ de la secuencia: una seriación cronológica, por ejemplo, expre- CUADERNOS DE ARQUEOLOG~ MEDITERRÁNEA/TOMO I1 sandola por medio d e una ecuación maten~Ática.Ni que decir tiene que el programa ha de ser lo suficientemente sofisticado para saber si la ley o principio identificado se ajusta a esa secuencia, o bien, la secuencia misma es meramente aleatoria y no tiene sentido en ninguna Teoria Científica dada. Por ese motivo, el criterio de validez d e la ley descubierta es, simplemente, su ajuste a 10s 'latos iniciales, ajuste clefinido por medio d e ciertos criterios heuristicos de aproximación incorporados al programa conlo pardmetros. Desde el punto de vista de su implernentaci6n informitica, HACON y SLIS derivados son pí-0g~ama.sdeclaratiz~os,esto es, se componen exclusivamente de reglas de prociucción. Las concliciones de esas reglas describen 10s objetivos del sistema o 10s esquemas que pudieran aparecer en los datos; sus acciones respectivas son las que contienen 10s operadores de creación y modificaciOn de nuevos terminos. La primera versión del programa, B A C O ~ . es ~ , capa2 de descubrir una ley que describa la relación entre dos terminos cuantitativos. Una ley arqueológica de este tip0 es la ley del decrecirniento inonótono (Renfrew 1977) que relaciona dos términos cuantitativos, la nrsrANcrA, y la CANTIDAI) DE MKI.ERIA I-'U~MApor medio de una funcion mon6tona ciecreciente, cuya ecuación es: Que la formulaci6n de la ley del decrecirniento mon6tono en arqueologia presente innumerables dificultades y haya dado pie a bien fundadas criticas (cf. Djindjian 1991) es otra cuestión, que no nos interesa en este momento. Consideremos tan solo que se trata de un ejernplo arqueol6gico de ecuaci6n simple. El programa contiene dieciseis reglas de producción agrupadas en cuatro bloques. El primero de ellos se encarga de disponer 10s datos de una forma especifica: inicializa 10s térrninos que se enlpleardn en la definición de la ley. El segundo bloclue (<(Generadorde Regularidades,') examina 10s pales d e tki-minos creados por el bloque de reglas inicial y comprueba la presencia o ausencia de ciertos tipos de regularidades: linealidad : si 10s tCrminos estin relacionados proporcionallnente * ivzcre~neizto: si las magnitudes de amhos ter~ninosexperiinentan un crecimiento monótono ~iecrecimie?lto : si las magnitudes de uno de 10s ter~ninosexperimenta un crecimiento monótono, mientras que 10s valores del otro termino decrecen constuncia : si Lin termino resulta (aproxirnadai~~ente) constante. Según sea el tipo de regularidad encontrado, el tercer bloque de reglas define nuevos términos teoricos (nuevos conceptos) y calcula sus valores a partir de 10s terminos iniciales. Por ejemplo, por nledio de reglas d e proclucción como estas: SI Y Y Y Y ENTONCES SI Y Y Y Y ENTONCES se buscan leyes se dispone de un conjunto de valores para el termino X se dispone cle un conjunto de valores para el término Y 10s valores absolutos de X experiinentan un incremento cuando 10s valores absolutos de Y tamhien lo experimentan esos valores no estdn relacionados linealmente considel-ar el cociente de X e Y se buscan leyes se dispone de un conjunto de valores para el termino X se dispone de un conjunto de valores para el termino Y 10s valores absolutos de Xexperimentan un incremento cuando 10s valores absolutos de Y experimentan un descenso esos valores no est5n relacionados linealmente considemr el producto de X e Y Según esto, el resultado de 10s operadores cocrwrt; y monr:cTo es un nuevo tkrmino, susceptible de aparecer e n la ley cuantitativa que se desea inducir. La regla correspondiente se aplica inmediatamente después d e una de las anteriores: ENTONCES Y se ha de considerar el producto (o el cociente) de X e Y la definición de Xes D, la definición de Y es D, no existe ningún término cuya definición equivalga a XY (6 X / Y ) define el término T como D,D, (6 D, / D,). calcula 10s valores de T (iniciándolo desde 1). Y Y Y ENTONCES se han de calcular 10s valores del término T la definición de Tes DT AP es uno de 10s componentes de D, 10s valores de A son a , ....a, , multiplicar 10s valores actuales de T por a? ....A$ SI Y Y Y Cuando como resultado de la aplicación de las reglas anteriores se obtenga un término nuevo que tenga valores constantes o casi constantes, se detendrá el proceso de inducción. Precisamente esta búsqueda d e constancia e n 10s términos o conceptos inducidos es 10 que permite reducir la influencia del ruido o redundancia que pudieran existir en 10s datos iniciales. En definitiva, BAC ON.^ no busca el conjunt0 de asociaciones que pudieran existir entre 10s individuos analizados, sino que su función es generar un concepto nuevo a partir de un número limitado de regularidades hipotéticas predefinidas, siempre y cuando 10s individuos y las variables iniciales cumplan ciertas condiciones, a las que denominamos heurísticas. El concepto a generar tiene una forma predefinida, 10 que obliga a que su inducción sea el resultado de una serie de operaciones sucesivas, que incluyen, además, la creación de sub-términos o sub-conceptos necesarios para la formación del concepto. De este modo, la creación de conceptos e n BACON adopta la forma de una progresiva combinación de propiedades, entre las que cabe distinguir entre propiedades independientes y propiedades dependientes. Las primeras son aquellas definidas al principio y que caracterizan la Base de datos (por ejemplo, DISTANCIA, INTERACCION); las propiedades dependientes son aquellas que implican una combinación de las anteriores (por ejemplo D/I, D 2/1, D 3/1 ). El mecanismo es exactamente el mismo que el presentado en el primer capitulo y que hacia referencia a la descomposición de 10s problemas cientificos: el objetivo (estado final del problema) es resolver la ecuación: El estado inicial del problema está constituido por el listado de valores de las variables X e Y. Los estados intermedios del mismo problema están configurados por 10s distintos calculos que hay que realizar para despejar las incógnitas en la ecuación. En muchos casos, esos estados intermedios adoptan la apariencia de conceptos, por ejemplo: el cociente Xi/ I: , el producto X, * I: . El problema de la inducción, esto es, el criteri0 utilizado para detener la ejecución de 10s algoritmos, es también heuristico: la existencia de términos constantes. La estructura de control en BACON es, por tanto, un sistema de producciones o programa declarativo, e n donde todas las reglas aplicables a una situación dada son activadas, pero s610 una es ejecutada. La acción de esta regla induce ciertos cambios en la memoria de trabajo, esto es, e n la configuración inicial de variables (por ejemplo, calcular 10s valores de la propiedad dependiente X, * Y, ), o bien crear una nueva propiedad dependiente ( X , / a partir de X y de Y ) . Una vez transformado el estado anterior del problema, el proceso de activación empieza otra vez, ejecutándose nuevas reglas que se ajusten a la situación actual. La mayoria de versiones restantes de nAcoN son extensiones de este esquema. Asi, HAC ON.^ es capaz de definir leyes polinómicas, m i s complejas que las encontradas por BAC ON.^, al incorporar las regularidades secuenciales a 10s tipos de regularidad que debe buscar. BAC ON.^ acepta datos múltiples y no tan s610 pares de valores, incorporando a su vez diversas heuristicas que controlan la búsqueda de forma sistematica. BAC ON.^ es capaz de identificar propiedades intrinsecas asociadas a términos nominales. BAC ON.^ detecta la simetria de las leyes producidas, 10 que reduce drásticamente la búsqueda de soluciones idóneas. Otros programas estrechay DALTON, capaces de analizar datos cualitativos y de inducir expresiomente relacionados son STAHL, GLAUBER nes lógicas (a diferencia de BACON, que s610 genera ecuaciones a partir de datos cuantitativos). .BACON y sus sucesores no están basados en una concepción inocente del método inductivo. De su funcionamiento se deriva una concepción muy distinta de la filosofia inductiva y de su relevancia e n la investiga- ción científica, muy e n linea con la revisión de la filosofia de Francis Bacon (1561-1626) emprendida por Peter Urbach (Urbach 1982, 1987, Gibbins 1 9 0 ) . Según este autor. las críticas vertidas a Bacon (el filósof~y n o el programa) son infundadas. El Francis Bacon descrita por Urbach se parece curiosalnente a Popper: aunque Bacon oponia la int~rpretationaturae a la a?zticipntio nzelqtis, nunca se opuso ai razonamiento por medi0 de hipotesis, sino que se oponia al predomini0 de las hipotesis sobre la in~estigaci6nempírica. En otrds palabras: el razonamiento por hiphtesis no debia sustituir al analisis empirico, 10 que nosotros podeliios caracterizar como bílsqueda de regularidades o definicicin del esquema de co-ocurrencias existente e n una base d e datos. BACON (el programa) pretende integrar la '-interpretacihnde la naturaleza'>con la "anticipación de la mente)>que Bacon (el filosofo) diferenciaha. De lo que se trata es de ilnpletnentar un razonatniento hzpotético-inductiuo, capaz de plantear conjeturas y refutaciones. Sus conceptos -expresados hajo la forma de ecuaciones son generados gracias a un illecanistllo explicito (conjetura) !- a continuaciAn refutados con a)-uda d e 10s datos iniciales. Lo que hace que el programa parezca un mecanisme inductiva simple es la manera e n que se conjeturan 10s conceptos: no como hiphtesis deductivas. sino por medio de heuristicas especificas. La característica anti-baconiana presente en esos progratnas es la prioridad dada a la '#anticipatio>': s;\con ha sido programado junto con una teoria especifica -que una ecuaci6n de la forma X " ' k'" = cot~stulztees válida-. ?Por que este formato es lllás adecuado que otro? El programa no puede dar una raz6n. ya que esa .(anticipatio))es totallnente externa a la '-interpretatio)> buscada. Ahora bien, "externa'>no quiere decir <gajena'j:esas '~anticipaciones)> proceden del conocimiento que tiene el programador acerca del doininio al que se refieren 10s datos. j- son utilizadas por el programa como estructuras de control y asistencia para poder desarrollar una investigacihn *empírican.El progranla es lo suficientemente fiable como para tener razones para sostener que el concepto asi genertido es "real)), y no fruto de un capricho de la máquina. La implementacihn de 10s programas de la familia BACON presenta bastantes lirnitaciones. inuchas de ellas mencionadas por sus propios diseñadores (Langley et al. 1987) y por otros autores (Vl;all<er 1987. Ilaase 1989, Cheng 1990). Algunos de estos problemas han sido abordados e n uno de 10s sucesores de B.%CON, el programa FAHREKHETT (Koehn y Zytkon- 1986, ZJ-tkow 1987). Este programa utiliza u a c o ~ . 3como subprograma. de manera que es capaz de definir las mislnas leyes que u . A c o n , pero con una particularidad: es capaz de definir el rango de valores e n 10s que la ley es viílida (e11 ter~ninosde las \-ariables que se refieren a la ley, claro está). Asi, e n el caso de un ejemplo arqueolbgico, una ley o illodelo general no tiene por que ser aplicable a todos 10s artefactos hallados e n un yacimiento o e n un sector del yacimiento. sino que su 5mbito cle aplicabilidad se reduce a un tipo determinado. La limitaciOn del programa es que ese tipo de artefactes para 10s que es aplicable ha de definirse en terminos de las variables que definen la ley (por ejemplo, longitud, diinletro ~náximo,peso, ...I lo cua1 no sieinpre es evidente. FAHRENHEIT constituve un avance con respecto a la Familia de programas BACON ya que no s610 es capaz de encontrar leyes, sino que tanlbien puede especificar dónde es rálida esa ley. N o obstante, esta capacidad no debiera confundirse con la identificación de 10s ((valoresde verdad') de la ley. La descripcion del espacio de aplicabilidad de una ley caracteriza tan s610 otro de los aspectos de ese modelo, y no la justifica. , embargo. no soll imputables a su implement:rción, sino Muchos de 10s limites y deficiencias de u i l c o ~ sin al tipo de razonamiento que pretenden reproducir, lo que Gibhins (1990) ha denominado Baconianismo Cornputacional: cómo asegurarse la relevancia d e las variables independientes que se utilizan e n la definicion del término o concepto a inferir. Inteligencia Artificial y Práctica Arqueológica Aunque la utilización de las técnicas de Inteligencia Artificial no est5 muy difundida en la Arqueologia actual, podemos mencionar algunos ámbitos de nuestra disciplina que han de beneficiarse, necesariamente, con 10s actuales avances e n tecnologias de programación de ordenadores: Los análisis estadisticos (uni- y multidimensionales) no tardarán en ser sustituidos por las técnicas de Inducción Automática, utilizadas en la actualidad como útil exploratorio en grandes bases de datos. Ventajas: facilidad de uso, sencillez para interpretar el resultado del análisis (Reglas vs. Ecuaciones), ausencia de parametrización y no dependencla con la Curva Normal Tipologias Automáticas: El uso de Sistemas Expertos constituye la alternativa más evidente a las listas tipológicas, ya que permiten acumular más datos. su lectura no es ambigua, y gestionan incluso la posibilidad de excepciones Tratamiento de imágenes. En Arqueologia todo es imagen, desde la microfotografia del desgrasante de una cerámica hasta la planimetria de una región. pasando por la forma y decoración de 10s artefactos. la disposició11 micro-espacial del registro espacial y las secciones estratigráficas. Hasta ahora esas imágenes tenian que traducirse en un lenguaje descriptivo que en la mayoria de 10s casos demostraba sus limitaciones debido a su dependencia con respecto a la subjetividad del que hacia la descripción. El uso de Redes Neuronaies y Sistemas Distribuidos permitirá, a partir de ahora. el análisis directo de las imágenes, sin tener que pasar por la fase de la codificación descriptiva en variables y atributos. No obstante estos avances "reales'>en el ámbito practico, en este libro se han presentado algunos proyectos recientes que intentan ir más allá, pretendiendo simular la manera en que piensan 10s arqueólogos. El propósito de estos programas es estudiar 10s mecanismos cognitivos subyacentes en el razonamiento arqueológico, visualizando el razonamiento en si. Cada uno de estos proyectos se inscribe de lleno en 10 que podríamos denominar Arqueologia Automatica : una subdisciplina encargada de poner de manifiesto la manera en que 10s arqueólogos interpretan sus datos. El razonamiento científic0 es un mecanismo inobservable, del cua1 s610 conocemos sus efectos (las interpretaciones). Por consiguiente, un método de uisualizar el mecanismo de producción de las interpretaciones debiera ser bienvenido. La Arqueologia Automática utiliza medios computacionales para cumplir ese objetivo. Su supuesto básico es el siguiente: si somos capaces de programar un ordenador como si fuese una persona, empezaremos a comprender cómo actúa esa persona. Algunos pueden pensar, sin embargo, que un programa simulador^' funciona de manera sensiblemente distinta a la del arqueólogo. La diferencia, sin embargo, ha de entenderse en 10s términos de una Teoria de la Representación: el programa informático hace las veces de modelo o representación del mecanismo de producción de interpretaciones arqueológicas. Ese modelo no tiene por qué ser idéntico a su objeto de estudio, sino que existe una determinada relación de correspondencia entre 10 representado y la representación. Las caracteristicas y propiedades de esa correspondencia dependen de 10s propósitos para 10s que se haya creado dicho modelo. A continuación, y como conclusión a este libro, recapitularemos la manera de representar el mecanismo de inferencia arqueológica por medio de técnicas de programación de ordenadores. CUADERNOS DE ARQUEOLOG~MEDITERRÁNEA / TOMO I1 La Naturaleza de 10s Problemas Arqueológicos A lo largo de este libro se ha mantenido colno axioma fundatnental que toda interpretacibn, todo significado, no son mas que la solución a Z L I Idetel*minadoproblen2aaS610 hay un modo de resolver este tipo de problemas: disponiendo de un conjunto de soluciones posibles alternativas (p.e. cronologias que puede tener un objeto arqueológico) y clecidiendo cu51 de ellas es la mis apropiada en el caso en cuestión, s e g í ~ nciertos criterios bien especificados. Este conjunto de soluciones suele denorninarse ge~zerau'oro espacio del problema y representa una Teoria Científica. El estado inicial del problen~acoincicle con lo clue 10s 16gicos denominan explnnafzs,esto es, aquell0 que quereruos interpretar. El estado inicial de un probleina arqueológico es oL?\.io: el registro arqueológico, el artefacto o la disposición de artefactos que queremos interpretar. J; lo representaremos por medio de uila lista d e rasgos descripti\,os. La irzterpretació?~arclueológica coincide, ob\,iarnente, con la solztció~lal problema arqueológico que hemos planteado. En este caso, hacemos referencia al expla~za~zdzrnz , que denominalllos estadofinnl del problema. Cuanto miis generales sean 10s ter~ninosque describen esa solución, tanto m i s amplio sera su 5mbito de aplicación. 1- responderrí a 1115s problemas. Ahora bien. para que una uniclacl de conocimiento asi caracterizada sea realmente una solución precisamos de un conjunto de criterios de validación o recluisitos para ziceptarla como viilida; ese conjunto de requisitos constituye el ohjetico , que puede ser definido e n t6irininos sencillos como: '<ayuelloque desea obtenerse.. Necesitainos, aderniis, de un conjunto de operadores, definiclos. a su vez, corno '(unidades de conocimiento necesarias para alcanzar un firi)'. Nos referiremos, por tanto, a un ot3jetivo cuando detectelllos una '.falta de informaciónj) para obtener algo: por su parte. 10s operadores cleterminahn las manera de <<usafi, cierta inforrnaci6n con el fin de llenar ese \-acío de conocimiento. Aceptando la identidad ciel mecanisino de producción de interpretaciones con el mecanismo d e resolución de problemas, afirmaremos que los datos aryueológicos se interpretan por medio de una operación de busquedu : tanto el arqueólogo como el prograrua de orclenador que resuelve automiiticamente problernas, son cap c e s de hllscarla interpretación o estado final que corresponde a la descripción ernpirica o estaclo inicial facilitado por el usuario. Segí~nel tipo de problema, la operaci6n de bí~squedaser% distinta: Proble??~a.sdr. Diagl~l~ristico (cf. Torasso y Console 1989): se parte de un conjunto de interpretaciones alternativas totalmente conocido y se trata de seleccionar uila de ellas, utilizando para el10 diversos criterios que reduzcan la bírsqueda a unos limites computables. P~*ohler?zas de Dise~io(cf. Bron-n y C1~1ndrasekar:in1989): se trata de corlstruir la interpretación de ciertos datos a pal-tir de una serie de restricciones que cleben ser satisfechas. El conjunto de interpretaciones posibles es, en este caso. desconocido, y hay que generar10 basiindose en las restricciones. La operación de bí~squeda,por tanto. no se realiza entre las interpretaciones candidatas, sino entre 10s operadores -cual es el m5s conveniente para transformar el estado actual en un estado intermedi0 que cumpla 10s requisitos-. Asi pues, computacionalrnente hablando. la interpretación de un artefacte arqueológico empezari siempre con la identificación de la dificultad que dehe resolverse (el objetizlo ). Una vez definido el objetivo recurrimos a la informacihn disponible (conocimiento pre\,io) y construiruos el estaclo inicial sobre el cua1 aplicaremos el operador o 10s operadores necesarios. Recut.rdese que la dPscr-ipcidllno es una operación neutra, sino que depende de la teoria a nuestra disposicicin, a d e ~ n i sde 10s objetivos que hayarnos formulado. A continuacibn estimamos la diferencia existente entre nuestro punto de p:irtida y el punto al que queremos llegar (el objetivo) analizando las relaciones de similaridad existentes entre el estado inicial y el estado final del problema. Dado que ambos son uniclades de conocimiento representadas de la m i s m manera, esa estirnacihn, aunque cornpleja debido a las distintas modalidades. es comp~~tacionalinente factible. El procedimiento u operador que seleccionemos para geizel+arla iilterpretacihn tendr8 que reducir esa diferencia, permitiéndonos ir del punto de partida hasta el punto de llegada interpretación. al conocimiento Tanto el estado inicial corno el estado filla1 de ese proceso han sido rc.prese~ztudosgracias previo que disponemos. Sin ese conocimiento. la representzici6n no hubiera sic10 posible y la interpretación n o hahría tenido lugar. Este principio eclui\,ale a decir que si11 z4na Teoria Cie?zt<fi.cn~zopuedeexistir interpretació?~ Por consiguiente. necesitamos conocimiento para definir la situaci6n en la que se ha deteca~*qt~eológicu. tado una dificultad. y necesitamos conocimiento para resolver esa clificaltad. El estaclo inicial esta de un modo AROUEOLOG~AUTOM~;TICA. INTELIGENCIA ARTIFICIAL EN A R Q U E O L O G ~ u otro implícit0 e n el enunciado del problema, es decir, aparece determinado por el objetivo a resolver y por el conocimiento previo que se dispone; (<representar.la situación inicial, por tanto, equivale a describirla. Representar el resultado, sin embargo, exige construir un conjunto de soluciones posibles a partir de un conjunto de conocimiento previo. Gran parte de la eficiencia del procedimiento de resolución estará basada en la (construcción), de ese conjunto, es decir, en el isomorfismo entre las soluciones posibles y el conocimiento del cua1 proceden. Dado que 14nterpretamos'>por medio de la aplicación de ciertos cálculos lógicos (10s operadores ) concluiremos que la interpretación de un artefacte arqueológico debiera ser una función de su descripción empirica. La demostración de este principio es sencilla, ya que aparece como una consecuencia de la caracterización de 10s mecanismos de resolución de problemas en términos de búsqueda y selección de la mejor solución posible: dada una dificultad concreta (objetivo), la solución depetzderá de la situación en la que se haya identificado esa dificultad. Por tanto, la solución concreta que obtengamos habrá de estar determinada por el estad o inicial que hayamos empleado como punto de arranque del procedimiento de solución. Concluiremos, entonces, que la relación existente entre estado inicial y estado final o solución coincide con la aplicación de un operador. En realidad, ese operador se limita a representarla función entre ambos, traduciéndola a un formato ejecutable, esto es, como una secuencia ordenada de reglas, acciones e instrucciones. Esa relación (y el operador que la representa) es un elemento de conocimiento cientifico, que forma parte del conjunto de conocimiento en el que se ha enunciado el problema, el estado inicial y el conjunto de soluciones posibles. Ahora bien, la relación entre un dato arqueológico y su interpretación, no tiene por que ser una relación formal o matemática. Existe una gran diversidad de funciones o relaciones posibles entre el estado inicial y el estado final de un problema. No olvidemos que 10s problemas surgen de la identificación de cierta dificultad; por 10 tanto, la relación entre un estado inicial y un estado final no es nunca obvia, sino no se llamaria dificultad. Precisamente el punto clave en la resolución de un problema radica en determinar si existe o no alguna relación entre 10s datos iniciales y la solución propuesta. En la vida cotidiana, pocas veces nos molestamos en definir esa relación; pues actuamos por ensayo y error o bien recurrimos a nuestra experiencia: si la situación es semejante a alguna antes experimentada, actuaremos de igual forma que lo hicimos en aquel momento. La interpretación arqueológica también est2 basada muchas veces en el ensayo y error, aunque 10 más aconsejable seria establecer la relación entre datos iniciales y concepto interpretativo experimentalmente. Una vez que se ha obtenido una lista de posibles operadores, se procede de nuevo por búsqueda y selección del más idóneo entre ellos, esto es. de aquel que mejor reproduzca la relación existente entre la descripción de unos artefactos y la interpretación más verosimil de 10s mismos. En definitiva, para poder buscar y seleccionar una interpretación, es preciso que antes busquemos y seleccionemos un operador, operación para la que necesitaremos, también, algun tipo de conocimiento previo que nos permita realizar esa selección con ciertas garantias de éxito. No hay manera de construir un operador que busque e n un conjunto infinit0 de soluciones o interpretaciones posibles, porque esa búsqueda no acabaria nunca. En Inteligencia Artificial denominamos a esa dificultad explosión combinatoria, y suele resolverse recurriendo a una serie de condiciones o heurísticas que progresivamente limitaran la cantidad de operadores posibles y que, finalmente, permitirán elegir el mas adecuado. El procedimiento es aparentemente simple: en cada una de las etapas de la resolución se compara el estado actual del problema con el estado final del mismo (si es conocido) o con ciertas condiciones previamente enunciadas que debe cumplir ese estado para poder ser considerado la solución; a continuación se lleva a cabo una operación que permita reducir la diferencia entre el estado actual y las caracteristicas del estado final. El uso de este procedimiento heuristico permite al agente encargado de resolver el problema avanzar reduciendo progresivamente la distancia a la solución y evitando el uso de estados del problema que aumenten esa diferencia. Una búsqueda heurística es un procedimiento que aplica pasos plausibles para navegar en un espacio de alternativas inmenso, con el fin de conocer la mejor (o una colección de las mejores) alternativas para cierto propósito. Lo que convierte a esta búsqueda en heurística es que el procedimiento no garantiza que el resultado sea la mejor de todas las alternativas, o una colección que incluya la mejor alternativa, si bien el procedimiento se aproximar5 bastante a ella, de acuerdo con cierto criterio. Ese criterio puede que no sea muy riguroso y que no siempre proporcione una solución óptima, si bien esta ser5 la mejor que se puede obtener, muy superior a la que se habria logrado sin una bí~squedaheurística. Se insiste en aquello que es alcanzable y suficientemente bueno, prescindiendo de lo que es Óptimo, pero inalcanzable. La idea de heurística aplicada al razonamiento cientifico no tiene nada de insólito: ciertas HIPOTESIS VEROSÍMILES organizan el proceso de resolución de un problema cientifico, reduciendo el espacio de dicho problema El operador abductivo por excelencia es la analogia, aunque 10s 16gicos señalan también el interés de 10s siguientes: igualdad, simetria, homologia, desigualdad y referencia. Asi, dos estados de un problema estarán asociados: si puede establecerse alguna correspondencia heurística entre ambos, si son semejantes, si un estado intermedio hace referencia a otro en su representación. Mas de un lector preguntara por que son tan dehiles, forn~almentehablando, las asociaciones que configuran una cadena de inferencias. La razón estriba en las caracteristicas del mecanismo he~~ristico de producción de interpretaciones desarrollado e n la secci6n anterior. La operación de búsqueda de la gmejor solución posible. no puede implementarse mediante un algoritmo de tipo polinomial, es decir, no existe ningún procedimiento que nospermita averiguar, en zrn número finito de pasos, la idoneidad de u n a inte~pretacicindada cierta información empírica inicial . Tanto 10s especialistas en 16gica como en informdtica le han dado niuchas vueltas a este corolario de 10s Teoremas de GBdel y de Church, y han llegado a la conclusión que no hay una respuesta.formal al tnismo. aunque si la hay heurlstica: el mecanismo de resoluci6n de un problema debe irnplenientarse en terminos de un conjunto finito de operaciones independientes, cada una de ellas con sus propios criterios heuristicos de validez. Ese mecanismo serií muy diferente según utilicemos un modelo proposicional de representacihn o un modelo topológico. En el primer caso, el modelo proposicional de representación, el mecanisrno de razonamiento que utilizaremos para generar una interpretación arqueol6gica adopta el aspecto de urla secuencia de operaciones 16gicas muy sencillas, ninguna de las cuales por si misma, es 10 suficientemente sofisticada para generar por si sola la interpretaci6n, si bien, el esfuerzo combinado de todas esas operaciones permite construir un estaclo final aceptable. Es decir, un gran número de operadores ahductivos muy simples '<activa>> las distintas unidades de conocimiento que configuran la cadena de inferencias. Dado que en esa cadena las unidades son muy distintas entre si, las -condiciones de activación))diferiran de unas a otras, teniendo en cuenta, ademiis, el orden o situación de cada unidad en la cadena de inferencias. Se necesita, por tanto, una ~~reacci6n e n cadena>.para poder =activar),la interpretación, ya que estamos obligados a usar como conocililiento previo las unidades de conocimiento que han sido activadas previarnente. En terminos computacionales, esa reacci6n en cadena es el resultado de la ejecuci6n de un mecanismo de propagacicin de la,funcici?zde activacicin. Ese mecanismo puede llegar a ser bastante complejo, computacionalmente hablando. ya que depende del o ~ d e nde las unidades en la cadena de inferencia 4 cua1 depende, a su vez, de la naturaleza de las diferencias entre las distintas unidades-, asi como de la naturaleza de la funci6n de activaciOn de cada una de ellas; por lo general se trata de una funcicin cualitativa (acumulación simple de unidades de conocimiento de menor nivel) y, por lo tanto, discontinua, que enumera 10s estados intermedios del problema -activados>'entre el estado inicial y el estado final En el caso de la representaci6n topológica de las inferencias, las asociaciones entre unidades acloptan otro aspecto, lo que condiciona el tipo de cadena cle inferencias obtenido. La excitación (equivalente a la ~~acti\~ación,, proposicional) de uno de 10s elementos de procesamiento (~~neurona~~) que configuran la red neuronal, es el resultado de la excitaci6n de un número x de neuronas anteriores, asi corno de la existencia de conexiones excitatorias (conexiones con un peso elevado) entre unas y otras. Ahora bien, esa funci6n -continua y no lineal, a diferencia de la ~activación~) proposicional- no transfiere información declarativa: el valor excitatorio de las neuronas y de sus conexiones no tiene sentido fuera del entorno de prc?gramaci6n. llor consiguiente, las asociaciones abductivas no tendr%n que buscarse entre las neuronas, sino entre 10s vectores de excitación. Por ejemplo, para interpretar neuronalmente la función de un útil litico hemos de traducir previamente la asociación proposicional -miis intuitiva(Rasgos descriptivos (x), (y), (2)) Raspador Carenado e n un vector de elementos excitados y pesos de sus conexiones respectivas. Ello se realiza mediante ciertas ecuaciones que tienen en cuenta el número de ejemplos y de rasgos que descrihen 10s raspadores carenados conocidos. Siempre que introduzcamos la misma lista de rasgos descriptivos, '~excitaretnos~~ el mismo vector de excitaciones que representa aquella interpretacii~naprendida,' por el programa a partir del anslisis de un determinado número de ejemplos de raspadores carenados. Obsérvese que se ha estableciclo una relación de analogia entre el conjunto de rasgos descriptivos (estimulo) y la respuesta generada por el sistenia. Que esa '<res- puestal) esté representada topológicamente (en términos de un vector de excitaciones) no afecta al contenido de la analogia. La cadena de inferencias, en este caso, tiene tan solo un estado inicial y un estado final, sin estados intermedios. El inconveniente es que la interpretación ha tenido lugar en una caja negra: a no ser que el investigador sea un matemático avezado, no podrá visualizar el mecanismo que ha establecido las asociaciones. Los enlaces o asociaciones que definen una cadena de inferencia son, en realidad, unidades de conocimiento en si mismas. Su significado suele definirse en términos 'gexplicativos>'.Es decir, dos unidades de conocimiento estan asociadas cuando una de ellas explica a la otra. Tradicionalmente la definición rigurosa del término explicación se ha resistido a 10s intentos de la mayoría de filósofos de la ciencia. Si seguimos a un autor como Paul Thagard (1989) tendremos que admitir que lo que nos ha conducido a establecer una ~~conexión~' explicativa son motivos meramente prácticos: A explica B porque A cumple ciertos requisitos. Esos requisitos pueden ser muy diversos, formales o cuasi formales o bien derivados del objetivo fornlulado al enunciar el problema interpretativo (en ese caso 10 denominaremos requisito heuristico). Lo cierto es que no existe una definición formal (y, por tanto, computable) del termino explicación . En ausencia de una definición operativa debemos trabajar baio el supuesto -probablemente erróneo- que una explicación equivale a una asociación objetiva, e n donde el adjetivo c(objetivo>' no hace referencia a ninguna verdad universal, sino tan s610 al ajuste entre las condiciones de activación de una unidad de conocimiento ~7 el objetivo explicito con el que se formula el problema. El punto de partida de la Arqueologia Automatica es que el <<razonamiento científico~~ no es más que un conjunto artificial de mecanismos y operadores asociativos muy diversos. Ni podemos referirnos a el como la sublimación del sentido común, ni tampoco podemos reducirlo a un conjunto de operaciones formales sin significado. Parafraseando a Paul Feyerabend, en el razonamiento científic0 dodo vale~l,cualquier operador que nos permita asociar distintos estados de un problema ser2 bienvenido. siempre y cuando la relación entre información empírica 71 la interpretación se haya puesto de manifiesto. No hay bases cognitivas ni formales para justificar un modo de conocimiento, sino tan so10 motivos prácticos. Deducción e Inducción en el razonamiento arqueológico Hasta no hace mucho se creia que una cadena de inferencias estaba constituida, necesariamente, por unidades de conocimiento asociadas deducticamente (Watson et al., 1971). Uno de 10s resultados de la arqueologia automática radica, precisamente, en señalar la naturaleza heurística, y por tanto, no obligatoriamente deductiva, de las asociaciones que configuran la cadena de inferencias. Ello no significa, sin embargo, que las deducciones no tengan utilidad en el razonamiento arqueológico. Los investigadores en Inteligencia Artificial y Psicologia Cognitiva han contribuido a redefinir lo que la Lógica Clásica entendía por deducción (cf Blasius y Burckert 1989, Johnson-Laird y Byrne 1991). Un razonamiento deductivo correcto es aquel cuya conclusión es verdadera en cualquiera de las situaciones en las que la premisa es verdadera; por tanto. denominaremos deducción a un tip0 de asociación entre dos unidades de conocimiento caracterizada por establecer una relación de consecuencia lógica (implicación) entre ellas. En otras palabras, entre arnbas unidades existe una relación necesarza que nace en la propia definición de las unidades y no de una condición heurística externa impuesta por el investigador. Para poder establecer esa relación de consecuencia entre ambas unidades, es preciso que la segunda de ellas (la unidad deducida ) contenga explícitamente cierta información que ya existia. aunque de forma implicita, e n la primera de ellas (la premisa). A diferencia del razonamiento abductivo, el razonamiento deductivo es incapaz de crear nueva información, tan s610 vuelve explicito 10 que antes se conocia de forma implícita. Es fácil reproducir este tipo de razonamiento en un ordenador; basta con que implementemos el mecanismo lógico denominado modus ponens : El Estado inicial del problema que se caracteriza por la presencia de 10s rasgos descriptivos (x) (y) (z) est5 siempre asociado a un Estado Final caracterizado por 10s rasgos (a) (b) (c) Entonces, Dado cualquier estado inicial que contenga 10s rasgos (x)(y)(z) Deduciremos, La interpretación de (x)(y)(z) es (a)(b)(c). Si Obsénrese que para establecer una asociación deductiva es preciso que esa asociaci6n haya sido validada preuiamente. No basta con que conjeturemos heuristicamente la asociacion, ni que ereamos que es la mejorp de todas Ias posibles; hemos de estar seguros que e n ningfin caso encontraremos una interpretación inejor. Para estar seguros de una afirmacián es necesario que demostremos Ia verdad de cada una de las instancias de esa informacicin. ;Pero puede haber infinitas instancias! No hay ordenador ni cerebro humano capaz de analizar uno por uno todos 10s contextos posibles en 10s que determinada infornxlci6n cleba ser. necesarkarnente, verckadera. Por tal motivo. tanto 16gicos como informiticos recurren a ciertos principios que reduzcan de algun moáo la e\,aluación de Ia #verdad. de una asociación deductiva: o recurriendo a reglas formales que \,aliden sintgcticamente la validez de la asociación. Siempre que El lenguaje de programae1 fazonamiento reproduzca esa sintaxis 10 consideraremos .<verdadero>>. ci6n PROLOG. por ejemplo. implementa el llamado Teorema de la ResoluciOn de Robinson (una de esas reglas formales). recurrienclo a reglas semiínticas fijas, esto es, reglas cuyo contenido sabemos \lilido. Se trata de una v-driante del nzod~tspo~tms . recurriendo a una sirnulaci6n del contenido de la asociacicin (Johnson-Laird 1983): - se construye un modelo explicito del conocimiento contenido en las premisas - se construye un modelo explicito del conocimiento e n el consecuente. - se intenta unir ambos modelos, analizando su compatibilidaci (ausencia de contradiccionesj. L3 apl~caci6nd e alguno de estos mecdnismos de asociaci6n nos perinite establecei, autonliticamente y sin necesldad de pruebds ultenores. Ia vahdez e icloneidad de la lnterpietaclon generdd~hhora bien. SI este rnecan~srnode asoclacion fue* el Único rnodo de coinbmar ~nformacihn,la n l ~ y o rpaite de problemas arqueol6gicos quedarka sin resolrer. Si las concepros asoclados en una cacfena de interencias no cumplen las condtciones sguientes: 0 Ea aplicabilidad de la cancEusi6n ha de ser mayor o igua1 que Ia aplicabll~dadde las premlsas de las q u e ha sido deducida, nunca menor fa conclusidn n o puede afirmar algo que se haya afirinado con anterioridad Fa canclust6n ha de afirmar algo que no esté explicito baunque, necesariamente debe estar Implicito) e n eI enunciado de las premlsas ntngun~rinterpretaclon pur falta de con* diremos que d e la infornlacicin empirica inlc~alno puede dedz~~z~*se cimrento fiable (expenmentalmente vAllcEo) Ello no qulere decir que ese estado inicla1 no sea interpretable, sina q u e ka valldez c k la interpretación (ohtenda gracias a 10s operadores abductivos) no se derir a exclz~szuame~~e de la descripci6n ~niclalTal v ccxno hemos visto en la sección anteraor, las inferencias no-deductn as (abductlvas) son rnucho más frecuentes. En ausencia de enlaces dednctivos que gamnticen formaImente que cada una de las unidades de conor ocupa el l ~ ~ gque a r le corresponde. tendremos que ueihzar cimiento que aparecen en la cadena de ~nferenc~as un critetlu heun'strco de vaIidación la interpretaclon generada tiene que ajustarse a 1'1s especificdclones del objetho dei prdrlema. Los obJetzt~osde nn problema sueken representalse por medto cle propvsiciones q u e hay q u e \,alidar. es dectr. por m d m d e preguntas Ahora bkn, ran s610 en e1 caso e n que dispongamos de una gmn cantidad de conocimiento bien estructurado podremos resalver el problema respondiendo a una sola pregunta. En la mayoria de las ocasiones. es preciso q u e hagamos una gran cantidacl de preguntas para p d e r encontrar la solución. Cuando se le plantea una pregunta al sistema, &te activa una de Ias unidades de conocimiento utilizand0 algun0 de los operadores asmiados específicamente a esa unidad. Si el sistema no puede decidir que operaclor es el que hay que utilizar, deberemos plantear a r a pregunta de rat modo que la respuesta r i ia misma proporcione fa información mcesaria para activar la solución a la primera que hemos formulado. En otras palabras, Ios '<fallosen Ia resoiucion dan lugar a que nas planteemos suhpoblmas cuyo objetivo es, precisamente, resolver la nueva dificultad aparecida reduciendo la distancia erltre el estado inicial y aI- ARQUEOLOG~ AUTOMÁTICA. INTELlGENCIA ARTIFICIAL EN ARQUEOLOG~ guna de las soluciones. Por consiguiente. para poder generar una interpretación precisamos d e un plan o secuencia de subproblemas. La apariencia externa de ese plan es la de una compleja red e n la que están integrados todos 10s subobjetivos, unidos entre si por medio de relaciones de '~cooperación~,, pues cada subproblema, con ayuda de 10s demás contribuye a encontrar la solución idónea al estado inicial. Los subobjetivos son unidades de conocimiento preespecificadas cuyo objetivo es, precisamente, i m p e ner un orden determinado en el flujo de asociaciones, esto es, en la propagación d e la función d e activación. Se trata de un conocimiento acerca del procedimiento para resolver el problema, antes que acerca de la solución correcta del problema; nos referiremos a 61 como meta-conocimiento. La secuencia de subobjetivos ha de estar deductivamente ordenada, de tal modo que un subobjetivo debe deducirse del antenor. Es precisamente esa secuencia deductius Ia que nos permitir5 validar la cadena d e inferencias que hemos obtenido abductivamente: cuando la cadena de inferencias reproduzca la secuencia de subobjetivos, e1 estado final d e la misma se ajustar5 con 10 especificado en el objetivo del problema. Aquí radica la noción de objetiuidad (ajuste con 10s objetivos) y no en ninguna esotérica verdad universal inmanente. Todas estas dificultades son exclusivas del modelo proposicionaf de representación de las cadenas d e inferencia. Muchos autores piensan que este modelo est6 fimitado por culpa de la necesaria unidimensionalidad del esquema de asociaciones. Sin embargo, hemos vlsto en la sección anterior que para interpretar 10s d a t a arqueológicos podemos (y e n muchos casos debemos) utilizar cualquier combinación de enlaces asociativos. Es precisamente la diversidad de 10s operadores asociativos necesarios para configurar una interpretación la que debiera prevenirnos antes de encerrarnos e n cadenas de inferencia con una estructura predefinida. ?Por qui. Iimitarnos entonces con el uso de estructuras de control de naturaleza deductiva. mucho m5s exigentes, formalmente, y que exigen grandes cantidades de conocimiento vglido, del cual carecemos en la mayoria de las ocasiones? Porque deseanlos estar razonablemente seguros que la interpretacibn e s adecuada, y nadie ha dicho que eI razonamiento científic0 tenga que ser sencillo. Ahora bien, ¿no existir5 algOn rnétodo d e validación que no exija tanto meta-conocimiento? La respuesta es negativa, dentro del modelo proposicional d e representación, pero afirmativa dentro del modelo topoIógico. La combinación de enlaces asociativos diversos debiera dar lugar a una estructura e n paralela o reticular y no a una cadena o secuencia de unidades. En esa estructura la función d e activación n o se propagaria unidimensionalrnente, sino que se distribuiria, e n infinitas direcciones. Obviamente. esas estructuras mujtidimensionales han de ser representadas mediante sistemas topológicos, esto es, zectores de excibación. Quizás el formato d e Las redes neuronales, tal y como ha sido expuesto en la sección anterior no sea e1 más conveniente, dada su poca transparencia, de ahi el modelo mixto diseñado por algunos autores. en el que hs aaeuronasw tienen contenido declarativo y las conexiones excitatorias representan la influencia c a u s 1 de las distintas unidades de conocimienro (Feidn~any BalEard 1982, Shastri 1988). Se trata de un sistema cuasi-proposicional, en el que el orden d e las inferencias puede establecerse matemáticamente a partir del peso de gos enlaces entre las neuronas (cf. Churchiand 1989). En tales circunstancias. el mejor modo d e calcufar el ajuste entre la interpretación y e1 objetivo es por medio de operaciones d e optimizackín , esto es, el cáfculo d e Ia mejor de todas las funciones continuas que relacionan eI estado inicial con ef final. No detaltaremos aqui las ecuaciones necesarias para optimimruna interpretación (cf. Pao 1989, Zeidenberg 1330). si bien podemos hacer ciertas apreciaciones: teómicamente esas ecuaciones son univmalmente udlidas, esto es, n o dependen del problema concreto que se pretende resolver, ya que hacen referencia a la sintaxis y n o a la semántica. Algunos algoritmos de optimización (por ejemplo el algoritmo de Kohonen) utiliza criterios formales muy estrictos. segun Ios cuales la mejor solución es aquella que adopta una estructura matemática determinada, usualmente basada e n Teoría de las Probabilidades. Obviamente esa solución nos devuelve a la polémica positivista acerca dei uso d e reglas sintácticas para demostrar la verdad d e las afirmaciones científicas. Por otro lado, 10s algoritmos mris comúnmente usados e n la programación d e redes neuronales (el algoritmo de retro-propagaci6n) exigen iarnbikn meta-conocimiento. Ese &onocimiento acerca del problema2)es muy distinto del que necesitábamos en el caso proposicional: e n lugar d e desarrollar el pian del problema (secuencia de sub-objetivos), se precisa de un conjunta adecuadamente grande de ejemplos a partir de 10s cuales puedan calcularse las propiedades topológicas de la solución óptima. Hasta ahora no hemos mencionado para nada el razonamiento inductiuo, fundamental para muchos arqueólogos (Clarke 1968): 10s conceptos científicos, las interpretaciones, se generaban por medio d e ciertos operadores estadísticos (correlación d e atributos), utilizando como información inicial una descripción d e 10s datos. Según este enfoque, las interpretaciones s e expresarían mediante series d e atributos estrechamente correlacionados y el mecanisrno de producción de interpretacionesse reduciria a la aplicación d e operadores inductivos universales -por ejemplo, la correlación estadística y sus derivados- sobre la informaci6n inicial, sin que se precise ningún tipo de hipotesis previs cuya relacibn con la evidencia fuese preciso establecer. A lo largo de este libro se ha desarrollado una concepcibn inuy distinta de la filosofia inductiva y d e su relevancia en la investigación científica. os aryueólogos no analizan 10s fenbinenos sociales aplicando fórmulas migicas a sus datos y usanclo el resultado de esas formulas coillo conceptos o leyes absolutas. Debieran ser c011ceptosy no tan sólo senalar la existencia de co-ocurrencias. La noción de q x e n d i z a capaces de up~e1zde1je>)suele definirse como < q u e 1fenOmeno exhibido cuanclo un sistema (agente humano o miquina) mejora e n la ejecución de una tarea concreta, sin necesidad de haber sido reprogramado= (Anderson 1983, Newell 1990) , Por consiguiente, si la inducción ha de facilitar el <<aprendizaje)B de nuevos conceptos, interpretaciones y ~ 0 1 ~ ciones a probleinas diferentes, la inferencia inductiva se caracterizarli por la t?zod~ficicaci61l progresiva de la forque el de parmulaciOn de ui1 concepto inicial (hiphtesis). acerc2ndose paulatiilainente a un concepto <grnejor'> tida. g&lejor>)puede significar cosas distintas: un ~nayorporcentaje de soluciones correctas. una respuesta m i s fipicla, soluciones inis pricticas o eficaces, o con un mayor abanico de posil~ilidaclesde aplicaci6n. un ajuste n ~ i apropiado s con el objetivo, etc. de coLa inodificacicin inductim de una categoria puede definirse, tambikil, en tanto que tm1l.sf~1-e1zcia nocimiento de un conjunto de unidades a otra que, por el inero hecho de recibir esa transferencia de conocimiento, altera su naturaleza 16gica volvit.nclose inis general. Sin embargo, no tocia transferencia de conocimiento es inductix-a -es decir, perinite aprender-: el conocimiento de la segunda uniclad tiene que azlnzentar como consecuencia de esa transferencia. Pero no hay aprendizaje, no hay gginci-einento)> del contenido, si no se definen previamente 10s parimetros que permitan establecer la '-111ejora')del sisteina. Aquí radica el problema que clurante siglos se han planteadc) 10s filósofos: :idiferencia de lo que sucede con la deducción, de la i1zd~~cci61z, no puede probarse si las leyes o entidades generales aprendidas inductivamente son correctas. Mientras que la deducción es un tipo de razonamiento finito, es decir. concluye tras ui1 ní~lnerodeterillinado de pasos, la inducción no concluye nunca. porque no puede estahlecerse con seguridad cua1 de las modificaciones de un concepto o interpret~ci6nes la definitici. De este modo, la cre:icibn de conocimiento científic0 constituye en realidad un proceso continuo, que no pude reducirse a la aplicación de un ilnico o p e rLI d or. Por consiguiente, lo realinellte iinportante en una inferencia itlclucthra ilo es la natui-aleza de 10s operadores (estadisticos o lhgicos), sino las heuristicas de procesamiento que asegurarin que las conclusiones incluctivas son plausibles y relevantes l ~ a r ael objetivo que se estli procesancto. El control de la induccihn tiene más importancia que la inducci6n ei1 si misma. Hay clue liinitar la husqueda de generalizaciones y/o asociaciones, aun con el riesgo de omitir inforrnaciones importantes. So puede haber aprendizaje si no se controla de un mcdo u otro el tnecanismo cle inducción. ya se trate de la gener3liz:icihn o de 1:i coi-relació11de propiedades. Cuanto m5s estrictas sean las condiciones que iinpongamos al mecanisino, rnayor riesgo de elinlinai- generalizaciones interesantes; si esas condiciones fuesen deillasiado debiles, las dimensiones del espacio de hí~scluedaserin excesivas para encontrar en ttl hipcitesis satisf:~ctorias. De este modo, en el doininio de la Inteligencia Artificial, las inferetlcias ii~clucti\,asse caracterizan de un modo bastante distinto al de la inferencia estadística clisica: el objetivo no es distinguir qutt atrihutos o variables estin correlacionados con cluk objetos en una base de datos. sino en inodificar progresivamente la definición de un objeto paradigrnjtico de modo que la definicicin final sea utilizable para todas las inst~nciasposibles del lnismo objeto. El ruzo~znnzietztoi~zdblctico,pues, pzledr estudia~-sea tmvis de 161 ~ ~ z o d z ~ i c adel ció~~ coizoci~nie?iton Irnr'e.s ¿de sz~uso. A diferencia de 10 que creían 10s primeros partidarios de la nueva Arqueologia IIO necesitamos mecanismos formales estrictos (deduccibn lcigica) para interpretar 10s datos arqueológicos, aunque nada nos impida utilizarlos en la i-esolución de determinados problemas. Ahora bien, no debeinos prescindir del car5cter cacional>> de la arqueologia, aun cuando ni la deduccihn ni la induccion sean illecanisrnos de inferencia fundarnentales. Existen otros mecanisinos mucho lllás Útiles e igualmente efectivos (abducción, analogia). que nos permiten deconceptual, arqueolhgico~~ en termino~de un conjunto de mecanisinos de co~?zbi~zaciÓrz finir el ~<razonamiento hayan sido santificados o no por la Lógica de Predicaclos (Thagard 1988. 1990). En definitiva, el investigador debe combinar la informaci6n que dispone para poder producir interpretaciones (conceptos). Brian Falkenhainer propone la siguiente co~zjetumde ssi~?zilal-i~l(ld al respecto: <'Todoproceso de construcción cte interpretaciones puede caracterizarse como la búsqueda de la siinilaridad m8xirn:~menteexplicativa entre la situación que se desea explicar y cierto fenómeno explicado con anterioridad. La situación previa puede hal~erseexti-aido de una experiencia actual, una ex- periencia prototípica o una situación imaginaria derivable del conocimiento general))(Falkenhainer 1990: 164). Ni la combinación de conceptos ni la búsqueda de una 'esimilaridad máximamente explicativa>),sin embargo, son operaciones formales; existen numerosisimos operadores combinatorios y muchos tipos de correspondencia (similaridad) entre 10s estados intermedios de un problema, cada uno de 10s cuales será útil en determinada~circunstancias. El Único requisito i(objetivo'>para que una combinación conceptual produzca una inferencia válida es que la secuencia de combinaciones se haya producido siguiendo un plan especifico y no al azar. En otras palabras. ha de resultar posible, e n todo momento, saber cómo (secuencia de combinaciones) y por qué (plan que hay que seguir para resolver el problema) se ha generado esa interpretación y no otra. Esta caracterización de la naturaleza del razonamiento científico debiera permitirnos distinguir las funciones de las tres modalidades clásicas: abducción, deducción, inducción: La abducción permite resolver problemas, una vez que el estado del problema ha sido configurado. Su característica fundamental es la existencia de una correspondencias heurística (no válida sintácticamente, sino pragmáticamente) entre el estado inicial y el estado final del problema que se desea resolver, La deducción permite controlar la '~objetividad~~ de un rnecanismo automático de resolucicin de problemas. Esrableciendo relaciones de similaridad literal entre 10s distintos subobjetivos que configuran el árbol de descomposición de un problema, impondremos al algoritmo de resolución un ajuste Atención, una solución "objetiva,~ máxinzo al objetivo inicial (esa es la definición de <<objetividad'>). puede ser falsa y válida a la vez. El termino validez hace referencia tan so10 a la aceptabilidad individual de un resultado. no a su relación con el mundo real. La inducción debe entenderse como una <'propiedad')del razonamiento cientifico, antes que como un tip0 de inferencia. Consiste en la modificación constante de conceptos y soluciones previas, si bien, para ser auténticainente inductiva. esa modificación controlada ha de conducir a conceptos co me jo res^^. heuristicamente, que 10s de partida. S610 podremos ~~razonar~~ cuando dispongamos del espacio de un problema y alguna solución inicial. Ahora bien, si las '~interpretaciones)) no pueden construirse sin conocimiento previo, jcómo crearemos esos conceptos iniciales? Aquí radica, a mi juicio, la cuestión fundamental en Filosofia de la Ciencia. Ningún arqueólogo trabaja en un vacio conceptual, sino que es participe de un conocimiento, parte del cua1 ha aprendido en la universidad, parte del cua1 es constitutivo de la ideologia social que 61, como miembro de una comunidad, ha contribuido a ampliar. Ese Conocimiento Inicial coincide con 10 que Kuhn denominaba <<paradigma'>; en cierto sentido es ajeno al investigador, que muchas veces es inconsciente que está utilizando un espacio de problema plenamente configurado (el malhadado sentido común ). Algunos trabajos recientes (Stoczowski 1991) han demostrado la aparente (<vidapropia') que tiene ese conocimiento inicial, influyendo al investigador en la mayor parte de sus decisiones. Por consiguiente, siempre existe un espacio de problema que nos permitirá interpretar, mal o bien, nuestras evidencias. Obviamente, ese espacio será distinto segíin el grado de formación del arqueólogo. Nuestros conocimientos iniciales son mucho mejores -al menos eso es 10 que quiero suponer- que 10s que disponian 10s arqueólogos de principios de siglo. Lo realmente importante es que hemos de ser conscientes de ese lastre que llevamos encima; más all5 del método empleado para resolver nuestros problemas y del control de esa decisión, debemos ser capaces de modificar paulatinamente nuestros resultados de manera que aumente su '(calidad'l, esto es, que tengan una mayor validez, una mayor sencillez, sean aplicables a un mayor número de casos,... La Naturaieza de las Teorias Arqueológicas En capitulos anteriores hemos podido apreciar la necesidad imperativa de conocimientos estructurados para poder resolver problemas arqueológicos. Los arqueólogos no debieran limitarse a la mera acumulación de datos empiricos simples, sino que deben estructurar y relacionar toda la información que consiguen para poder llegar a resolver nuevos problemas interpretativos. La tarea del arqueólogo es asociar paulatinamente uni- dades d e conocimiento d e naturaleza nluy diversa, estableciendo una jerarquia de entidades teóricas cada vez más alejadas del nivel observacional y cuya generación requerir5 cadenas de inferencia extraordinariamente largas, asi coino una enorme variedad de operadores heuristicos. Una vez tredicadas empiricamente, esas asociaciones se convertidn e n unidades d e conocimiento d e pleno derecho y pasarán a formar parte del conoci~nientopreexistente, a la espera d e ser asociadas a otras unidades. En definitiva, una Teoría contiene interpretaciones que han sido generadas. e n algun momento anterior corno solución a cierto problema Las Teorías Arqueológicas. por tanto, no son mks que bloques d e conocimiento, que forinan estructuras extraordinariamente complejas. Ese conocimiento aparece bajo la forma de asociaciones cu?a validez ha sido establecida heucisticamente, esto es, por su ajuste a algún objetivo especifico. Alora bien, una Teoria debe contribuir a resolver una gran cantidad d e problemas distintos: ninguno de los bloques d e conocimiento puede ser validado. simultaneamente. e n todos 10s dominios d e aplicación de la Teoria. De ahi que las entidades teóricas sean tan s610 validas particularmente. y n o actíten e n ningún momento coino axioil~aso leyes universales. La validez d e todas las unidades es revisable: cclalquier asociaci6n es automiiticaiuente eliminada si se demuestra su inutilidad. Si queremos .programara,e n el ordenador una Teoria Arqueologica. habremos de tener en cuenta todas esas consideraciones. Una teoria no es una base d e datos, sino un programa aparentelnente einteligente. capaz d e operar con nuestros datos. permitiendo inferencias autoinAticas, esto es, la combinación de datos e liipótesis para generar nuex-os datos que resoltreran 10s problemas que tenemos planteados. En cualquier caso, una Teolia Co~?7putacio~zalpuede describirse e n tanto que base de datos con la propiedad d e ('modificarse>,a si misma para realicar un fin concreto, pues, sin finalidaci, no 11abri.d ,<inteligencia.. La utilización d e una teoria coinputacional se diferencia. pues. del empleo de bases de datos clásicas (relacionales). En espas íiltimas de lo que se ti-ata es de <<recuperar>. ciertas unidades de conocimiento (10s datos) que se han introducido previamente: el usuario co~zsultala información. Para llevar a cabo esta tarea, el progranla gestor d e la base de datos dispone d e un lenguaje especializado e n el que se progralnarjn las consultas,las cuales estar5n representadas por medio d e una enumeración simple de las caracteristicas que ha de cumplir el dato buscado. El usuario d e la teoria compu~acional,por el contrario, no cotzsz~ltuinforrnación. sino que .activa. aquellas unidades d e conocimiento que el programa considera son las soluciones adecuadas al problema plantado. Puede pensarse que esa ~activacion'~ n o deja de ser una consulta maquillada; sin embargo hay una diferencia filndamental entre la interrogación d e una base d e datos clásica y la interrogación de una teoria computacional: se necesita i~zfo~.macióucontextual para activar las posibles soluciones al problema. Es decir, 10s contenidos d e la teoria computacional serin activados si y s610 si son i-elevantes e n el contexto marcado por el problema que ha)- que resolver. En téi-minos informaticos. una teoria computacional es una mef~zorinnsociatitla, es decir, un sistema de almacenamiento d e la información capaz de acceder a su contenido por medio d e asociaciones y correlaciones. Existen diversos tipos de memorias asociativas, si bien la mayoria de ellas comparten las mismas caracteristicas: 1) pueden detectar similaridades o analogias entre las unidades d e conocimiento que contienen y nuevas unidades d e conocimiento introducidas por el usuario: 2) la ejecución del programa no se deteriora por el uso d e información incompleta. Otra propiedad importante d e las memorias asociativas, y que es la que m i s nos interesa para programar teorías computacionales es la dil~eccio~zalidad p o r el contenido. Ti-adicionalmente 10s ordenadores sitúan unidades individuales e n lugares concretos de sus bancos de meinoria llamados ~~direcciones~~. Esas unidades pueden recuperarse s610 e n el caso que se conozca la dirección correcta. En una meinoria asociatitra dotada d e la propiedad anterior no existe una única ubicación en la memoria que contenga cada uno de 10s distintos items d e información. Por el contrario, la responsabilidad de representar el conocirniento científica recae en el esquema d e asociaciones entre 10s distintos elementos d e construcción, ya sean estos predicados simples o nodos en un grafo. Une ineinoria direccionable por el contenido utiliza 10s valores especificos de numerosos elementos de programación para acceder a la ubicación d e 10s conceptos. Esta importancia de lo asociativo e n las teorías computacionales afecta también al significado o identidad semántica d e las unidades d e conocimiento: el significado de las entidades teóricas no deriva de su aplicación observacional, sino que depende d e las inferencias (cadenas de asociaciones) e n las que toma parte. En otras palabras, la identidad semántica de un concepto esta determinada por su situación peculiar en la red de asociaciones (cf. Churchland 1989). Aún no se ha podido programar una teoria computacional e n su integridad, aunque si se conocen 10s componentes informaticos que deberá tener: un mecanismo de solución de problemas capaz de tratar inferen- cias para construir la estrategia de satisfacción de ciertos objetivos, una memoria accesible (asociativa), y un mecanisrno d e inducción que actualice el conocimiento que se vaya obteniendo. Es importante señalar que, e n esta estructura, 10s objetivos, y por consiguiente la estruchiral de control deductivo del flujo d e inferencias, n o pertenecen al sistema cognitivo, sino que son introducidos por el usuario siempre que éste utilice 10s contenidos de la teoria. Es obvio que el investigador propone esos objetivos, en tanto que miembro de un determinado grupo social: el razonamiento arqueofógico est5 afectado por los valores sociales. Sin embargo, e n tanto que conjunto artzflcial de mecanismos que depende d e la voluntad del investigador, nada impide trascender esos valores. Todo depende de 10s riesgos que el investigador desee asumir. En definitiva. una teoria computacional debe contener: un conjunto d e conceptos que describan el conocimiento relevante al problema que se quiere resolver * una representación adecuada de esos conceptos, esto es, una representación activa que permita que 10s conceptos reaccionen a 10s mensajes enviados por el usuario o por 10s otros conceptos del Sistema un conjunto de reglas que gobiernen la descripción de los conceptos en términos de su representación * un conjunto de operadores que actúen sobre las representaciones. Otra de las caracteristicas básicas de cualquier teoria computacional es que su arquitectura interna sea análoga al mecanisrno de razonamiento que hemos descrit0 en páginas anteriores. puesto que, al margen d e interpretar las obsen7aciones empiricas, la teoria debe proporcionar una explicación de las unidades de conocimiento usadas para explicar las obsen~aciones:es decir. debe especificar e! c61noy el por qué de ia interpretación generada. Según este principio, la arquitectura idónea de una Teoria Computacional seria modular: 1 para responder al objetivo F, se necesita el conocimiento C 2 el objetivo G hace referencia como se ha resuelto E con ayuda de C 3 para responder al o b p i v o G se necesita el conocimiento D 4 el objetivo H hace referencia a la relación entre C y D j para responder al objetivo H se necesita el conoclmiento E y asi ad infiniturn. Una consecuencia importante de este enfoque estriba e n la necesidad de diferenciar claramente la tarea d e adquirir el conocimiento necesario para resolver un problema situado más arriba e n la escala d e abstracción que acabamos de presentar. Un programa que carezca del conocimiento D. por ejemplo, ser5 incapaz de resolver el problema G, pero no por el10 le faltar5 (<inteligencia'b: es inteligente con respecto al problema F, aunque no 10 sea con respecto al problema G . Ningún filosofo de la ciencia debiera de extrañarse; la respuesta a la Paradoja de Russell y al Teorema de Godel pasa por construir sistemas formales que incluyan a un sistema formal incompleto. Como todos 10s sistemas formales son incompletos por definición. la tarea de construir sistemas que 10s incluyan no acabará nunca; tampoc0 el razonamiento cientifico tiene un final, aunque el conocimiento sea acumulable. Los datos y conceptos científicos son, esencialmente, dinamicos, d e ahi que la Teoria Computacional deba representar de un modo u otro, el cambio entre dos momentos o estados. Muchos avances científicos dependen de la introducción de nuevos conceptos que s610 al final demuestran no ser válidos. Su indeterminación suele descubrirse a la larga, porque ha aparecido una situación inesperada e n la que un conocimiento, hasta entonces válido, genera conflictos. En otros casos, el investigador es consciente que esta trabajando con una información disyuntiva, incompleta, negativa o meramente implícita. De ahí que el razonamiento cientifico precise de la facultad de elaborar inferencias plausibles en presencia de una información que a menudo es incompleta y evolutiva, esto es, cambiante con el tiempo. Este peculiar tip0 de razonamiento no se deja formalizar por la lógica clásica, que trabaja con premisas verdaderas universalmente, completas y no cambiantes. En el razonamiento cientifico, las conclusiones obtenidas en un momento dado, ya no seran válidas cuando se haya revisado la teoria que la produjo. En otras palabras, la principal característica del razonamiento cientifico es la de basarse en inferencias co re vis ab les^^, o no verdaderas tautológicamente. Las teorías computacionales han de permitir inferencias revisables; para el10 tendremos que implementar las dos propiedades fundamentales de ese tipo cie razonarniento, en primer lugar a propiedad de no-monotonía, que se define del siguiente modo: lo que es deducible en el instante t. no lo es necesariamente en el instante t+l En otras palabras, el ní~merode conclusiones vilidas (extensiones) de en una inferencia científica, puede decrecer al aumentar las prernisas de la misma. es la pluri-extensio?zalidad : a partir de un rnismo conLa otra propiedad del razonamiento <~revisable>) junto de informaciones iniciales, puecien ohtenerse distintos conjuntos incompatibles de conclusiones. ES decir, dado un mismo problema ); una única Teoria, pueden inferirse distintas soluciones. El orden en el que se producen las inferencias determina la estructura final del conjunto de soluciones. Mientras que 10s sistemas deductivos formales obtienen un í~nicoconjunto cerrado, completo y universal de conclusiones, 10s sistemas nomon6tonos obtienen conclusiones m~!- diversas, particulares y abiertas, que n o se <'deducen>> de las prernisas, sino que son meramente cornpatihles con ellas. La programacicil~de sisternas no-monotonos en 10s que la pluri-extensionalidad no degenera en contradicciones constituye uno d e 10s dorninios más dinámicos de la Inteligencia Artificial. (cf. Besnard 1989. Grkgoire 1990, Lukaszewicz 1990). De la progran~acicinde teorias co~nputacionalesse puede derivar una nueva definicion del termino teoi*ía,una definicicin que dt. cuenta de las ventajas del uso del ordenador como vehiculo de representaci6n. Allen Nearell (1989). propone la siguiente: ('un cuerpo de conocimiento del cua1 pueden obtenerse respuestas a ciertas preguntas'>. Las preguntas. obviamente, pueden ser muy diversas, tanto como las respuestas que se obtengan: predicciones, explicaciones, interpret:~ciones.Lo irnportante de las Teorias Computacionales es que nos permiten apreciar que es la teoria la que proporciona las respuestas, y no el tecirico. Tanto 10s seres humanos como las teorías son agentes .<racionales'> capaces cle responder preguntas. Los seres humanos, sin embargo, no suelen proporcionar informaciOn acliciollal acerca de la correccicin de su respuesta: y si lo hacen estlin obligados a recurrir a una teorca. En ausencia de criterios de validaci6n externos, los seres humanos emplean la argurnentacion como mecanismo de critica y refonnulacicin. e ~ ~ l u a n la d oicloneidad de las respuestas con arreglo al cutnplirniento o no de sus pr-opios objetivos inclividuales (suhjeti\,os),prescitldiendo de 10s ohjeti\.os sobre 10s que estaba basada la pregunta. Por el contrario, una teoria científica -coruputacional o no- es un cuerpo e.~plícitode conocimiento, a partir del cua1 cualquies persona lo suficientemente entrenada podri extraer respuestas a sus preguntas. Obviamente, que preguntas encontrarlin respuesta y que preguntas pern~anecerinsin solución depender%de la preparacibn del usuario de la teoria: peso no as1 la respuesta en si, la cual. una 1-ez ol>tenida, depende exclusil amente clela teoria: en nuestro caso. del conocirlliento implementado en el ordenador y de la manera en que ha sido implementado. iC6rno .evaluar*una Base de Conocimientos? Aceptar o rechazar Teorías es algo mucho mis complejo que rechazar cierta unidad de información concreta. ya que una Teoria se conlpone de muchas unidades de información interrelacionadas. Contrariamente a lo que supondria Karl Popper. entre otros, no podemos rechazar una Teoria simplemente porque falle ocasionalmente: la "evaluaci6n)~ de una teoria Computacional no puede establecerse, exclusivamente, en términos de sus resultados. La verificacion cle cualquiera de 10s programas que hemos comentaclo en capitulos anteriores debiera empezar por el estudio de la concordancia entre el Programa y la Teoria que se supone representa. Dicho de otro modo. iproduce el Sisterna Infortnático 10s mismos resultados que lograria un investigador especialista e n ese árnbito con ayuda de la Teoria en cuesticin? Supongamos clue disponernos de un Sistema Experto capaz de datar cerimica )I que lo utilizarnos para datar un artefacte especifico. El programa ha producido 10s siguientes resultados: SIGLO IX A.C. : 60 % SIGLO VI11 A.C.: 45 % SIGLO VI1 A.C.: 40 % SIGLO VI A.C.: 20 % Es decir: para el programa, este artefacto arqueológico tiene un 60% de probabilidades de ser datado correctamente en el Siglo IX a C . , y sólo un 20 % de probabilidades de ser datado e n el siglo VI a.C. Nótese que el ordenador no esta seguro de la respuesta, pero (creel)que la mejor solución es: 6iglo IX a.C.>).Por su parte, un arqueólogo. especialista en ese periodo, considera que las probabilidades de datación correcta de esa misma pieza de cerámica son: SIGLO IX A.C. : 80 % SIGLO VI11 A.C.: 75 % SIGLO VI1 A.C.: 30 % SIGLO VI A.C : O % Para el investigador humano (do más probable,) es que esa cerámica sea datable e n 10s siglos IX y VI11 A.C. iQué significan estas cifras? Básicamente, se trata de una simple representación numérica de la inseguridad o incertidumbre del Sistema Experto y del Arqueólogo a la hora de distinguir entre el siglo IX y el siglo VI11 a.C. La incertidumbre es el resultado lógico de una base de conocimientos incompleta. Expresándolo e n términos informáticos: la Base de Hechos que contiene la descripción de esa cerámica activa tan solo un 60 % de las condiciones necesarias para que un artefacto sea datable en el siglo IX a C . , a juicio del Sistema Experto la Base de Hechos que contiene la descripción de ese artefacto activa tan sólo un 80 % de las condiciones necesarias para que sea datable e n el siglo IX a.C., a juicio del Arqueólogo. Para evaluar la idoneidad del Sistema Experto, 10 primer0 que tendremos que hacer es compumrlos resultados obtenidos por uno y otro. A tenor de las cifras, el arqueólogo parece estar mas seguro que el Sistema Experto de la lctntigüedad>'de ese artefacto. Concretamente, sabe con certeza que resulta imposible datarla e n el siglo VI a.C, cosa que el Sistema Experto tan sólo sospecha. Por otro lado, ambas s e r i ~ sde ~~probabilidades~' cronológicas son compatibles ordinalmente. Este tip0 d e compatibilidad suele utilizarse bastante como indice de validación: si el orden de las predicciones del Sistema y del arqueólogo es el mismo. 10s resultados del Sistema serán sa vi li dos^^, en tanto en cuanto su orden secuencia1 ~coincide~~ con el propuesto por el arqueólogo. En consecuencia, para medir el grado de compatibilidad entre 10s resultados de un Sistema Experto y 10s de un Experto humano no basta tan s610 con contar el porcentaje de errores cometidos por el Sistema, donde el término <<errores') equivale a resultados distintos. Es necesario introducir también la ~~importancia~~ subjetiva de dichos errores, y el acostell de un error: en nuestro primer caso cualquier arqueólogo aceptaria que el Sistema se equivocase e n la atribución entre siglo IX y VIII, porque 61 mismo es incapaz de diferenciarlos, si bien n o aceptará en ningún caso un error a la hora de distinguir entre siglo VI11 y siglo VI. Esta ~~valoración)~ suele introducirse por medio de las denominadas matrices de confusión: SIGLO IX SIGLO IX SIGLO VI11 SIGLO VI1 SIGLO VI - 50 70 100 SIGLO VI11 SIGLO VI1 30 50 50 70 100 100 SIGLO VI 70 70 70 - Una entrada de 100 sugiere que confundir un diagnóstico con otro es muy grave. Según la información contenida en esta matriz de confusión, por tanto, seria menos importante que el Sistema Experto se equivocase entre el siglo IX y el sigio VI11 que entre el siglo VI11 y el siglo VI. La matriz no tiene por qué ser simétrica; por ejemplo, puede que sea más sencillo saber si una pieza data en el siglo VI11 que en el IX, debido a que el registro arqueológico del siglo VI11 es mejor conocido; en la nlatriz, por tanto, es menor el riesgo de confundir siglo IX con siglo VIII, que el de confundir siglo VI11 con siglo IX. Los errores de diagnóstico también suelen representarse por medio de matrices de confusion. Asi, por ejemplo: SIGLO IX SIGLO IX SIGLO VI11 SIGLO VI1 SIGLO VI - 20 1O O SIGLO VI11 20 - 25 1O SIGLO VI1 25 30 - 1O SIGLO VI O 30 20 - que se leeria del siguiente tnodo: el Sistema Experto confunde 10s objetos del siglo VI11 y 10s del siglo VI1 en el 30 % de 10s casos; 10s del siglo IX y 10s del siglo VI en ningún caso, 10s del siglo VI11 y 10s del siglo VI en el 30 %, J' asi sucesivamente. En resumen, disponernos de tres indices de verificacion de la concordancia Teoria/Programa: - Orden de 10s Diagnósticos - Grado de Confusión - Exactitud Estos índices no son independientes unos de otros. Por ejemplo, supongamos que hemos obtenido: Coincidencia en el Orden de 10s Diagnósticos: 74 % Grado de Confusion: 11 % Falta de Exactitud: 48 % Estos porcentajes no son otra cosa que el porcentaje medio que aparece en las distintas matrices de confusión. Nos fijaremos. en primer lugar en el ílltilno de ellos: en el 48 % de 10s casos, 10s resultados del Sistema Experto no coinciden con 10s resultados que un arqueólogo considera re verda de ros'^. Este resultado podria llevarnos a rechazar el Sisterua por poco fiable: nadie necesita un programa que se equivoque la mitad de las veces. Ahora bien, fijemonos en el resultado del Grado de Confusion (11 %): el "costel' de confundir un diagnóstico con otro es bastante bajo, quizás porque el arqueólogo no está muy seguro que sus propias interpretaciones sean todo lo 'cverdaderas2' que debieran. Por consiguiente, s610 queda fijarnos en la compatibilidad ordinal: en el 74 96 de 10s casos 10s resultados del Sisterna Experto y 10s del arqueólogo seran, sino 10s rrlismos. si al menos c com par ab les'>. A este modo de 'gevaluar),la ejecuci6n de un Sistema Experto o de un programa de Inducción Automática podríamos denoruinarlo <ganálisisde la collerencia externa'>,pues lo que se pretende es averiguar si 10s resultados del programa son cohere~ztescon 10s resultados que se derivan de la formulación cljsica de la Teoria. Otro modo de evaluaci6n vendria clefinicla, entonces, por el anilisis de la cohel-elzcin iuter~zn.Si pretendeinos utilizar una Teoria Colnputacional para realizar tareas explicativas resulta imprescindi1,le garantizar que durante la ejecución de la base de Conocimiento, la soluci6n esperada se obtendrii sin incoherencias. gcProbar)'la coherencia de 10s resultados del Sistellla supone verificar la coherencia estitics de cada uno de sus componentes: cohel-encia estdticn de L L hecho ~ .- Es preciso verificar que 10s elementos constitutives de un Hecho (atributos y / o Relaciones) no contradigan las asociaciones ilnplementadas previamente en la Base de Reglas. cohel-c~zciaestdticn de Z L P Z c o ~ ~ j ~ l tde z t ohecbos.- Oh~~iamente, las referencias cruzadas entre 10s Hechos deben ser consistentes. No puede emplearse, por ejemplo el encuadre cronologia del siglo IX')para describir el Encuadre cerimi mica de Barniz Rojo)>si &te í~ltimocuenta con un atributo contrario a 10s que definen <Cronologiadel siglo IX>>. cohe?*e~zcia estática de Z L I Z ~l-egl~~.La rnisma relación que existe entre 10s atributos de un Hecho, debe existir entre las condiciones y consecuencias de una regla. * cohel-e~zciaestática de z ~ ? zconjunta de reglas.- En la Base de Reglas pueden coexistir, sin problemas, consecuencias distintas (por ejemplo: siglo IX a.C; siglo VI11 a.C.). Lo que hay que evitar es que ambas consecuencias sean activadas por el mismo conjunto de condiciones (y, por extensión, como resultado de la introducción de un mismo hecho). Por 10 tanto, al enunciado declarativo de la Teoria Computacional habrá que añadirle un mecanisrno de control de la coherencia estática. La función de un subprograma como éste seria identificar la existencia de : coherencia interna de una regla: Las premisas (condiciones) de una regla pueden definirse como la especificación de 10s conjuntos de hechos sobre 10s cuales esa regla es aplicable. Para estudiar la coherencia estática de una especificación basta con estudiar la coherencia estática de 10s conjuntos de hechos que constituyen una instanciación potencial de esa especificación. La coherencia estática de una regla se verifica cuando las especificaciones de la regla son estáticamente coherentes con las especificaciones de un objeto inicial. redundancia de una regla: Una regla R es redundante si existe una regla R' tal que el conjunto de 10s consecuentes de R constituya un subconjunto de 10s consecuentes de R' y que el conjunto de las premisas de R sean un subconjunto de las premisas de R', sin que varíe el resultado. confEicto entre dos reglas: Las reglas R y R' están en conflicto si existe una substitución s de las variables de R y una substitución s' de las variables de R' tales que, tras la sustitución, el conjunto de las premisas de las dos reglas constituyan una especificación coherente, mientras que el conjunto de consecuentes es una especificación incoherente. reglas conpremisas inútiles: Las reglas Ri tienen una premisa inútil si tienen todas el mismo consecuente y si el conjunto de las partes de las premisas que las distinguen una de otra es una tautologia bucles en u n conjunto de reglas: Un bucle de reglas es un conjunto ordenado de reglas tal que 10s consecuentes de una regla y una parte de las premisas de la regla siguiente son agrupables, mientras que 10s consecuentes de la última regla y una parte de las premisas de la primera, también 10 son. cadenas contradictorias: Una cadena contradictoria es un conjunto ordenado de reglas tal que 10s consecuentes de una regla y una parte de las premisas de la regla siguiente son agrupables, mientras que 10s consecuentes de la última regla y las premisas de la primera constituyen una especificación estáticamente incoherente. Si mantenemos la coherencia estática e n una Teoria Computacional, posiblemente mantendremos también la coherencia dinámica, esto es, la falta de inconsistencias derivadas del funcionamiento del Sistema. Sin embargo este último punto no puede ser asegurado. ya que dependerá siempre de la coherencia externa de la Teoria que sustenta el Sistema. Precisamente el objetivo de la automatización de una Teoría ser2 encontrar casos empiricos que refuten 10s conocimientos existentes acerca de la mejor manera de resolver un problema especifico. En definitiva, un Sistema Experto proporcionará resultados '<verdaderos'> exclusivamente en el caso en que la Teoria Científica que contiene y representa sea capaz de ello. Un Sistema Experto puede representar una Teoria Cientifica errónea y proporcionar asi resultados absurdos, aunque formalmente válidos dentro de la teoria. Si las condiciones de activación de las soluciones y la propagación de la función de activación son fruto de la imaginación del programador y no reproducen una Teoria Cientifica, el Sistema Experto tendra el mismo uso que una obra artística: será muy bonito, impresionante quizá, pero inútil para 10s investigadores. Por consiguiente, aunque el Sistema Experto reproduzca adecuadamente una Teoria Cientifica, no habremos avanzado nada en su posible líverdad')empírica, Obviamente, resulta imposible construir un Sistema Experto que sea siempre consistente y en el que la aparición de anomalias se evite e n todo momento. El10 se debe, fundamentalmente a que 10s criterios operativos utilizados para detectar la -coherencia,v no son formales, sino que dependen del dominio de aplicación del programa y derivan, por tanto, de la Teoria Cientifica que éste implementa. Son <'declaratives>' y no universales. Es tarea del usuari0 decidir cuando la aparición de inconsistencias se debe a la deficiente configuración de la base de Hechos (selección errónea de datos empiricos) o a la inconveniencia de la Teoría Cientifica que se pretende usar para resolver el problema. Arqueologia Automática -Si queremos saber cOmo f ~ ~ n c i o nlaa mente, debemos preguntarnos qué es lo que hace y por qué hace lo que hacell Esta cita es fiicilmente aplicable al :imbito de la investigación arqueológica: si deseanios saber qué es una interpretacihn o una teoria debemos averiguar qutl es lo que reallnente hacen los arquedlogos cuando < a z o nan>>, esto es. cuanclo interpretan las evidencias arqueol6gicas. En el árnbito de las Ciencias Cognitivas ha adquirido Llna relativa fortuna la distinción entre un:i Teoria e n el ilivel coinputacional y una teorí:l e n el nivel algoritrnico (AIarr 1982). En su nivel computacional, una teoria est5 caracterizada por aquell0 que se computa, por qu6 est5 siendo computado 1. a cluk condiciones debe ajustarse el proceclimiento. Una teoria e n el nivel algorítmico especifica cóm0 se realiza la computación. ). debiera ser lo suficientemente precis:~coino para poder ser simulada lnediante un ordenaclor. Segíin Chomsk!- (1965) una teoria en el ili\-el compukicional es una explicación de la colnpetencia humana. la capacidad del in\.estigador para resolver sus probleruas. e n definitiva, sus objetioos. En su re:ilización algoritrnica. la teoria debe explicar las caracteristicas de ejecucicin l~urnana,ddnde falla por qutl nos concluce, e n ocasiones. :tl error: debiera facilitar. igualmente. su integracicin con las restantes acciones cognitivas. La Arq~ieologiaA~1tom5tic:les. obviainente, una te ori:^ del r:~zon:lmientoarqueol6gico e n su nivel algoritmico. Su prillcipal ohjetivo es el a ~ í l i s i sde la racionalick~dde una teorkl por rrledios con~put:rcionaIes.En otras pa1:lbras. aleriguar el significado de las interpretaciolles :irqueol6gic:is e n tkrminos de 10s mecanislnos computacionales que permitieron construir esa interpretación y que deterrninan su uso durante la resolución de un problema. (Thagard 1988: 68). El estuclio de esa a ~ ~ c i o n a l i d asuele d etuprenderse distiilguienclo e n la Teoria un C C J I ~ I ~ O 16gico I Z ~ ~(sinI ~ ~ táctico) de un co117por.1er.zt~ su~jetizlo(semlíntico). El prirnero est5 incorporado a cualquier programa de ordenador (depurador). ). su funcicin es determinar la gama de iilferencias incotupatibles. lo cual clel3iel-a preservar la consistencia del conociiniellto arclueolhgico. El segu~ldodetermin:lr4 la efecti\lidad de las inferencias. El objetivo final de cualquier anlilisis de la racion:ilicl:lcl de un:l Teoria pai-te del principio segíln el cua1 la calidad de una Teoria Computacio~x~l no shlo clepende de la caliclad del conocimiento que contiene, sino del uso al que se destina esa Teoria. Ahora bietl. hetnos visto que la efecti1,idad del uso de 13 Teoria computacioLa propiedacl de la pluri-extensionalidad del razo~lamietltocientifico nal s610 puecle realizarse enzpírica~?z~rllt.. inipone. adem:is, una serie de co~ldicionesJ- limites dificilinente formalizables a la selecci6n del <~inejor>) contexto de aplicación del conjunto de soluciones posil,les. Todo ello htlce referencia 31 coi?zI~or?~~~te szlbjetiz;o (sem5ntico) de las Teorías Computacionales. que pocleinos describir e n tanto que representacihn del usuario o del acto de utiliznr el conociiniento. Podemos progr:unar una Teoria Computacional cuyo dominio de aplicaci6n sea, precisamente, el zrso de una Teoria anterior. 10 cua1 simularia la actuación de un usuario hipotetico. De este rnodo iinpletnentaremos el cotnponente sein5ntico de la racionalidad cle la Teoria. Conviene tener presente que el zlso de la Teoria, esto es, la resolución de un determinado problema cientifico debe ser consistente con 10s ohjetivos 1n:rrcados. objetivos que constitu).en las unidades de conocimiento características de la ~net~r-teoria. En definitix-a. el propósito de estos program:is de orden:idor no es sustituir a 10s arclueólogos por máquinas inteligentes. sino estudiar 10s mecanismos de resoluci6n de probleinas utilizaclos por 10s científicos souti1iz:ir. Autoin:itizanclo el proceditniento de iilterpretacidn ciales, o los mecanistnos de resolución que ¿~ebie?"c?~z del registro al-queológico descubriremos 10s mecanismos cognitivos subyacentes e n todo razo~iamientocientifico. La ventaja de la automatizacihn y del etnpleo de las tecnicas de Inteligencia Artificial radica en la superación del línlite al que habian llegado 10s positivistas: las inferencias no deben representarse, exclusivamente, recurriendo :I la L6gica de Predicados o a inferencias estadísticas simples. 1,a inform5tica ofrece unos forillatos de representacióil que permiten superar las limitaciones ser nin tic;^^. tanto del lenguaje natural como de 10s lenguajes formales al uso. 0bvi:lmente. esta representacibn co1nput;icional también est5 afectada por 10s teoremas de la incompletitud de 10s sistemas formales: n o se busca consti-uir la miquina que acabe con toclas 1:1s tn5quinas, sino analizar e61110 interpreta11 los arcluehlogos sus e\-iclencias y, So m5s importante, por que lo llacen de ese modo )- no de otro. A buen seguro habr5 quien encuentre las paginas anteriores un nuevo ejeinplo de palabreria tecnica alejada de las preocupaciones tle todo buen arclueólogo práctico. &li íinico prophsito ha sido el de senalar el principal peligro en cualciuiera de las rainas cle la Ciencia Social: ILI triz~ializ~~ci6t~ de las it!/&l-e?lcins. A'Iientras este- mos anclados e n un modelo verbal del razona~nientoy no tengamos conciencia de la diversidad de operaciones asociativas posibles, nos resultar5 de todo punto imposible comprender la complejidad de 10s fenómenos sociales. Lo que propongo no es ninguna panacea universal. Tan solo un conjunt0 de métodos tecnicas y operaciones que nos permitan construir modelos sofisticados capaces de dar cuenta de la extraordinaria complejidad de la realidad social. '(La tarea de la ciencia no es explicar a que sabe la sopa, sino explicar cómo ha llegado a tener el sabor que tiene". Albert EINSTEIN