UN SISTEMA PARA LA AGRUPACIÓN AUTOMÁTICA DE DATOS

Resumen:

En el Proyecto Fin de Carrera que se pretende realizar vamos a desarrollar un sistema para la agrupación automática de datos o patrones, es decir, para la formación de grupos o categorías, basado en una medida de similitud dada que se establece entre dichos patrones. El sistema utiliza diferentes técnicas de agrupación de datos (clustering) basadas en particiones, como son el algoritmo de las k-Medias de MacQueen, el de los K-Medoides de Kaufman y Rousseuw, el algoritmo ISODATA de Ball y May, y las redes neuronales autoorganizadas de Kohonen.  La entrada del sistema puede ser un conjunto de p patrones o individuos de una población, y cada uno de ellos constituido por N características dadas, junto con una medida de similitud que se establece entre dichos patrones y el número de grupos a formar. Asimismo, la entrada puede ser simplemente una matriz de similitud cuyo elemento sij nos da la analogía o similitud entre el patrón i y el patrón j, y el número de grupos a formar. Además de la formación de los grupos el sistema puede determinar los patrones prototipo de cada grupo.

 1.     Introducción

 En muchas ocasiones nos encontramos gestión y manipulación de gran cantidad de información (conocimiento) que suele venir recogida en una matriz de datos (muestra), donde las filas corresponden a las diferentes características, propiedades o atributos de un patrón (individuo, objeto, ente, etc.) y las columnas corresponden a una característica determinada presentada por cada uno de los patrones. Con el análisis de grupos se pretende formar clases o categorías según una medida de similitud de manera que los patrones o individuos de una misma clase tengan características similares.

 Se han propuesto muchos algoritmos para la formación de grupos y categorías. En este proyecto nos vamos a centrar en aquellos algoritmos basados en particiones. El más conocido es el algoritmo de las K-Medias de MacQueen que utiliza los centroides de cada grupo para ir formando los diferentes grupos iterativamente. Sin embargo, requiere que los patrones sean numéricos para poder determinar los centroides y no se puede utilizar cuando no conocemos los patrones sino sólo la similitud entre ellos, como ocurre cuando existen características de tipo cualitativo (atributos). En este caso se puede utilizar el algoritmo de las K-Medoides de Kaufman y Rousseuw. También existe otros algoritmos similares, como el algoritmo ISODATA de Ball y May. Por otra parte, los algoritmos basados en rede neuronales competitivas y redes neuronales autoorganizadas permiten también la formación de grupos o categorías siguiendo un proceso de aprendizaje no supervisado. Finalmente, los algoritmos basados en medidas difusas permiten la asignación de un patrón a un grupo utilizando una función de pertenencia. Todos estos algoritmos recogidos de diferentes paradigmas constituirán el sistema de formación de grupos que se pretende diseñar.

  2.    Objetivos

 En este proyecto se pretende desarrollar un sistema de formación automática de grupos que incorpora algoritmos clásicos, algoritmos basados en redes de neuronas artificiales y algoritmos basados en la lógica difusa.

 3.    Métodos y fases de trabajo

 El problema de la formación de grupos basada en particiones consiste en agrupar p patrones  dados (x1, x2,…,xp) en M clases C1,C2,…,CM, de manera que la suma total  de las similitudes entre los patrones de la misma clase sea máxima, es decir,

Dicha función no es convexa y puede tener muchos mínimos locales. Además, constituye un problema de optimización combinatoria NP- difícil.

 Las tareas que se van a realizar en el análisis de datos son:

      1.      Fase:

Implementación de algoritmos de agrupación clásico, basados en centroides, como el algoritmo de las K-medias y el algoritmo ISODATA.

      2.      Fase:

Implementación del algoritmo de agrupación basados en medoides: Algoritmo de los K-medoides

3.      Fase:

Implementación de algoritmos basados en redes de neuronas artificiales autoorganizadas, en las que tenemos que seleccionar el número de grupos y  la función de vecindad.

      4.      Fase:

Implementación del algoritmo de las c-medias, basado en lógica difusa.

 5.      Fase:

Análisis comparativo de los algoritmos propuestos, utilizando el conjunto de datos IRIS (ver figura 1), datos de VIRUS (ver figura 2) y datos de ciertas características de impacto medio ambiental de  municipios de la provincia de Málaga.

 4.    Medios disponibles

  Se dispone para su realización de un ordenador Pentium IV  (1800 Mhz.) del laboratorio de Inteligencia Computacional y Análisis de Imágenes. Los programas se desarrollarán utilizando el entorno de programación VISUAL C.

 5.    Bibliografía y referencias

 [1] Cherkassky, V. and F. Mulier.  Learning from Data: Concepts, Theory and Methods. John Wiley & Sons, Inc. New York, 1998.

[2] Cherkassky, V, J. H. Friedman and H. Wechsler. From Statistics to Neural Networks. Springer-Verlag, Berlín, 1991.

[3] Haykin, S., Neural Network:  A Comprehensive Foundation. New York: IEEE Press, 1994.

[4] Kohonen, T. Self-Organization Maps. Springer Series in Information Sciences, vol. 30, Berlín, 1997.

[5] Linde Y., Buzo A., & Gray R.M. (1980). An Algorithm for vector quantizer design. IEEE  Trans. on Communication, vol. 28(1), pp. 84-95.

[6] Mérida Casermeiro, G. Galán Marín y J. Muñoz Pérez (2001). An efficient Multivaluated  Hopfield Network for the Traveling Saleman Problem. Neural Processing Letters, 14, pp. 203-216.

[7] Muñoz Pérez J., J.A. Gómez Ruiz, E. López Rubio y M.A. García Bernal (2002). “Expansive and Competitive Learning for Vector Quantization”. Neural Processing Letters, 15, pp. 1-13.

[8] Muñoz-Pérez J. y G. Galán Marín (2001). Design and Analysis of Maximum Hopfield Networks. IEEE Trans. Neural Networks, vol. 12, pp. 329-339.

[9] Pal N.R., Bezdek J.C., & Tsao E.C. (1993). Generalized clustering networks and Kohonen’s  self-organizing  scheme.   IEEE  Trans.  Neural  Networks, vol. 4(4), pp. 549-557..

[10] Ritter, H., T. Martinetz and K. Schulten. Neural Computation and Self-Organizing Maps. Addison-Wesley, Deutschland, 1992.

[11] Smith, M. Neural Networks for Statistical Modelling. van Nostrand Reinhold, New York, 1993.

[12] Xu L., A. Krzyzak and E. Oja, (1993) “Rival Penalized Competitive Learning for Clustering Analysis, RBF Net, and Curve Detection,” IEEE Trans. Neural Networks, vol. 4(4), pp. 636-649.

[13] Yair, E., Zeger K., & Gersho A. (1992). Competitive learning and soft competition for vector quantizer  design.   IEEE  Trans. Signal  Processing, vol. 40(2), pp. 294-308.


0 comentarios:

DISEÑO E IMPLEMENTACION DE UN NUEVO ALGORITMO DE INCLUSION 3D ORIENTADO A OBJETOS

Uno de los test más importantes que surgen dentro del campo de la Geometría Computacional es la inclusión de un punto del espacio dentro de un sólido. La mayor parte de los trabajos presentados al respecto se han implantado sobre la base de poliedros convexos, y utilizando técnicas de programación tradicionales [KAL82]. En este trabajo se implementa un algoritmo de inclusión de puntos para cualquier clase de poliedros, a partir del teorema demostrado en [FEI93], utilizando para ello un enfoque orientado a objetos. Las ventajas de la utlización de dicho enfoque es que estos lugares geométricos (caras, vértices,...) pueden representarse mediante objetos, definiéndose los mismos como un conjunto de datos sobre los que pueden efectuarse un conjunto de operaciones. Las ventajas que ofrece este paradigma de programación, aparte de la ya mencionada, son la portabilidad y reusabilidad del software.

Palabras Clave: Algoritmos en Informática Gráfica,Geometría computacional, Programación Orientada a Objetos en Informática Gráfica, Inclusión en 3D.

1. Conceptos previos.

La determinación de la inclusión o no de un punto en un tetraedro, está basada en el concepto geométrico de distancia signada de un punto a un plano. Tres puntos ordenados y no situados sobre la misma línea, generan un vector perpendicular al plano que los contiene cuyo sentido viene dado por la orientación de los puntos según la regla del sacacorchos. El signo de la distancia de un punto Q al plano P definido por los puntos P1 ,P2 y P3 indica la posición de Q respecto a P de la siguiente manera:

- Si el signo es positivo, Q se encuentra en el semiespacio que contiene el extremo del vector generado por P1, P2 y P3 .

- Si el signo es negativo, Q se encuentra en el semiespacio opuesto al que contiene el extremo del vector generado por P1 ,P2 y P3 .

- Si la distancia es 0, Q se encuentra en el plano que contiene a P1 ,P2 y P3 .

La que deseo mostrar es como ordenando los puntos en el sentido contrario de las agujas del reloj, el vector generado se dirige en sentido contrario al origen de coordenadas, siendo el signo de la distancia de Q al plano negativo, al encontrase en el semiespacio que no contiene el extremo del vector. De ordenarse los puntos en el sentido de las agujas del reloj, el signo sería positivo, por encontrarse el punto en el semiespacio que contiene el extremo del vector.


0 comentarios:

DISEÑO DE CIRCUITOS DE ALTA FRECUENCIA USANDO MAPEO ESPACIAL NEURAL CON NO-LINEALIDAD REGULADA

ABSTRACT

En este trabajo se realizan mejoras sustanciales al
algoritmo de diseño de circuitos electrónicos basado en
mapeo espacial neural. Dichas mejoras incluyen la
regulación de la cantidad de no-linealidad utilizada por la
red neuronal durante el entrenamiento del neuromodelo
mapeado, así como una simplificación del proceso de
obtención del siguiente punto predicho por el algoritmo, y
la determinación automática de criterios de finalización del
mismo. Con las mejoras implementadas se obtiene un
algoritmo de diseño más eficiente y robusto. Para ilustrar
el desempeño de este nuevo algoritmo se diseñan dos
filtros en tecnología microcinta: un filtro rechaza-banda
con “stubs” abiertos resonantes de un cuarto de longitud
de onda, y un filtro notch de alta selectividad. Para ambos
circuitos se utilizan simuladores electromagnéticos de
onda completa.

1. INTRODUCCIÓN

El modelado y diseño de circuitos electrónicos mediante
redes neuronales artificiales (RNA) es una área que ha
experimentado un gran crecimiento en los últimos años
El método convencional para diseñar circuitos
mediante RNAs básicamente consiste de dos pasos:
 a) primero se desarrolla un neuromodelo del circuito, es
     decir, se entrena una RNA para que sus respuestas
     aproximen a las del circuito en una cierta región de interés;
b) una vez desarrollado el neuromodelo, éste se utiliza 
     para hacer diseño por métodos clásicos de optimización.

Una desventaja del método anterior es que 
generalmente se requieren muchos datos de entrenamiento
para generar un neuromodelo que cubra con suficiente
precisión la región de interés. Generar los datos de
entrenamiento puede resultar costoso cuando provienen de
mediciones de laboratorio, o bien cuando son producidos
por algún simulador que consuma muchos recursos
computacionales (especialmente tiempo de simulación),
como sucede con los simuladores electromagnéticos de
onda completa. A este tipo de modelos, de alta precisión
pero alto costo computacional, se les denomina “modelos
finos”.
El neuromodelado basado en mapeo espacial es una
técnica que reduce considerablemente la cantidad
requerida de datos de aprendizaje provenientes del modelo
fino, en comparación con el neuromodelado convencional
descrito anteriormente. Además, mejora notablemente la
habilidad de generalización del neuromodelo debido a que
se hace uso de un modelo burdo o empírico, el cual es una
aproximación del circuito a modelar. Los modelos burdos
son generalmente modelos de circuitos equivalentes, los
cuales son computacionalmente muy eficientes pero tienen
un rango de validez limitado para sus parámetros. De esta
manera, el modelo burdo es usado como fuente de
conocimiento previo que reduce la cantidad de puntos de
entrenamiento.
El algoritmo de diseño de circuitos electrónicos usando
mapeo espacial neural  explota en cada iteración la
técnica de neuromodelado basado en mapeo espacial .
Teniendo el neuromodelo mapeado con un error de
entrenamiento suficientemente pequeño, se optimizan sus
parámetros de entrada en cada iteración, para así obtener el
siguiente punto en el algoritmo.
En el presente trabajo se realizan mejoras al algoritmo
de diseño de circuitos electrónicos usando mapeo espacial
neural , el cual es ahora implementado en MatLabMR

PARA MAS DATOS contacteme  aldo_ba_mad@hotmail.com 

0 comentarios:

Areas de Investigación

• Computación Paralela
• Algoritmos Genéticos
• Ingeniería Neuronal
• Aplicaciones en Robótica y Control
• Automatización de Procesos Industriales
• Optimización
• Multimedios
• Informática y Sistemas Eléctricos

Manejo de Información (Information Management): Abarca la investigación en
temas tales como bases de datos, modelamiento de datos, lenguajes de
consulta, minería de datos, hipertexto e hipermedia, recuperación de
información y data warehouse. Específicamente se cuentan con proyectos en el
área de Bases de datos Espaciales y Recuperación de Información (en la web).
• Computación Evolutiva: Es un término amplio que describe un conjunto de
técnicas que incluyen algoritmos genéticos, sistemas adaptativos complejos,
programación evolutiva, entre otros, basados en la teoría de la evolución de las
especies de Darwin. El aspecto común de estas técnicas es la idea de la
evolución. La idea de que un sistema artificial puede evolucionar hacia una
cierta meta. Esta meta puede ir desde la solución de un problema de ingeniería,
hasta la estrategia para vencer en un cierto juego.
  • 􀂃 Ingeniería de Software
  • 􀂃 Automatización
  • 􀂃 Inteligencia artificial
• Diseño de estándares para la gestión de configuración de hardware y software en
   empresas apoyados en metodologías de las mejores prácticas
• Diseño e implementación del sistema de comunicaciones basado en CAN para la
   viónica en un vehículo aéreo autónomo no tripulado.
• Uso y aprovechamiento de tecnologías de información (TI) en las pequeñas y
   medianas empresas de la confección en el municipio de Don Matías
• Diseño e implementación de una red CAN para el monitoreo y control de las
  principales variables en servomotores para máquinas inteligentes
• Segmentación de mallas triangulares basados en la teoría de decisión bayesiana

Investigaciones

• Informática Educativa y Redes de Computación
• Algorítmica
• Modelamiento, análisis y simulación de sistemas dinámicos
• Métodos para el análisis y diseño orientado a objetos
• Estándares y especificaciones de calidad de software
• Manejo de grandes volúmenes de información (Data Warehouse)
• Seguridad en Computación (Criptografía y Criptoanálisis)
• Interfaces hipermediales para el desarrollo de software educativo.

0 comentarios:

Ingeniería en Computación:

El interés de esta carrera esta mas relacionado con
lo que se refiere al Hardware y el software para operar este Hardware (software
empotrado, visto en las lavadoras al presionar un botón realizan una acción
determinada), algunos de los dispositivos en los que están involucrados en su
realización son: Teléfonos celulares, grabadoras de video digital, sistemas de
alarma, maquinas de rayos x, etc.

0 comentarios:

Historia de Ciencias de la Computación

Para empezar con nuestra historia, debemos saber que ciencias de la computación
nació en el departamento de matemática en 1970. Conforme pasaron los años el
departamento cambio al nombre de “Matemática y Ciencias de la Computación”,
hasta que en 1990 se independizo de matemática, creando su propio departamento.
Cuando nació Ciencias de la Computación, fue criticada de varias formas:
• Carrera especialmente para técnicos.
• Campo de investigación para la matemática.
• Pseudo-Disciplina para los programadores de computadoras.
Hasta que en 1990, Ciencias de la computación se desarrollo como una
considerable rama de investigación, conocimiento e innovación que va desde la
teoría a la practica

0 comentarios:

1. Que es Ciencias de la Computacion

¿Qué es ciencia?, comenzamos con un ejemplo:
¿Cómo fue que Alexander Fleming descubrió la penicilina?. Dice que Fleming
estaba enfermo con la gripe y tenia varios frascos con distintas bacterias y
Microorganismos, y un día le paso que se le cayo un poco de mucosa a uno de los
recipientes y noto que esta mucosa evitaba el crecimiento de la bacteria, bueno en
ese momento no le presto tanta importancia pero otro día le paso lo mismo pero en
otro frasco y esta vez paso algo extraño, mas bien la bacteria del frasco poco a poco
iba eliminando a la mucosa, entonces Fleming se pregunto ¿ el por qué ? , con una
bacteria pasa una acción determinada y con otra, otra acción, y gracias a la pregunta
que se realizo investigo y descubrió la Penicilina”
Del ejemplo anterior nos damos cuenta que un científico es la persona debe saber
¿el por qué?, ¿el cómo? de las cosas. Nosotros abocados a ciencias de la
computación, debemos saber ¿Cómo funciona un editor de textos, un compilador, un
lenguaje de programación, una red neuronal, etc ?.
Nosotros sabiendo los fundamentos de ¿Cómo funcionan las anteriores
aplicaciones?, podemos desarrollar esas aplicaciones y mejorarlas, eso es lo bonito
de nuestra carrera

0 comentarios:

NASA's Blogosphere

NASA

Read and subscribe to recent posts.

› Visit blogs.nasa.gov

NASA on Twitter.com

NASA on Twitter

What's NASA doing right now? Get news and mission updates from Twitter.

› Twitter.com/NASA

0 comentarios:

GLAST First Light and a New Name!

First Light!

We had our first-light press teleconference this afternoon.  You can find the information and the slides here.  The gorgeous full-sky image, based only on about 95 hours of the first engineering data is shown below, and here is a link to higher-resolution versions (with annotation and without annotation). 


 
  

Because we look in all directions, it's a bit challenging to map all those directions onto a flat screen or piece of paper.  The image you see is an unrolling and flattening of the whole sky.  If you prefer to see the whole "globe", there is a movie here.  That bright band is our own milkyway galaxy glowing brightly in gamma rays.  The brightly flaring object billions of light years away, 3C454.3, mentioned in the previous post, is the bright source in the lower left side of the image. 

This is what we saw just opening our eyes and taking a first glimpse of the universe with this wonderful new facility, and it is comparable with the image that took years to make with the previous instrument, EGRET, on the Compton Gamma-ray Observatory.  Here is one way to think about this: the advent of air travel enabled the crossing of a continent in just a few hours, instead of many months by wagon, and that fundamentally changed our culture.  By analogy, I hope you can get a sense of what this new facility means to us! 

It took many people from around the world working together to produce this image.  I will include remarks from some of them in future posts, along with more perspectives about what the images mean to us and what we are learning. 

A new name: the Fermi Gamma-ray Space Telescope

The teleconference concluded with an announcement of the new name for the observatory, dedicated to Enrico Fermi.  Quoting from the teleconference site: 

Biography of Enrico Fermi 

Enrico Fermi (1901-1954) was an Italian physicist who immigrated to the United States. He was the first to suggest a viable mechanism for astrophysical particle acceleration. This work is the foundation for our understanding of many types of sources to be studied by NASA’s Fermi Gamma-ray Space Telescope, formerly known as GLAST. 

Fermi is most noted for his work on the development of the first nuclear reactor and for his major contributions to the development of quantum theory, nuclear and particle physics, and statistical mechanics. He was awarded the Nobel Prize in Physics in 1938 for his work on induced radioactivity and is today regarded as one of the top scientists of the 20th century. 

In addition to his direct connection to the science, Fermi holds special significance to the U.S. Department of Energy, the Italian Space Agency, and the Italian Particle Physics Agency. 



We also have a spiffy new logo: 
 

The "f" is an abstraction of a black hole system with an accretion disk (swirling matter falling into the black hole) and emerging jets of very high-energy particles, which emit gamma rays.  This is one of the key topics for us to study with the new data. 

0 comentarios: