CARTOGRAFIADO DE DATOS. La Imagen de los datos permite brindar una representación de toda la estructura de la información en un sólo gráfico, aunque estos datos sean numéricos, alfanuméricos o textuales, precisos o imprecisos. Además permite, visualizar las relaciones multidimensionales que puedan existir entre ellos, permitiendo brindar un diagnóstico por imagen, una rápida y completa comunicación e interpretación de la información contenida en los datos.

viernes, 7 de diciembre de 2012

Análisis Sensométrico Difuso

¿Cómo seria una nueva propuesta metodológica para estudiar los datos provenientes de pruebas sensoriales, utilizando la lógica borrosa?

El empleo del Análisis Multivariado de datos a partir de escalas borrosas enriquece al proceso de análisis sensorial de un alimento y constituye un instrumento de observación apropiado que facilita la exploración de todo tipo de datos.

Se realizaron estudios dentro de la la tesis Doctoral de la Carrera en Red en Alimentación del Norte Argentino (UNJujuy) sobre "Estudio de modelos borrosos para determinar calidad sensorial de alimentos", el problema que se percibe de interés tecnológico en el marco del área de la sensometría, es la vinculación del estudio de escalas borrosas con el análisis estadístico de datos sensoriales de alimentos y bebidas. Por ello surge la necesidad de estudiar la aplicación de la “lógica borrosa” en la representación y agregación de los datos sensoriales y en las estrategias de análisis multivariante, para su posterior explotación y visualización.


¿Qué es el Análisis Sensométrico?



La sensometría define y pone a punto metodologías de análisis estadístico de los resultados de degustaciones en la industria agroalimentaria. Genera datos llamados sensoriales porque son generados en la percepción a través de los sentidos. Se encuentra en pleno desarrollo por lo que continuamente surgen nuevos problemas y métodos que exigen técnicas estadísticas más sofisticadas.

El análisis sensorial permite medir características de los productos alimenticios que no se pueden evaluar directamente mediante pruebas físico-químicas. La evaluación sensorial (ES), asimismo, proporciona información sobre la calidad de los alimentos evaluados y las expectativas de aceptabilidad de parte del consumidor. 

En las sesiones de pruebas sensoriales, paneles de expertos o consumidores valoran una serie de productos para determinar sus características más relevantes. Dichas pruebas generan datos sensoriales voluminosos. Por lo tanto, los métodos multivariados, reunidos bajo el nombre de sensometría, juegan un papel importante en el análisis de los mismos. 


¿Por qué es importante?

El problema planteado se considera novedoso por la propuesta de uso de escalas difusas a través de la lógica borrosa; y relevante por su aplicabilidad en un área importante, ya que el análisis sensorial en la industria de los alimentos, poco estudiado e investigado está involucrado en el desarrollo de nuevos productos, permite estudiar la influencia de modificaciones en la formulación o proceso de fabricación, determinar las condiciones óptimas de conservación y situar el producto frente a la competencia [Calí, 2002]. 

Además, constituye un instrumento eficaz para el control de calidad y aceptabilidad de un alimento de diversas industrias, como carnes (Picallo, 2002), aceite de oliva y aceituna (Espinilla y col., 2008), quesos (Coste), mosto de uva (ICV, 2003), cereza (Mirábile y col., 2010) y otros.

En la revisión bibliográfica sobre el análisis de datos provenientes de pruebas sensoriales aparece una problemática aún no tratada por los especialistas En primer lugar, la dificultad de conseguir que una respuesta humana precisa y reproducible. La escala es el instrumento que se utiliza para medir las respuestas sensoriales y es fundamental dentro de la evaluación sensorial. La correcta elección de la escala de medida puede modificar el éxito de un proceso de evaluación sensorial. [Meilgaard y col., 1999]. Por lo tanto existen inconvenientes en la elección del tipo de escala de evaluación para medir las percepciones sensoriales imprecisas. 
También se ha detectado que los juecen manifiestan la dificultad para expresar con un valor numérico exacto el grado de preferencia de una alternativa a otra, bajo tales circunstancias, una aproximación más realista consiste en expresar sus percepciones modelando la información sensorial de forma cualitativa por medio de valores o etiquetas lingüísticas [Martínez, 2007], a través de la aplicación de la lógica borrosa.

Otra problemática identificada es la carencia de antecedentes para el análisis de datos provenientes de escalas borrosas. Si bien, existen estudios de modelización de la información vaga e imprecisa en los procesos de evaluación sensorial, por ejemplo, en Martínez (2007) fue propuesto un modelo inicial basado en la aproximación lingüística borrosa, estos modelos se utilizan para evaluar, no para analizar. La representación de los datos borrosos a través de tablas cuantitativas facilitará la aplicación de técnicas de análisis multivariado conocidas y abrirá un nuevo paradigma de conocimiento más preciso.

En el caso particular del vino, sólo la ES permite medir y valorar el placer obtenido al beber vino. Constituye el eslabón que une entre sí a cada una de las actividades profesionales que van desde el cultivo de la vid hasta su servicio en la mesa. Tanto el viticultor y enólogo, no tienen otro método más efectivo para controlar la vinificación (Jackson Ronald, 2002). En definitiva, la ES del vino, proporciona información valiosa acerca de cómo es la bebida que esta catando que por un lado, permitirá valorar la bondad del método de elaboración utilizado y, por otro, establecer si el vino obtenido se adecua a los requisitos predefinidos por el tipo de consumidor (Catania y Avagnina, 2010). Es imprescindible buscar técnicas más objetivas para representar y analizar datos sensoriales y que justifican el planteo de esta investigación.

La lógica borrosa es una rama de la inteligencia artificial que se fundamenta en el concepto "Todo es cuestión de grado" y se rige por la teoría de los conjuntos difusos. Permite trasladar sentencias sofisticadas del lenguaje natural a un lenguaje matemático formal, con resultados exactos a partir de datos imprecisos. La habilidad humana de comunicarse mediante definiciones vagas o inciertas es un atributo importante de la inteligencia. La lógica borrosa es un tipo de lógica que reconoce más que simples valores verdaderos o falsos, las proposiciones pueden ser representadas con grados de veracidad o falsedad. Por ejemplo, la frase “hoy es un día soleado” puede ser 100% verdad si no hay nubes, 80% de verdad si hay pocas nubes, 50% de verdad si existe neblina y 0% si el cielo está totalmente cubierto [Lozano y Fuentes, 2003]. Imaginemos un universo de discusión comprendido entre [0, 1]. Para el enfoque clásico solo existen dos valores posibles, la total pertenencia (1) o ninguna pertenencia (0). En cambio, en el enfoque difuso existe lo que son llamadas pertenencias parciales. Esto es que el valor de pertenencia se encuentra dentro del intervalo de 0 a 1.

¿Cómo se pretende desarrollar y presentar la aplicación de la lógica borrosa y métodos de análisis multivariado en la evaluación sensorial?

Se tiene como objetivo establecer un esquema metodológico en el que puedan determinarse funciones de pertenencia que caractericen a cada variable (cuali/cuantitativa) y ayude a comprender la percepción sensorial de la muestra de alimento evaluada. 

Se aplicará lógica borrosa y métodos multivariados en datos sensoriales surgidos de: caracterizar muestras de vino Malbec, discriminar muestras de cereza clara y oscura con diferente tratamientos de conservación, y describir la pérdida de calidad en el tiempo de muestras de alfajores de chocolate en estudios de vida útil. Se utilizaron valoraciones de jueces, para ciertas muestras de diversos descriptores sensoriales provenientes de pruebas sensoriales analíticas - descriptivas y afectivas - aceptabilidad.

En primer lugar se tabulan los datos en tablas de distinta naturaleza, en función del conocimiento que se desea extraer para cada caso (Figura 1). 
Figura 1. Tablas de datos cuantitativos y cualitativos- Métodos de Análisis Factorial


Para desarrollar la propuesta metodológica para el análisis de datos sensoriales con técnicas de Análisis Multivariante sobre datos borrosos se propone el siguiente proceso metodológico:

1. Codificación de datos sensoriales. Será necesario tabular los datos en diversas tablas de naturaleza numérica para escalas no estructuradas y cualitativas para escalar estructuradas en categorías.
2. Fusificación de los datos. Será necesario tabular los datos en diversas tablas de naturaleza borrosa, aplicando técnicas e fusificación para transformar los descriptores cuantitativos y cualitativos en variables lingüísticas borrosas.

Estrategia metodológica para borrosificar los datos (Fusificación):

a) Definir la o las Variables Lingüísticas 

Habitualmente, dependiendo del dominio del problema, se elige un conjunto de etiquetas o de términos lingüísticos apropiado, que se utiliza para describir el conocimiento vago o impreciso. Dado que las estimaciones lingüísticas son sólo cálculos aproximados realizados por individuos, puede considerarse que cuando nos encontramos con una escala no estructurada (Numérica), el cero indica ausencia de la variable y la diferencia entre dos valores es de magnitud conocida, las variables siguen una distribución normal y resulta más apropiado utilizar Números Borrosos Gaussianos. 

a = centro de gravedad o media
b = desvió típico
Figura 2. Formulación de Función Gaussiana utilizada para definir valores de pertenencia.
b) Estandarización y Fusificación de las variables

Las puntuaciones en los atributos medidas en diferentes escalas, son normalizadas con el propósito de obtener escalas comparables y poder realizar comparaciones entre atributos diversos. Para cada descriptor, se lleva a cabo una normalización lineal, es decir, se selecciona el máximo y el mínimo, el máximo se representa por un valor de uno y el mínimo un valor de cero, entonces los otros valores se ajustarían con la ecuación de la recta. La valoración otorgada y normalizada de cada individuo puede convertirse en un número borroso derivado empíricamente. Con las funciones de pertenencia (Figura 2) de la variable lingüística ya determinadas en el paso anterior, el valor estandarizado es comparado con la función de pertenencia correspondiente produciendo valores borrosos.

c) Valoración borrosa aproximada

La evaluación de la calidad sensorial de un producto se lleva a cabo mediante la agregación de los descriptores. Se calcula un valor colectivo, para cada característica, aplicando un “operador de agregación” sobre las evaluaciones fusificadas de los jueces y posteriormente un “método de desfusificación” para calcular un valor preciso (crisp). Esto es lo que en la literatura se conoce como “desfusificar” números borrosos y representa el perfil sensorial colectivo del objeto evaluado.


3. Análisis multivariado . Métodos de análisis estadísticos aplicados sobre escalas borrosas.

El análisis de datos consta de varias etapas de complejidad creciente:
Primero, se investigan los datos en relación a alguna característica o propiedad común. Es el punto de partida para evaluar la validez y fiabilidad de cada dato, detectar mediciones extrañas (por ejemplo, outliers), etc. El segundo paso consiste en el reconocimiento de formas o patrones, en buscar estructuras internas en los datos, con objeto de obtener información sobre las relaciones existentes entre ellos o para detectar posibles modelos matemáticos a los obedecen. En un tercer paso, los datos se investigan en relación a algún modelo matemático elegido previamente o de algunas hipótesis emitidas sobre la estructura de los datos. Por último, el análisis de datos se ocupa de extraer conclusiones y de evaluarlas convenientemente. Generalmente, las conclusiones más demandadas toman la forma de una tendencia

Estrategia metodológica para el análisis multivariado de datos difusos:
Para el análisis de una tabla de datos con métodos multivariados, Lebart et al. (1995) plantea realizar primero un análisis factorial según la naturaleza de los datos y luego una clasificación basada en un algoritmo mixto: clasificación jerárquica con el método de Ward y agregación alrededor de centros móviles (K-medias). Finalmente se obtiene una partición del conjunto de datos y la caracterización de cada una de las clases, según las variables activas e ilustrativas, ya sean cuantitativas o cualitativas. Para la caracterización de las clases se utilizan los valores test, que son índices descriptivos construidos siguiendo la metodología de pruebas de hipótesis, pero sin el objetivo de hacer inferencias [Césari, 2011]. En este caso la naturaleza de los datos es propia para su explotación a través del AFCS, Análisis de Correspondencias Simples. Y para su caracterización, resulta de relevancia el uso de la prueba del chi2 por celda, además del Valor de Test.



¿Algún resultado relevante hasta el momento?

Análisis de datos borrosos en “Estudio de la determinación de las características visuales, aromáticas y gustativas de muestras “no comerciales” de vino Malbec provenientes de regiones vitivinícolas de Mendoza”.

Los datos provinieron del Centro de Estudios de Enología de la Estación Experimental Agropecuaria (EEA-INTA) Mendoza y constituyen resultados de pruebas discriminativas para elaboraciones a escala piloto de cv. Malbec, de diferentes zonas de Mendoza, Argentina, evaluadas por un panel de 12 expertos entrenados de la EEA. La prueba sensorial consistió en evaluar copas de vino utilizando dos descriptores para el examen visual, ocho para el examen olfativo y siete para el examen gustativo. Se utilizó escala de tipo lineal. También se apreciará el puntaje final de referencia de los panelistas.

Variables.
Percepción sensorial visual de las muestras de vino
Percepción sensorial olfativa, de las muestras de vino
Percepción sensorial gustativa y
Percepción sensorial calidad de las muestras de vino


Indicadores. 
Evaluación de 8 jueces sobre 11 muestras de vino Malbec
Los descriptores se cuantificaron con escalas continuas de 0 a 5 y escalas estructuradas de 0 (ausencia), 1(muy débil), 2 (débil), 3 (medio), 4 (fuerte) y 5 (muy fuerte). 
Percepción sensorial visual. Escala Hedónica de:

  • EVIn Intensidad Visual
  • EVMa matiz
Percepción sensorial olfativa. Escala Hedónica de : 
  • EOIA Intensidad Aroma 
  • EONV Nota Vegetal
  • EONFl Nota Floral 
  • EONFt Nota Frutal
  • EONEs Nota Especiada 
  • EONB Nota Balsàmica
  • EONEm Nota Empyreumatico
  • EONA Nota Animal 
  • EONM Nota Mineral
Percepción sensorial gustativa. Escala Hedónica de :
  • EGAh Alcohol
  • EGAz Acidez
  • EGCo Concentraciòn 
  • EGUn Untuosidad
  • EGAg Astringencia 
  • EGAm Amargor
  • EGPe Persistencia
También se apreciará el puntaje final de referencia de los panelistas (puntaje de 0 a 10).
Percepción sensorial calidad: puntaje final de preferencia o calidad percibida por el juez.
  • PF Puntaje final Preferencia

a. Codificación de los datos sensoriales, en tabla de datos cuantitativos 
Escalas continuas: las valoraciones se representaron por un número, de 0 a 5 para los descriptores sensoriales y 1 a 10 para la puntuación final de preferencia. Se creo una tabla de datos cuantitativos continuos, en fila cada muestra valorada por un juez y en columna cada descriptor medido según detalle en esquema Figura 3.

Figura 3. Tabla de datos cuantitativos continuos


b. Fusificación de los datos obteniendo números borrosos

i. Variables Lingüísticas definidas

En el caso del Puntaje de preferencia PF, se asignó las siguientes etiquetas lingüísticas (conjuntos difusos): inaceptable, disgusta, indiferente, gusta y aceptable. Se definió para estas etiquetas las funciones de pertenencia Gaussiana como se muestra en la Figura 4. Los valores sensoriales serán estandarizados a valores de 0 a 1, por lo que los parámetros a (centro de gravedad del conjunto Gaussiano) y b (desvió del conjunto) son valores reales entre [0,1].

Figura 4. Definición de la Variable lingüística: Descriptor sensorial.

Figura 5. Definición de la Variable lingüística: Puntaje Final.

El eje Y de la Figura 4 y 5 se refiere al grado de verdad para la cual los valores de las escalas estandarizados pertenecen a cada función de pertenencia. 
Para identificar y graficar la función de pertenencia de las variables lingüísticas resulta de ayuda el uso de los gráficos XY de M. Excel y en la herramienta para desarrollo de sistemas de inferencia difusa de Matlab, FuzzyyTool.


ii. Estandarización y Fusificación de las variables

Para cada descriptor sensorial, se llevó a cabo una normalización lineal, es decir, se seleccionó el máximo y el mínimo; el máximo se representa por un valor de uno y el mínimo por un valor de cero.
Se calculó el grado de pertenencia que podría tener un dato sensorial a varias funciones de pertenencia de una variable, obteniendo números borrosos. El procedimiento se realizó para cada valoración, y consistió en aplicar la ecuación de la Figura 2, 3 y 5 para determinar el valor de pertenencia para cada conjunto borroso.
En la Figura 6, se muestran los números borrosos para las escalas sensoriales del examen visual de las copas Junín 1 y Junín 2.

Figura 6. Fusificación de Descriptor Persistencia del gusto y Puntaje Final de preferencia.

iii. Agregación de las valoraciones borrosas de los 12 jueces

El valor colectivo de los 12 jueces para una característica y una copa dada se obtuvo mediante el método del Centro de Gravedad o Centroide (agregación y desfusificación), cuyos resultados se sintetizan el la Figura 7. Se calculó la cardinalidad del conjunto difuso como la suma de los valores de pertenencia de cada valoración, cada una se divide por el desvío de cada conjunto (parámetro b), finalmente para obtener el valor agregado se utilizó la siguiente ecuación:
donde i= identifica a un conjuntos difusos
k = número de conjuntos difusos
ai= centro de gravedad de cada conjunto

Figura 7. Parte de la tabla de Agregación sobre los descriptores para cada copa

Además se estableció la media aritmética y se observó que el método de agregación produce un ajuste en la obtención del valor colectivo (corrección de la imprecisión) mas representativo de la realidad y y menos influenciado por valoraciones extremas.


c. El análisis multivariado de datos
Para la puesta en práctica de la estrategia combinada de análisis factorial y métodos de clasificación se utilizó el software de libre distribución para uso académico DTM. Minería de Datos y Textos, que trata la estadística exploratoria multidimensional de datos complejos, incluyendo datos numéricos y textuales [Lebart, 2007]; y el módulo de análisis sensorial del software comercial Xlstat.
El Análisis de Correspondencias Simples o “Binarias” (AFCS), estudia las distribuciones de valores de pertenencia en fila y columnas de una tabla de contingencia, en este caso números borrosos. La clasificación sobre los factores y su posterior caracterización permitió describir las distintas copas tanto con los conjuntos difusos como con las escalas sensoriales originales. En la Figura 8 se observan los resultados mas significativos estadísticamente (a de 0.05 y 0.01), destacando dos grandes grupos de copas, muy diferenciadas, como Junin 1, Lavalle y Santa Rosa menos preferido y con un perfil sensorial de menos calidad que las copas de La Consulta Angulo y Altamira, mas preferidos y con un perfil optimo de calidad sensorial.
A partir de la tabla con las valoraciones colectivas por copa, obtenidas de la agregación utilizamos un gráfico XY Difuso para representar el número borroso para cada descriptor, en la Figura 9 vemos representada la variable lingüística del la intensidad y matiz visual, correspondiente al examen visual de las copas. Según los enólogos, un perfil de calidad visual para vinos sin defectos ideal sería una baja intensidad en el matiz y una alta intensidad visual, es por esto que las copas están representadas en los conjuntos débil a fuerte para intensidad visual y en los conjuntos ausencia a débil para el matiz.

Figura 8. Resultados del AFCS + Clusterig + Validación de las escalas borrosas.
Para estudiar simultáneamente el perfil sensorial a partir de los números borrosos, se realizaron AFCS para el examen visual (Figura 10), examen olfativo y examen gustativo, respectivamente. 

Figura 9. Resultados borrosos de la Agregación de Intensidad y Matiz Visual de las copas.
Figura 10. Resultados del AFCS Perfil Sensorial del examen Visual.

En la Figura 10, podemos ver los resultados significativos estadísticamente (a=0.05) en relación al perfil sensorial borroso del examen visual. Las copas de las bodegas de Lavalle, Junín 1 y Santa Rosa están altamente asociadas a una débil intensidad y matiz visual. En el caso de Tupungato 1 y Altamira, el perfil de estas copas muestra ausencia de matiz y alta y fuerte intensidad visual (muy buena calidad). La Consulta Horacio, Aníbal Agrelo y Drummond se caracterizan por muy débil matiz. En el caso de Junín 2 se destaca el matiz débil e intensidad visual media. Finalmente La Consulta Angulo (punto más pequeño, porque está asociado a diversos conjuntos) se describe por muy débil matiz y alto y fuerte intensidad visual.

¿Alguna conclusión hasta el momento?

En cualquier etapa del análisis de datos, desde el momento de la medición de la característica de una variable hasta la aplicación del método de análisis se pueden encontrar fuentes de incertidumbre de diferentes clases. La primera[1] surge de la variabilidad de los datos, propia de la naturaleza no determinista de los hechos sociales y naturales la que, afortunadamente, propicia tal variabilidad. Otra clase de incertidumbre es la imprecisión generada al medir los valores de una variable, tanto por parte del instrumento de medida, como por parte del observador que la realiza. Por último, la vaguedad aparece cuando se utiliza el lenguaje humano, sea o no profesional, para describir la observación o medida del resultado de un experimento como un dato. Esto es especialmente cierto cuando se trabaja con opiniones de expertos que se traducen en expresiones verbales que, posteriormente, han de ser tratadas como modalidades de una variable (variables lingüísticas). Si tiene en cuenta la vaguedad, la incertidumbre o la intensidad con la que se manifiestan las preferencias humanas resulta más apropiado un enfoque basado en relaciones borrosas o borrosas ya que éstas permiten graduar las preferencias. 



Referencias bibliográficas
· Berenice Colmenares (2009), Aplicación de métodos factoriales en los análisis sensoriales: caso de ocho vinos catalanes. Tesis Máster en Estadística e Investigación Operativa. Universidad Politécnica de Cataluña
· Catania Carlos y Avagnina Silvia -2010-La Interpretación Sensorial del Vino. Editorial Caviar Bleu I.S.B.N 9789872372538
· Césari Matilde y Césari Ricardo (2012), Material pedagógico de curso de postgrado de la Maestría en Ingeniería Ambienta de la Facultad de Ingeniería – UNCuyo, Mendoza, Argentina.
· Césari Ricardo y Césari Matilde-2011-El Análisis Multivariante en la Caracterización de Cluster. Encuentro de Investigadores y Docentes de Ingeniería (EnIDI2011) mayo 2011, Los Reyunos, San Rafael, Mendoza
· Espinilla, Martínez, Pérez, y Liu,. -2008-Modelo de Evaluación Sensorial con Información Lingüística Multigranular para el Aceite de Oliva. ESTYLF08, Cuencas Mineras (Mieres Langreo)
· Jackson, Ronald, 2002-Análisis sensorial de vinos, Manual para profesionales (evaluación cuantitativa del vino página 187), 330 páginas, Editorial Acribia,
· Lebart, Morineau, Piron. -1995-Statisitique exploratoire multidimensionnelle, Dunod, Paris
· Martínez, L. -2007-Sensory evaluation based on linguistic decision analysis. International Journal of Aproximated Reasoning, 44(2):148–164
· Meilgaard M., Civille G., and Carr B. -1999-Sensory evaluation techniques . CRC Press, Florida,USA
· Elizabeth H. Alarcón (2012). La Evaluación Sensorial como una Medición de Calidad http://avibert.blogspot.com/2012/03/la-evaluacion-sensorial-como-una.html
· Lozano, M. c. y Fuentes, F. (2003). Tratamiento borroso del intangible en la valoración de empresas de Internet. extraído el 1 de Junio de 2008 desde http://www.eumed.net/cursecon/libreria/
· Picallo, A. -2002-El análisis sensorial como herramienta de calidad carne y productos cárnicos de cerdo. Jornadas Regionales de Actualización en el Sector Lácteo y Porcino. Tandil, Argentina
· Calí, M.J. -2002-Análisis sensorial de los alimentos. Fruticultura & Diversificación INTA. EEA Alto Valle (48). http://www.inta.gov.ar/altovalle/info/biblo/rompecabezas/pdfs/fyd48_entrev.pdf


____________________________________
[1]
Incertidumbre ambigua: Ocurre cuando no tenemos seguridad en la aparición de un cierto fenómeno o resultado de un cierto experimento.
Incertidumbre imprecisa. El valor de una variable se encuentra en un conjunto de valores pero no se puede precisar cual es. Por ejemplo: “Juan tiene entre 20 y 25 años".
Incertidumbre vaga. El conjunto que se especifica no esta bien definido. Por ejemplo:”Juan es joven".


PÓSTER DE DIFUSIÓN

miércoles, 7 de marzo de 2012

Apuntes Sistemas Inteligentes e Inteligencia Artificial. Métodos y herramientas análisis de datos - minería de datos y texto