Espacios. Vol. 33 (12) 2012. Pág. 15 |
SECRH-FOS: Sistema de Extracción de Conocimiento para Empresas de Recursos de Hidrocarburos, basado en la Filosofía de Open SourceKESEHR-OSP: Knowledge Extraction System for Enterprises of Hydrocarbon Resources, based on Open Source PhilosophySuhail Zabala1 y Julián Vásquez 2 Recibido: 15-03-2012 - Aprobado: 30-06-2012 |
Contenido |
Gracias a sus donaciones esta página seguirá siendo gratis para nuestros lectores. |
RESUMO: |
ABSTRACT: |
1. IntroducciónLa información manejada por las empresas de recursos de hidrocarburos a través de sus distintos sistemas informáticos corresponde a datos históricos que se han incrementando con el pasar de los años. Analizar esta data en su totalidad a través de un experto humano constituye una labor prácticamente imposible. Por lo que se hace necesaria la incorporación de Nuevas Tecnologías de Información y Comunicación (NTIC) para apoyar los procesos de toma de decisiones de las gerencias encargadas de coordinar este tipo de sistema. Estas gerencias, por lo general, son las responsables de manejar la información de las reservas petrolíferas de sus respectivos países manteniendo un repositorio de datos muy amplio, el cual va constantemente actualizándose y creciendo. Cobran aún mayor importancia la responsabilidad de estas gerencias al ser la explotación de hidrocarburos una de las principales fuentes energéticas de las naciones del mundo y motivo de las mayores disertaciones en ámbitos económicos internacionales. De este modo, el estudio de estas gerencias constituye un buen punto de partida para efectuar un proceso de extracción de conocimiento en base a datos históricos suficientemente representativos lo que permitirá la toma de decisiones más acertadas y efectivas ya que estará enfocada en las “experiencias” previas y memoria operativa de la organización. En consecuencia, en la presente investigación se planteó el diseño de un sistema de extracción de conocimiento para este tipo particular de gerencia, que ayude a obtener información validada en base a experiencias previas y valiosas para la toma de decisiones. La intención del sistema es marcar un curso de acción a partir del cual se pueden procesar datos provenientes de distintos repositorios y mediante determinados criterios de categorización y clasificación obtener una matriz de información nunca antes concebible e imposible de obtener si se pensara en un procesamiento manual. Esta matriz permitiría dilucidar patrones de datos insospechados idóneos para el establecimiento de la toma de decisiones gerencial. El enfoque utilizado fue el descubrimiento de conocimiento a partir de grandes bases de datos (KDD: Knowledge Discovery in Databases), metodología actualmente aplicada de forma habitual para la toma eficiente de decisiones, basadas en experiencias previas, en las empresas e industrias. La industria petrolera no escapa a esta realidad y en base a la naturaleza y cantidad de información transaccional que procesa, susceptible de ser clasificada y categorizada desde múltiples e indefinidas categorías, tales como: datos exploratorios, producción en pozos, sometimiento de reservas, entre otros resulta ser una candidata ideal para este tipo de estudio. Igualmente, la propuesta de un único almacén de datos traería beneficios adicionales a las empresas, al no poseer una data dispersa sino consolidada en un único punto y accesible para cualquier análisis que se requiera de la misma, también propiciaría investigaciones científicas (estudio a profundidad de características obtenidas) y mejoras en la calidad de la información que se está manejando actualmente; lo que a futuro conllevaría a expandir las áreas de exploración, optimizar los procesos de la cadena de valor de la industria (exploración, perforación y producción de pozos, basándose en las características, por ejemplo, petrofísicas y las correspondientes relaciones halladas), y permitiría obtener así una mayor reserva de hidrocarburos, aspecto este de vital importancia para la explotación petrolera. 2. Knowledge discovery in databases (KDD)Knowledge Discovery in Databases (KDD) es una metodología para la obtención o extracción de información potencialmente útil que es desconocida, a partir de un almacén de datos. Con esta metodología se busca descubrir conocimiento nuevo, no confirmar o desmentir hipótesis. Primera Fase. Recolección de Datos.Consiste en la determinación de las fuentes de información que pueden ser útiles y el lugar de origen de las mismas, el diseño del almacén de datos y su posterior implantación, a fin de que permita la visualización previa de los datos. Sobre el almacén de datos, en PMSI (s.f.) se establece que el data mining no depende de la organización de los datos; pueden ser archivos tradicionales, las bases de datos o el Data Warehouse. Segunda Fase. Selección, Limpieza y Transformación de Datos.Se deben eliminar el mayor número de datos inconsistentes o erróneos (limpieza) e irrelevantes (selección). La selección implica unir varias tablas relacionales, archivos de transacciones, etc., es decir, una fusión de filas y columnas. En esta fase se filtran los datos, de forma que se eliminen valores incorrectos, no válidos o desconocidos. Por último, la data seleccionada es transformada según las necesidades y el algoritmo a utilizar. Tercera Fase. La Minería de datos (Data Mining).Ésta es una etapa crucial, en la cual, se selecciona y aplica la técnica de Data Mining apropiada, para seleccionar la misma, influye en gran manera, por no decir exclusivamente, el tipo de conocimiento que se desea extraer de la data. Por esta razón, una vez recolectada la información de interés, se puede decidir qué tipo de patrón o patrones se quiere descubrir. Cuarta Fase. Evaluación y Validación.Una vez obtenidos los resultados, se debe proceder a su validación comprobando que los mismos sean válidos y suficientemente satisfactorios. En fin, se evalúan los patrones extraídos, para así identificar cuáles de ellos representan conocimiento. Quinta Fase. Interpretación y Difusión.Es la fase final, el conocimiento descubierto es visualmente presentado a los usuarios. Esta parte de la metodología, utiliza técnicas de visualización (gráficos, reportes, cuadros, etc.) para ayudarlos a entender e interpretar los resultados. Se difunde y utiliza el nuevo conocimiento. 3. Técnica de minería de datosPara realizar la extracción de información útil, que no está representada explícitamente en los almacenes de datos, la minería de datos combina técnicas de análisis estadístico, inteligencia artificial, base de datos y de visualización, entre otros. Caracterización y discriminación. Para Daza (s.f.) es útil que los datos sean generalizados en diferentes niveles de abstracción, lo cual facilita a los usuarios el estudio general del comportamiento de los mismos. La caracterización, suministra un resumen breve de las características generales o principales rasgos de una colección de datos. La discriminación, constituye una comparación de las características generales de dos o más colecciones de datos. Clasificación. En Hernández (s.f.) se expresa que la clasificación es el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases ya conocidas. Siendo una dependencia, una relación en la que un patrón en que se definen una o más características (atributos) determinan el valor de otra. Es decir, consiste en clasificar un objeto basado en su descripción. Se basa en la selección de un grupo de objetos pertenecientes a la categoría dada e inducir (por medio de una máquina de aprendizaje) la descripción de esa categoría. Se suele emplear esta técnica, cuando se quiere hacer un diagnóstico, reconocer un patrón o describir una colección de datos.
4. SECRH: Sistema de extracción de conocimiento para empresas de hidrocarburosUsando el modelo de casos de uso presentado en Jacobson (1998), se diseña SECRH-FOS: Sistema de Extracción de Conocimiento para Empresas de Recursos de Hidrocarburos, el cual interactúa con dos actores principales:
Los casos de uso en los que se estructura SECRH-FOS se representan en la Fig. 1. Su significancia se explica brevemente a continuación: Fig. 1. Diagrama de Casos de Uso para SECRH-FOS.
Según como se indica en Jacobson (1998), de cada caso de uso se deriva una interfaz de la aplicación, en esta oportunidad representada por la pantalla del sistema con la cual se espera que el usuario final o actor interactúe. La secuencia de pantallas trata de modelar la interacción típica del usuario desde el proceso de acceso al sistema, la selección de los almacenes de datos, la escogencia de las bases de datos, tablas y atributos deseados, determinación de la técnica de minería de datos hasta la visualización de los resultados. Así, la lectura de las interfaces debe compararse con los casos de uso especificados con anterioridad para obtener de esa forma una visión más amplia de la manera cómo el sistema diseñado actúa a nivel conceptual para el tratamiento de los datos (ver Fig. 2 a 25). Fig. 2. Interfaz de la pantalla Acceso al Sistema. Fig. 3. Interfaz de la pantalla Bienvenida al Sistema. La Fig. 4 muestra la pantalla a partir de la cual el usuario puede seleccionar el almacén de datos de donde se extraerá la información o actualizar uno ya existente. Es de especial interés para esta investigación hacer la demostración de una corrida completa del sistema, por tal, el ítem escogido para su explicación es el primero: Nuevo Almacén de Datos, ya que éste constituye el inicio del proceso de extracción de conocimiento. Seguidamente, la Fig. 5 indica las fuentes de los datos, los cuales se pueden obtener mediante la ejecución de un script, la conexión a una base de datos existente o mediante el acceso a un archivo de datos. Fig. 4. Interfaz de la pantalla Seleccionar Almacén Fig. 5. Interfaz de la pantalla Agregar Tablas. La Fig. 6, por ejemplo, muestra la pantalla que se presenta cuando la opción escogida de la fuente de datos es la ejecución de un script. Por su lado, la Fig. 7 muestra la interfaz cuando el acceso se hace desde una base datos, ésta es la opción que se empleará para darle seguimiento al proceso de extracción de conocimiento. En esta pantalla, el usuario debe indicar el servidor de base datos, la base de datos, y los datos de autenticación de usuario. Cuando se conecta, el usuario tiene la posibilidad de escoger cuáles de las distintas tablas que constituyen esta base de datos serán utilizadas para la extracción de conocimiento. Fig. 6. Interfaz de la pantalla Ejecución de Script. Fig. 7. Interfaz de la pantalla Conexión con Base de Datos. En la Fig. 8 se puede observar la forma como se cargan las distintas tablas que conforman la base de datos seleccionada. El usuario puede escoger una o varias, dependiendo del análisis de datos que desee realizar, así como los atributos que necesitará para el análisis. La Fig. 9 indica cuando el sistema está produciendo la carga del esquema conceptual de las tablas seleccionadas. A continuación, la Fig. 10 muestra los campos que conforman las distintas tablas escogidas, en esta interface el usuario selecciona los campos foráneos necesarios para el cruce de la información entre los distintos contenedores; a partir de los mismos se cargarán los datos requeridos para la extracción de conocimiento. Seguidamente, la Fig. 11 muestra el único almacén de datos generado después del cruce de la información. Este almacén es luego, en la Fig. 12 mostrado en forma de grid para visualizar una parrilla de datos obtenidos de la consulta antes especificada. Luego, en la Fig. 13 se da el tránsito a la depuración de los datos, la cual puede ser por selección, limpieza o transformación, incluso las tres al unísono. Fig. 8. Interfaz de la pantalla Seleccionar Campos. Fig. 9. Interfaz de la pantalla Agregando Tablas. Fig. 10. Interfaz de la pantalla Claves Foráneas. Fig. 11. Interfaz de la pantalla Almacén de Datos. Fig. 12. Interfaz de la pantalla Almacén de Datos-Mostrar Grid. Fig. 13. Interfaz de la pantalla Depuración de Datos. La primera depuración de datos ocurre por selección. En esta oportunidad el usuario tiene la opción de seleccionar las tablas que desee y los campos que sean de su preferencia, esto se puede observar en la Fig. 14. Si la depuración de datos es por limpieza, el proceso es un tanto más complejo. En esta oportunidad el usuario puede eliminar todos los registros nulos, eliminar todos los registros con valores inconsistentes o errados agrupados por tipos de datos; y finalmente, eliminar registros con valores inconsistentes o errados indicando tabla por tabla y campo por campo (ver Fig. 15). Fig. 14. Interfaz de la pantalla Depuración de Datos-Selección. Fig. 15. Interfaz de la pantalla Depuración de Datos-Limpieza. Cuando se trata de una limpieza por registros nulos, la eliminación la realiza el sistema de manera automática, tal como se muestra en la Fig. 16. Si la limpieza es por Tipos de Datos, la Fig. 17 muestra como el usuario puede determinar sobre cuál tipo de dato de la tabla o tablas indicadas y según cuál criterio se va a realizar la limpieza. En el caso particular del ejemplo, se muestra una limpieza por el dato tipo fecha, con el criterio de que las fechas sean menores al 31/12/1900. La Fig. 18 muestra una barra de progreso a partir de la cual se observa la eliminación de los datos que cumplan con el criterio o condición indicada. Fig. 16. Interfaz de la pantalla Depuración de Datos-Limpieza Registros Nulo. Fig. 17. Interfaz de la pantalla Depuración de Datos-Limpieza Tipos de Datos. Fig. 18. Interfaz de la pantalla Depuración de Datos-Limpieza Tablas y Campos. Fig. 19. Interfaz de la pantalla Depuración de Datos-Transformación. Paso siguiente es el proceso de minería de datos. En la Fig. 20 el usuario tiene la potestad de elegir la técnica de minería de datos que quiere emplear, la cual puede ser por: (a) reglas de asociación, en la cual el sistema buscará las asociaciones fuertes entre los ítems de información; (b) segmentación, a partir del cual el sistema analiza el agrupamiento de los datos; (c) discriminación, en este caso el sistema compara las características generales de dos o más colecciones de datos; o (d) caracterización, mediante el cual el sistema visualizará un resumen de las características generales del almacén de datos. La Fig. 21 muestra la barra de progreso en la cual el sistema ejecuta la técnica de minería de datos escogida por el usuario. Fig. 20. Interfaz de la pantalla Minería de Datos. Fig. 21. Interfaz de la pantalla Ejecución de la Minería de Datos. A continuación, el sistema arroja las distintas reglas de asociación que ha podido determinar al ejecutar la técnica de minería de datos. La Fig. 22 muestra la interface a partir de la cual la aplicación enlista el conjunto de valores obtenidos luego del proceso de minería de datos, lo cual visualiza mediante reglas. Tales reglas, posteriormente pueden ser chequeadas por el usuario, tal como se observa en la Fig. 23. En esta interface el usuario selecciona los elementos cuyos valores obtenidos considere que tienen validez. Fig. 22. Interfaz de la pantalla Resultados-Visualización. Fig. 23. Interfaz de la pantalla Resultados-Validación. Finalmente, la Fig. 24 visualiza los resultados a través de una tabla, cuadro, gráfica o reporte, los resultados serán presentados según la necesidad del usuario. Los mismos pueden ser guardados para posteriormente ser colocados en informes de gestión que ayuden a la gerencia de hidrocarburos en los procesos de toma de decisiones. La Fig. 25 indica el cierre del programa. Fig. 24. Interfaz de la pantalla Resultados-Difusión. Fig. 25. Interfaz de la pantalla Fin del Programa. 5. Por qué código abiertoLa idea de realizar este diseño en una filosofía de desarrollo abierto tiene sus serias implicaciones futuras. Actualmente, la mayoría de las aplicaciones que trabajan con este tipo de datos en la industria de hidrocarburos está limitada al software propietario, esto ha hecho que algunos países de América Latina y Europa hayan tenido la necesidad de comprar los derechos de uso de estos softwares a las casas desarrolladoras de los mismos y con ello depender de los procesos de: conversión, adaptación, auditoría, actualización, soporte técnico y operatividad en general. Todo esto como consecuencia de ser softwares genéricos que se hacen con funciones estandarizadas para varias empresas, sin tomar en cuenta las particularidades o especificidades de las mismas. 6. ConclusiónKDD es un método que debe ser empleado con carácter de urgencia en las empresas de hidrocarburos para poder determinar patrones de comportamiento impredecibles de la inmensa cantidad de información manipulada por la alta gerencia de estas organizaciones quienes deben oportunamente tomar decisiones eficientes a cerca de la materia petrolera. 7. ReferenciasDaedalus (2001). Data, Decisions And Language, S.A Minería de Datos. [Página web en línea]. Disponible: http://www.daedalus.es/mineria. Daza, M. (s.f.) APRIORI I - Un algoritmo para minar reglas de asociación en bases de datos relacionales. [Página web en línea]. Disponible:http://jupiter.umsanet.edu.bo/postgrado/ informática/post/postg6.html. Hernández, J. (s.f.). Minería de Datos. Trabajo no publicado. España: Universidad Politécnica de Valencia. Jacobson, I. (1998). Object-Oriented Software Engineering. A Use Case Driven Approach. England: Addison-Wesley. PMSI (s.f.). El Data Mining. [Página web en línea]. Disponible: http://www.pmsi.fr/dminit1s.htm. |
1 Universidad de Oriente, Escuela de Hotelería y Turismo, Dpto. Informática. E-mail: suhailzabala@hotmail.com |