domingo, 30 de octubre de 2016

Data Mining & Big Data en la Industria de Suministro de Energía



Permitirme que en esta entrada comparta con vosotros una versión del trabajo que he entregado para el módulo “Técnicas de Almacenamiento y Análisis de Datos “ del Curso de Experto en Big Data que estoy realizando en la Universidad Pontificia de Salamanca.

“El valor del data mining es averiguar aquello que intuitivamente no sabes”
Dr. Steven Pratt (Centerpoint Energy)

La industria de suministro de energía (“Utilities”) tiene un importante peso dentro del sector industrial tanto a nivel nacional como internacional. A modo de ejemplo, y a falta de datos globales, según el Edison Electric Institute  esta industria representaba en 2007 y sólo en EEUU 298.000 M$ y empleaba a más de 400.000 personas.

Desde un punto de vista local y tomando datos de UNESA, la patronal de las eléctricas, la aportación de las empresas de esta asociación al PIB asciende a 20.303 M€, lejos del tamaño de los Estados Unidos, pero representando casi un 2% de dicho Producto Interior Bruto, y habiendo invertido en el periodo 2000-2014 más de 60.000 M€ en España y generado más de 180.000 empleos de forma directa, indirecta o inducida.

La implantación e inversión de las utilities en Data Minig, Big Data y el resto de herramientas de análisis de datos se encuentra por detrás de otras industrias 



y todavía no suficientemente desarrolladas, con casi un cuarto de ellas sin ningún tipo de capacidad en estos campos
 



Data Minig & Endesa

El 4 de Agosto de este año nos despertábamos con la noticia de que Endesa aseguraba que el 80 % del fraude eléctrico respondía a empresas de diversos sectores industriales y servicios y sólo un 20% a particulares con importantes consumos, cifrando en menos del 1% el imputable a familias de bajos recursos (Europa Press, 2016). Pero, ¿Cómo ha podido Endesa llegar a estas conclusiones?; la propia noticia nos habla de herramientas de Data Mining.

Desde el año 2006 Endesa tiene en marcha en colaboración con la Universidad de Sevilla y otras instituciones un proyecto para la detección de pérdidas no técnicas (entendidas estas como aquellas que se producen en la distribución de electricidad y que no son debidas al efecto Joule). En España las pérdidas por fraude representan entre un 35%-45% de las pérdidas no técnicas. Fuente: http://grupo.us.es/ustic150/wp-content/uploads/2011/08/Biscarri_ICEIS2009_281120081.pdf

Las técnicas de Data Mining utilizadas en este caso son de tipo descriptivo, una de ellas basada en la variabilidad del consumo del cliente, otra basada en la tendencia del consumo y una tercera que resume otras contribuciones a la detección del fraude, que posteriormente se utilizan en un proceso predictivo.

El análisis de variabilidad, enfatiza aquellos consumidores con una gran variabilidad de consumo mensual, frente a consumidores similares. Este tipo de análisis suele comparar “valores normales” con “outliers” a través de una estimación de la desviación típica. En lugar de simplemente mandar inspectores a aquellos outliers, en este caso, se añade la desviación típica estimada como una característica del consumidor que será utilizada como parámetro de entrada en el modelo predictivo.

En cuanto a la tendencia en el consumo, esta no se utiliza para estimar el consumo, sino para determinar su tendencia y compararla con consumidores similares. El algoritmo utilizado parte de 24 lecturas del consumidor, a las que se les calcula la media móvil de 6 meses y se cuenta el número de veces que el consumo está por encima o por debajo de dicha media. Con toda esta información se construye un estimador cuadrático.

Por último, el resto de contribuciones, tiene en cuenta otros factores, como por ejemplo, el número de horas de consumo a máxima potencia, el perfil horario del consumo o las lecturas reales tomadas.

Una vez contamos con esta información, pasamos al proceso predictivo del Data Mining, cuyo objetivo es inferir una regla que nos permita clasificar a los clientes como “normales” o “anómalos”. Para caracterizar a los clientes se utilizan los atributos comentados anteriormente. El proceso predictivo utiliza aprendizaje supervisado y los atributos principales utilizados son la variabilidad, la tendencia de consumo, el número de horas a máxima potencia y el número de lecturas validas, entre otros.

El algoritmo de clasificación utilizado es un algoritmo GRI (Generalized Rule Induction), con las siguientes reglas (tablas 1 y 2) y los siguientes resultados (tabla 3)





 










Y cuatro posibles valores, Sospechoso, No sospechoso, Falsos positivos y verdaderos positivos. De los consumidores de partida, se inspeccionaron un 2% de ellos (las inspecciones son caras) y de estos un 20% fueron realmente fraudulentos, lo que proporciona una tasa de predicción muy superior a anteriores campañas de la compañía.

Big Data & Utilities

El alcance de la transformación que el Big Data y el análisis de datos, tanto de clientes como de la red, puede representar para el sector del suministro de energía viene perfectamente reflejado en una presentación de IBM del año 2014 (Quitzau, 2014). En esta presentación, se clasifica la posible influencia en tres sectores: Operaciones en la red, Smart Metering y Gestión de personal y activos.

Desde el punto de vista de red, el Big Data permitirá datos detallados de carga y voltaje, permitiendo un mejor diseño de la red de alta y media tensión, así como un control sobre el estado de la red en tiempo real. Además, permitirá analizar el estado de los equipos a través del internet de las cosas, analizando sus condiciones, temperatura etc. todo esto será posible ya que alrededor de un 60% de los equipos de la red deberán ser reemplazados en esta década. Se podrá además, mejorar la calidad del suministro y la protección, tanto de trabajadores como de usuarios. En cuanto a los servicios de campo eliminará la toma de datos manual y permitirá conocer las potencias y voltajes utilizados casi en tiempo real. Por último facilitará inmensamente la tarea de reporte regulatorio y permitirá mejor la lucha contra el fraude.

En cuanto al Smart Metering, el BD nos permitirá reducir los tiempos sin servicio tras averías, así como mejorar la lucha contra el fraude, optimizar el mantenimiento y reparación de los contadores, predecir de una manera más precisa los consumos. Desde el punto de vista de CRM y marketing permitirá que aumentemos el ratio de aceptación de ofertas ya que le haremos la oferta adecuada al cliente adecuado y nos permitirá de nuevo cumplir la normativa de una forma más eficiente.

Por último, desde el punto de vista de los activos, se puede mejorar la operación y el mantenimiento de estos, evitando el mantenimiento programado e instaurando un mantenimiento predictivo basado en el estado los equipos y no en programas de revisión/actualización fijos.

Un caso real de aplicación de este tipo de estrategias es el de Center Point Energy, que proporciona electricidad y gas a más de 2 M de personas en varios estados del centro de EEUU, en el que la información en tiempo real de los contadores inteligentes ha permitido mejorar significativamente la eficiencia de la compañía y por tanto reducir costes.

El big data y el análisis permite a Center Point anticipar problemas capatando y analizando información sobre el uso de la potencia eléctrica. Además, la empresa utiliza información externa, como la predicción meteorológica para sus modelos de big data, de forma que puede predecir el impacto de una tormenta, por ejemplo, en función de datos históricos, la edad de los equipos en el área y otros factores.

La compañía estima que ha resuelto 6 millones de Órdenes de Servicio sin personarse, ahorrando 600.000 galones de combustible (aprox. 2,3 M de litros), a mayores de otros beneficios, como la seguridad de consumidores y operarios al detectar de forma remota los problemas en la red, “proporcionar servicios energéticos específicos que hacen al vida más fácil a nuestros clientes”.


El nuevo sistema de CRM de la compañía (en desarrollo en este momento) y que permite traer datos desde diferentes áreas de negocio de forma que se pueda analizar la satisfacción del cliente desde diferentes puntos de vista; pretende ayudar a segmentar los clientes de forma que se pueda “proporcionar servicios energéticos específicos que hacen al vida más fácil a nuestros clientes”, ofreciéndoselos de una manera mucho más personalizada.

Pero como Steven Pratt (IT officer de la compañía) dice, “ha habido mucho hype alrededor del Big Data, por lo que tienes que identificar usos para tu compañía, puedes necesitar diferentes tecnologías, aplicaciones o capacidades que la compañía de al lado”.