Permitirme
que en esta entrada comparta con vosotros una versión del trabajo que he
entregado para el módulo “Técnicas de Almacenamiento y Análisis de Datos “ del
Curso de Experto en Big Data que estoy realizando en la Universidad Pontificia
de Salamanca.
“El
valor del data mining es averiguar aquello que intuitivamente no sabes”
Dr.
Steven Pratt (Centerpoint Energy)
La
industria de suministro de energía (“Utilities”) tiene un importante peso
dentro del sector industrial tanto a nivel nacional como internacional. A modo
de ejemplo, y a falta de datos globales, según el Edison Electric Institute esta industria representaba en 2007 y sólo en
EEUU 298.000 M$ y empleaba a más de 400.000 personas.
Desde
un punto de vista local y tomando datos de UNESA, la patronal de las
eléctricas, la aportación de las empresas de esta asociación al PIB asciende a
20.303 M€, lejos del tamaño de los Estados Unidos, pero representando casi un
2% de dicho Producto Interior Bruto, y habiendo invertido en el periodo
2000-2014 más de 60.000 M€ en España y generado más de 180.000 empleos de forma
directa, indirecta o inducida.
La
implantación e inversión de las utilities en Data Minig, Big Data y el resto de
herramientas de análisis de datos se encuentra por detrás de otras industrias
y
todavía no suficientemente desarrolladas, con casi un cuarto de ellas sin
ningún tipo de capacidad en estos campos
Data Minig & Endesa
El
4 de Agosto de este año nos despertábamos con la noticia de que Endesa
aseguraba que el 80 % del fraude eléctrico respondía a empresas de diversos
sectores industriales y servicios y sólo un 20% a particulares con importantes consumos,
cifrando en menos del 1% el imputable a familias de bajos recursos (Europa Press, 2016). Pero, ¿Cómo ha
podido Endesa llegar a estas conclusiones?; la propia noticia nos habla de
herramientas de Data Mining.
Desde
el año 2006 Endesa tiene en marcha en colaboración con la Universidad de
Sevilla y otras instituciones un proyecto para la detección de pérdidas no
técnicas (entendidas estas como aquellas que se producen en la distribución de electricidad
y que no son debidas al efecto Joule). En España las pérdidas por fraude
representan entre un 35%-45% de las pérdidas no técnicas. Fuente: http://grupo.us.es/ustic150/wp-content/uploads/2011/08/Biscarri_ICEIS2009_281120081.pdf
Las
técnicas de Data Mining utilizadas en este caso son de tipo descriptivo, una de
ellas basada en la variabilidad del consumo del cliente, otra basada en la
tendencia del consumo y una tercera que resume otras contribuciones a la
detección del fraude, que posteriormente se utilizan en un proceso predictivo.
El
análisis de variabilidad, enfatiza
aquellos consumidores con una gran variabilidad de consumo mensual, frente a
consumidores similares. Este tipo de análisis suele comparar “valores normales”
con “outliers” a través de una estimación de la desviación típica. En lugar de
simplemente mandar inspectores a aquellos outliers, en este caso, se añade la
desviación típica estimada como una característica del consumidor que será
utilizada como parámetro de entrada en el modelo predictivo.
En
cuanto a la tendencia en el consumo,
esta no se utiliza para estimar el consumo, sino para determinar su tendencia y
compararla con consumidores similares. El algoritmo utilizado parte de 24
lecturas del consumidor, a las que se les calcula la media móvil de 6 meses y
se cuenta el número de veces que el consumo está por encima o por debajo de
dicha media. Con toda esta información se construye un estimador cuadrático.
Por
último, el resto de contribuciones,
tiene en cuenta otros factores, como por ejemplo, el número de horas de consumo
a máxima potencia, el perfil horario del consumo o las lecturas reales tomadas.
Una
vez contamos con esta información, pasamos al proceso predictivo del Data Mining, cuyo objetivo es inferir una
regla que nos permita clasificar a los clientes como “normales” o “anómalos”.
Para caracterizar a los clientes se utilizan los atributos comentados
anteriormente. El proceso predictivo utiliza aprendizaje supervisado y los
atributos principales utilizados son la variabilidad, la tendencia de consumo,
el número de horas a máxima potencia y el número de lecturas validas, entre
otros.
El algoritmo de clasificación utilizado es un
algoritmo GRI (Generalized Rule Induction), con las siguientes reglas (tablas 1
y 2) y los siguientes resultados (tabla 3)
Y
cuatro posibles valores, Sospechoso, No sospechoso, Falsos positivos y
verdaderos positivos. De los consumidores de partida, se inspeccionaron un 2%
de ellos (las inspecciones son caras) y de estos un 20% fueron realmente fraudulentos,
lo que proporciona una tasa de predicción muy superior a anteriores campañas de
la compañía.
Big Data & Utilities
El
alcance de la transformación que el Big Data y el análisis de datos, tanto de
clientes como de la red, puede representar para el sector del suministro de energía
viene perfectamente reflejado en una presentación de IBM del año 2014 (Quitzau, 2014). En esta
presentación, se clasifica la posible influencia en tres sectores: Operaciones
en la red, Smart Metering y Gestión de personal y activos.
Desde
el punto de vista de red, el Big
Data permitirá datos detallados de carga y voltaje, permitiendo un mejor diseño
de la red de alta y media tensión, así como un control sobre el estado de la
red en tiempo real. Además, permitirá analizar el estado de los equipos a
través del internet de las cosas, analizando sus condiciones, temperatura etc.
todo esto será posible ya que alrededor de un 60% de los equipos de la red
deberán ser reemplazados en esta década. Se podrá además, mejorar la calidad
del suministro y la protección, tanto de trabajadores como de usuarios. En cuanto
a los servicios de campo eliminará la toma de datos manual y permitirá conocer
las potencias y voltajes utilizados casi en tiempo real. Por último facilitará
inmensamente la tarea de reporte regulatorio y permitirá mejor la lucha contra
el fraude.
En
cuanto al Smart Metering, el BD nos
permitirá reducir los tiempos sin servicio tras averías, así como mejorar la
lucha contra el fraude, optimizar el mantenimiento y reparación de los
contadores, predecir de una manera más precisa los consumos. Desde el punto de
vista de CRM y marketing permitirá que aumentemos el ratio de aceptación de
ofertas ya que le haremos la oferta adecuada al cliente adecuado y nos
permitirá de nuevo cumplir la normativa de una forma más eficiente.
Por
último, desde el punto de vista de los activos,
se puede mejorar la operación y el mantenimiento de estos, evitando el
mantenimiento programado e instaurando un mantenimiento predictivo basado en el
estado los equipos y no en programas de revisión/actualización fijos.
Un
caso real de aplicación de este tipo de estrategias es el de Center Point Energy,
que proporciona electricidad y gas a más de 2 M de personas en varios estados
del centro de EEUU, en el que la información en tiempo real de los contadores
inteligentes ha permitido mejorar significativamente la eficiencia de la
compañía y por tanto reducir costes.
El
big data y el análisis permite a Center Point anticipar problemas capatando y
analizando información sobre el uso de la potencia eléctrica. Además, la
empresa utiliza información externa, como la predicción meteorológica para sus
modelos de big data, de forma que puede predecir el impacto de una tormenta,
por ejemplo, en función de datos históricos, la edad de los equipos en el área
y otros factores.
La
compañía estima que ha resuelto 6 millones de Órdenes de Servicio sin
personarse, ahorrando 600.000 galones de combustible (aprox. 2,3 M de litros),
a mayores de otros beneficios, como la seguridad de consumidores y operarios al
detectar de forma remota los problemas en la red, “proporcionar servicios energéticos
específicos que hacen al vida más fácil a nuestros clientes”.
El
nuevo sistema de CRM de la compañía (en desarrollo en este momento) y que
permite traer datos desde diferentes áreas de negocio de forma que se pueda
analizar la satisfacción del cliente desde diferentes puntos de vista; pretende
ayudar a segmentar los clientes de forma que se pueda “proporcionar servicios energéticos
específicos que hacen al vida más fácil a nuestros clientes”, ofreciéndoselos
de una manera mucho más personalizada.
Pero
como Steven Pratt (IT officer de la compañía) dice, “ha habido mucho hype alrededor del Big Data, por lo que
tienes que identificar usos para tu compañía, puedes necesitar diferentes tecnologías,
aplicaciones o capacidades que la compañía de al lado”.