Namierzenie usterki w krajowej sieci energetycznej często jest porównywane do prób znalezienia igły w stogu siana. Setki tysięcy powiązanych ze sobą czujników rozmieszczonych na ogromnym terenie rejestrują dane o prądzie elektrycznym napięciu i inne ważne parametry, często wykonując kilka zapisów na sekundę.
Naukowcy z MIT-IBM Watson AI Lab opracowali nową metodę obliczeniową, która może automatycznie wykrywać anomalie w strumieniach danych w czasie rzeczywistym.
W przypadku sieci energetycznej próbowano przechwytywać dane za pomocą statystyk, a następnie definiować reguły wykrywania na podstawie wiedzy z danej dziedziny, aby stwierdzić, że na przykład jeśli napięcie wzrośnie o pewien procent, należy zaalarmować operatora sieci. Takie systemy oparte na regułach, nawet wyposażone w analizę danych statystycznych, wymagają dużego nakładu pracy i wiedzy specjalistycznej. My pokazujemy, że możemy zautomatyzować ten proces, a także uczyć się wzorców z danych przy użyciu zaawansowanych technik uczenia maszynowego.Jie Chen, pracownik naukowy i kierownik laboratorium MIT-IBM Watson AI Lab
Określanie prawdopodobieństwa
Naukowcy z MIT zaczęli od stworzenia definicji anomalii jako zdarzenia, którego prawdopodobieństwo wystąpienia jest niskie, np. nagłego skoku napięcia. Dane sieci energetycznej są traktowane jako rozkład prawdopodobieństwa, więc jeżeli można oszacować gęstość prawdopodobieństwa, można zidentyfikować wartości o niskiej gęstości w zbiorze danych. Punkty danych o najmniejszym prawdopodobieństwie wystąpienia to anomalie.
Oszacowanie tych prawdopodobieństw nie jest łatwe. Czujniki zbierające wszystkie dane są od siebie wzajemnie zależne, co utrudnia dokonanie pomiarów. Naukowcy MIT zastosowali specjalny rodzaj uczenia maszynowego, zwany przepływem normalizującym, który jest szczególnie skuteczny w szacowaniu gęstości prawdopodobieństwa próbki.
Przepływ normalizujący został wzbogacony o tzw. sieć bayesowską, która może uczyć się wyjątkowo złożonych struktur związków przyczynowo-skutkowych.
Czujniki wchodzą ze sobą w interakcje, mają związki przyczynowo-skutkowe i zależą od siebie nawzajem. Musimy więc być w stanie wprowadzić informacje o tych zależnościach do sposobu obliczania prawdopodobieństwa.Jie Chen
Sieć bayesowska rozkłada wspólne prawdopodobieństwo wielu szeregów czasowych na mniej złożone prawdopodobieństwa warunkowe, które znacznie łatwiej sparametryzować, nauczyć się i ocenić. Dzięki temu badacze mogą oszacować prawdopodobieństwo zaobserwowania pewnych odczytów z czujników i zidentyfikować te z nich, które mają niskie prawdopodobieństwo wystąpienia, co oznacza, że są anomaliami.
Czytaj też: Czym tak naprawdę jest sztuczna inteligencja?
Autorzy przetestowali tę metodę, sprawdzając, jak dobrze radzi sobie ona z identyfikacją anomalii w danych dotyczących sieci energetycznej, ruchu drogowego i sieci wodociągowej. Zestawy danych użyte do testów zawierały anomalie, które zostały zidentyfikowane przez ludzi, więc badacze mogli porównać anomalie zidentyfikowane przez model z rzeczywistymi błędami w każdym z systemów.