관리 메뉴

HAMA 블로그

빅데이터, 스마트 에너지 그리고 예측 분석 with KNIME 본문

IoT 데이터 분석 (NILM)

빅데이터, 스마트 에너지 그리고 예측 분석 with KNIME

[하마] 이승현 (wowlsh93@gmail.com) 2015. 11. 2. 11:02


https://www.knime.org/files/knime_bigdata_energy_timeseries_whitepaper.pdf   요약 




요약


"빅데이터" 컨셉을 둘러싼 주요 토픽중에 하나는 거대한 시간기반 데이터 또는 검침(telemetry) 데이터의 활용이다.의미있는 분석에 사용하고자 더욱 더 상세한 데이터를  얻는게 저비용의  획득 및 저장 디바이스의 출현과 함께 가능해지고있다. 

데이터에 대한 매우 높은 상세 해상도는 주로 시간을 말하는데, (역주: 이전에 전력회사는 과금을 위해서  가정당 한달에 하나정도의 데이터만 필요했다면, 이제는 수요조절등을 위해서 1분당 혹은 1초당 데이터가 필요해질수있다.)   

요즘,  시간 스트리밍 데이터는 기반 시스템에 대해 더 잘 알기위해 또는 높은 정확도로 미래 사건을 예측하기위해  거의 모든 디바이스로부터 기록될수있는 환경이 조성되고있다.

이 작업은 아일랜드 스마트 에너지 모의운용에서 나온 - 각각의 미터 IDs 와 함께 시간당 모니터링된 6000 가구와 회사의 전력사용을 통한 -  데이터에 촛점을 맞추고있다. 

이 프로젝트의 주요 목적은 2가지가있다:


- 고객 맞춤 계약을 정의하기위한 능력 키우기

- 미래에 전력부족 및 전력과잉으로부터 전기 회사를 방어하기위한 전기사용 예측 


6000 의 커스터마이징된 계약 제공 정의는 사실 현실적이진 않다. (실제는 훨씬 많다) 목적은 고객 맞춤 계약을 정의하기위한,  공통적인 전기사용 행동양식 을 가진 작은 그룹을 정의하게 되는것이다. 그러므로 이 프로젝트의 첫번째 단계는 - 데이터를 수집하고, 정제하고 변환한 후에 -   전기 사용 행동에 관한 각각의 미터 ID 를 나타내기 위한 몇몇개의 측정치를  정의하는 것 이었다.

그런 측정치들은  오리지널 6000 미터 IDs  를  전기사용에 관해  비슷한 행동양식을 가진 미터 IDs 를 포함한 최대치 30 클러스터로 그룹 짓기 위해 사용되었다. 그 클러스터의 전기사용수치에 대한 평균 타임시리즈는 클러스터 타임시리즈 프로토타입으로서 채택되었다.

두번째 목적이 염두되는 한도에서 -  즉 전기소비에 대한 예측같은 -  몇몇 옵션들이 활용된다.
그 예측은 전체 에너지 사용량을 염두할수있다. 그러나 정확치 않을수도있고 기저 사용 패턴이 너무 일반적일수도있다. 


스케일의 다른 쪽 끝부분은 미래 에너지 사용은 각각의 미터 ID 에 대해 예측될수있다. 이것은 문제를 오버해석할수도 있는데 마지막 결과의 매우 어려운 해석에 도달하기위해  과도한 양의  계산을 하기 때문이다.

절충안으로서, 우리는 오직 시간상 어떤 포인트에서 전체 전기사용의 부분적 수치로서 클러스터의 프로토타입 타임시리즈에 촛점을 맞추었다. 자동회귀(auto-regressive) 모델은 각각 그것의 과거에 기반하여 미래의  타임시리즈를 예측하는것으로 채택되었다. 이 프로젝트는 또한 "빅데이터" 기회를 부가적으로 제공했다.  6000 meter IDs 에서 일년이 넘는 동안 매 30분 각격의 샘플을 -이것에 적합하며 파워풀한 머쉰상에서도 이 데이터의 프로세싱은 꽤 오래 걸린다 - 의미있는  많은 데이터를 생산했다. 

고전적인 접근을 빅데이터 접근과 비교하면,  분석의 첫번째 부분은 KNIME 를 활용한 빅데이터 엔진을 사용하여 돌렸다.

이 논문에서 기술된 분석은 대중적으로 활용할만한 데이터 와 거대한 양의 데이터 변형 ,타임시리즈 클러스터, 타임시리즈분석적용, 그리고 예측분석 및 비지니스 판단을 위해  오픈소스 KNIME (나임) 플랫폼을 사용한다.

빅데이터 컴포넌트들이 오픈소스는 아니고  trial 로 활용할수있다. 모든 예제는 www.knime.com 웹사이트에서 다운로드할수있다.


장면 세팅 : 시간과 빅데이터

일반적으로 검침 기반 데이터는 타임스템프 요소를 가지고, 그것은 예측을 위한 타임시리즈 분석에 사용된다.
제조업,화학,생명과학,운수,자동차,에너지나 보안등에 빅데이터가 활용될수있다.이 논문은 에너지 산업을 위한 스마트에너지에 촛점을 맞추며 그리고 공공활용데이터 와 오픈소스데이터 분석 플랫폼인 KNIME 기반이다.

에너지 산업은 현재 변화를 맞이하고있다.

복잡한 네트워크, 경쟁자들의 등장 및  규제 증가 , 소비가격 및 그린/안전한 에너지등 에너지 산업은 옛날처럼 단순하게 운용될수없어지고있다.  하나의 긍정적인 트랜드는 스마트 미터의 등장이다. 스마트 미터는 에너지 회사가 소비자의 에너지 사용을 관리하고 이해시키는데 도움을 주는 방법이다. 또한 에너지 회사가 더 나은 에너지 수요조절능력을 갖게 될수있는 만들수도있다.KNIME 은 데이터 분석,  전체 분석 프로세스를 위한 사용자친화 그래픽 워크벤치,데이터접근, 데이터이동,초기투자,강력한 예측 분석,가시화,리포팅툴등을 제공하는 오픈소스 플랫폼이다. 

KNIME 은 데스크탑에 다운로드해서 공짜로 사용할수있다. KNIME 제품은 추가적인 기능들 예를들어 공유저장소,인증,원격실행,스케쥴링,SOA 모음, 웹유저 인터페이스등을 포함한다. 강력한 빅데이터 익스텐션은 하둡처럼 분산 프레임워크로 활용할수있다. KNIME 은 60개국 3000 조직에서 사용된다. 

이 프로젝트를 개발하는 워크플로우는 KNIME에 기반하며, 원본 거대한 양의 에너지데이터를 변형하고, 타임시리즈를 클러스터하며 타임시리즈 분석 테크닉을 적용한다. 그리고 예측 분석, 센서블 빅데이터 프로세싱, 비지니스 판단등을 데이터로부터 그려냅니다.



분석 접근 오버뷰  (역주:  가구당 전체 전력 사용을 분석함.  전자제품별 분석은 아님)

 

1. 각각의 meter ID  별로, 타임시리즈 데이터를 임포트해서 정제하고, 모읍니다. ( 하루당 /  시간당 ) 

2. 각 meter ID 의 전기사용에 대한 행동양식을 계산하고 정의합니다. (K-Menas) 

3. 모든 meterID 를 행동양식에 기반하여 클러스터링합니다. 6000가구를 30개의 클러스터로 축소합니다. (K-Means)

4. 타임 시리즈 예측으로 옮깁니다. 각각의 클러스터는 예측 모델을 만듭니다. (과거기반으로 미래를 예측하기위해)

5. 예측 모델들을 평가합니다. 모든 값에 대한 예측 오류 나 에너지 피크등에  의해....  (AR - *  / NN - * ) 

6. 빅데이터 플랫폼을 사용하여 스텝 1,2 의  행동측정계산을 다시 구현하고 실행합니다. 



Comments