관리 메뉴

HAMA 블로그

집단지성프로그래밍 (1) 본문

통계 & 머신러닝 & 딥러닝

집단지성프로그래밍 (1)

[하마] 이승현 (wowlsh93@gmail.com) 2015. 5. 25. 20:23

집단 지성 프로그래밍이라는 책을 정리해본다.  (http://www.yes24.com/24/goods/2917663?scode=032&OzSrank=1) 

이 책은 머신러닝의 기본이되는 내용을 훌륭히 소개하고 있는 꽤 유명한 책이다. 각 챕터의 핵심만 정리한다. 


순서 

1. 집단지성 소개

2. 추천시스템 만들기

3. 군집발견

4. 검색과 랭킹

5. 최적화

6. 문서필터링

7. 의사결정트리

8. 가격 모델링

9. 고급분류기법 : 커널기법과 SVM

10. 독립특성 발견 

11. 진화지성

12. 알고리즘 요약  


1. 집단지성 소개


집단지성의 예 

- 위키디피아  :  사용자 공헌으로만 만들어지는 온라인 백과사전이다. 알고리즘에 의존하기보단 정보를 제공하는 사용자 기반                            에 의존. 

- 구글             :  특정웹페이지에  있는 정보(링크) 를 랭킹으로 정리하여 검색  결과순서를 정하는데 이용. 수집한 데이터를 가                            지고 새로운 결론을 만들어냄.  정교한 알고리즘을 사용해서 새로운 비지니스 기회를 창출함. 


- 인터넷이전에 금융시장도 다수개인들의 거래행위를 통해 가격이 결정되며 , 표본조사등은 개인보다는 그룹의 통계적 결론을 유도했었고 참가자들 사이에서 새로운 결론을유추하였다.


기계학습이란

기계학습은 주로 수학과 통계학에 기반을 두는데 , 단순상관분석 및 회귀분석도 기계학습의 분야이다. 컴퓨터가 스스로 학습하게 하는 알고리즘에 관련된 인공지능의 한 영역인데, 대부분의 경우 기계학습은 주어진 데이터의 집합을 이용해서 데이터의 속성에 관한 정보를 추론하는 알고리즘을 말한다. 

단순히 예를들어서 스팸을 필터링하기위해서는 스팸에 대한 데이터들이 필요하고, 이러한 데이터는 스팸이라는것을 알려주면 , 기계 스스로 스팸을 걸러내는 능력을 가지게 할수있다. 


기계학습의 한계

이 책에서 소개할 스팸필터링 기술은 단어나 구 출현 여부로 구현한다. 문장구조나 의미는 고려하지 않는다. 이론적으로는 가능하지만 알고리즘 개선에 드는 노력에 비해 문법 적용에 드는 노력이 훨씬 더 크기 때문이다. 

기계학습은 만능이 아니다. 전에 나타나지 않은 패턴의 경우 해석오류가 발생할 가능성이 크며 , 새로운 정보를 판단해야할경우 기존에 한번 경험한 데이터만을 기반으로 법칙화된다. 인간은 거대한 문화지식과 경험,유사상황인식력등을 활용하지만~


실제 예 

구글의 페이지랭킹 /  아마존이나 넷플릭스의 추천시스템  /  할리우드 주식거래소의 영화 성공에 대한 예측시장 /

e하모니는 참가자의 데이터를 수집하여 멋진 상대를 찾아준다. 


 기계학습의 다른 사례 

 생물공학 / 금융사기 검출 / 컴퓨터 비전 / 제품 마케팅 / 공급망 최적화 / 주식시장 분석 / 국가안보  





Comments