썩게 하는 기술이 부각될 것이다.
현재 대부분의 DB는 오랜 세월의 데이터, 방대한 데이터를 견뎌내는 요소에 초점을 맞추고 있다. 장기간 쌓인 데이터를 데이터마이닝 하여 의미있는 결론들을 추출해내는 것 또한 매우 어렵지만 유용한 학문이자 기술이다.
하지만 50년전의 소비형태가 현재의 의사 결정에 영향을 미치고 있다면 그것이 올바른 사용일까? 또한 wiki나 게시판에서 50년전의 최신 뉴스를 다루고 있다면, 예전 것을 보며 재미를 느낄 수는 있을지 모르겠지만 그것을 유지하고 관리하는데 들어가는 비용에 비한 효용은 적을 것이다. 그래서 많은 log DB들을 시디로 구워서 보관하기도 한다.
하지만 생명의 커다란 묘미는 바로 生과 死에 있다. 그러한 생과 사의 커다란 흐름 속에서 새로움이 오래됨을 대체하고 새로운 활력과 변화를 가져온다. 마찬가지로 오래된 시스템, 오래된 데이터를 어떠한 방식과 기준으로 효율적으로 썩혀나갈 것인가도 중요해질 것이다.
지금 대부분의 온라인 솔루션들이 짊어지고 있는 큰 짐은, 처음에는 사용자 lock-in을 위하여 데이터를 쌓아왔지만, 지금은 제공자 lock-in으로도 작용하고 있어서 커다란 변화를 시도하기 힘든 상태에 있다는 점이다. 제공자 lock-in으로 작용하는 요소에는 많은 것들이 있겠지만, (예: 제공자에 대한 소비자들의 기대와 익숙함, 소비자들의 데이터가 쌓인 구조와 이에 따른 분량 등) 결국 날로 쌓여가는 데이터를 어떻게 효율적으로 가지치기를 할 수 있는가에도 있다.
일종의 역 데이터 마이닝을 통해서 '의미없는 결론'을 만들어내는 요소들을 원인으로 추적하여 제거할 수 있는 - 마치 치석을 제거하듯 - 기법들이 개발되어야 한다.
이미 유전알고리즘 등에서는 aging과 같은 휴리스틱을 도입하여 적절히 local optimum에서 빠져나올 수 있도록 하는 방법들이 소개된 바 있다.
자, 당신의 게시물은 장수하는 것이 좋을까?
photo by
batintherain
성형 전 사진들을 말소해주는 사업이 있다면 연예인들이 좋아하겠지.
역시 당신(both of you)은 예리해
"역" 데이터마이닝과 "효율적인" 데이터마이닝의 차이를 정확하게 모르겠음. 물론 '어떤 데이터는 판단에서 제외한다'라고 정의해주는 것도 의미는 있겠지만서도. 과연 글로벌 옵티멈을 추구할 때 제외할 데이터가 있을까? 이 글 자체가 '데이터가 처리할 수 없는 만큼 범람하고 있다'라는 전제를 깔고 있는건가?
그리고 그 말소의 방식이 두뇌의 시냅스처럼 그쪽으로 생각 안하면 데이터는 살아있되 자연스레 링크가 약해지는 그런 것 말인가? 아니면 개별 정보단위 규모의 '마이크로 패러다임 시프트'가 일어나서 기존의 정보가 대체되는 것을 말하는건가.
아무튼 생각할 거리를 많이 주는 발상임. :^)
윗분 말씀대로 생각할 거리가 많은 발상이군요..; (음.. 그 이상 뭐 다른 코멘트를 달기가..-_-)
역 데이터마이닝은 음 말하자면 신경망에서의 back-propagation처럼, sensitivity-analysis 따위 같은 거로 알고리즘의 결과물에 영향을 미치는 요소들을 거꾸로 마이닝해 들어가겠다는 거지. 리버스-엔지니어링의 데이터버전이랄까나.
글로벌 옵티멈을 추구할때 제외할 데이터는 있다. 이건 인지과학에서 두뇌를 연구할때도 보면 뇌가 일정 지점의 expert화된 지점(물론 이것도 local optimum이겠지만)에 도달하면 이전에 사용되던 데이터들의 링크를 가지치기 하며 전반적인 효율성을 더 올리는 것이 발견되는 것 처럼, 일단 글로벌 옵티멈(이라는게 꽤 이상적이긴 하지만)에 도달한 후에는 기존 데이터는 '썩혀도' 괜찮다는 이야기.
링크를 약화시키는 방향도 괜찮고, 데이터 자체를 삭제하는 것도 나쁘지 않다고 보는데.. 어느 정도 추상화가 이루어진 후에는 이전의 raw material은 log형태로 별도의 물리적 공간(이젠 dvd이려나)에 저장하더라도 라이브 DB에 담겨있을 이유는 없다고 보는 거지.. ㅎㅎ
옹아 조금은 알고 좀 더 모르겠다 크. 나중에 직접 가르쳐줘요~
-ㅁ------- 앗 나의 구린 설명.