한 줄로 요약하자면 대량의 데이터로부터 지식을 캐내는 것을 말합니다. 이는 데이터 안에서 지식을 발굴한다는 의미로 귀납추론의 한 방법이라고 할 수 있겠습니다. 데이터마이닝은 지식에 대한 추출의 과정에 있어서 데이터 패턴을 추출하기 위한 필수 과정으로 필요한데, 우선 지식에 대한 추출의 과정을 보자면
1. 데이터 정제 : 잡음과 불일치 데이터의 제거
2. 데이터 통합 : 다수의 데이터 원천들의 결합
3. 데이터 선택 : 분석작업과 관련된 데이터들이 데이터베이스로부터 검색됨.
4. 데이터 변환 : 요약이나 집계 등과 같은 연산을 수행함으로서, 마이닝을 위해 적합한 형태로 데이터를 변환하거나 합병 정리함.
5. 데이터마이닝 : 데이터 패턴을 추출하기 위하여 지능적 방법들이 적용되는 필수적 과정
6. 패턴 평가 : 몇 가지 흥미있는 측도들을 기초로, 지식을 나타내는 진짜 흥미로운 패턴들을 구별
7. 지식 표현 : 사용자에게 채굴된 지식을 보여주기 위하여 시각화와 지식 표현 기법들이 사용됨.
등으로 정리할 수 있습니다.
위 단계 1부터 4까지는 다른 형태의 데이터 처리단계들로서 데이터마이닝을 위한 데이터 준비단계입니다. 이러한 준비단계를 거쳐 데이터마이닝 단계까지 올라온 데이터들은(이를 데이터웨어하우스라고합니다.) 사용자나 지식베이스와 상호작용이 가능합니다. 그리고 이를 통해 흥미로운 패턴들이 사용자에게 제시된 후, 새로운 지식으로서 지식 베이스에 저장될 수 있습니다. 이러한 견해에 따르면, 데이터마이닝은 평가를 위해 숨겨진 패턴을 찾아내는 필수적인 단계이면서도 전체 과정에서 보면 하나의 단계에 불과합니다. 앞서 짧게 정의하였던 한 문장을 조금 더 길게하여 데이터마이닝을 정의하자면
데이터마이닝은 ‘데이터베이스나 데이터웨어하우스 또는 그 밖의 다른 정보저장소들에 저장되어 있는 대량의 데이터로부터 흥미로운 지식을 발견하는 과정’이라고 할 수 있습니다.
첨언하여 데이터마이닝의 탄생배경(?)을 짤막하게 언급하자면, 데이터베이스 기술은 원시적인 파일처리로부터 질의와 트랜잭션 처리를 하는 데이터베이스 관리 시스템의 개발로 발전되었습니다. 계속되는 발전 속에서 효율적이고 효과적으로 데이터를 분석하고 이해하는 도구에 대한 요구가 증가되었고, 이러한 필요는 비즈니스와 경영, 정부행정, 과학과 공학, 환경통제 등을 포함하는 수많은 응용분야들로부터 수집된 데이터의 폭발적 증가의 결과입니다.