데이터베이스 (Database)
데이터베이스 (Database)
- 시스템 또는 프로그램이 사용할 목적으로 통합하여 관리되는 데이터의 집합
ㆍ정의
: 통합된 데이터 / 저장된 데이터 / 운영 데이터 / 공용 데이터
ㆍ특성
: 실시간 접근성 / 계속적인 변화 / 동시공용 / 내용참조
ㆍ파일 시스템
: ISAM (자료의 내용은 주 저장부에 저장하고, 색인은 자료가 기록된 위치와 함께 색인부에 기록)
: VSAM(대형 운영체제에서 사용되는 파일 관리 시스템)
ㆍDBMS 종류
: 관계형 DBMS (RDBMS)
: 계층형 DBMS (HDBMS)
: 네트워크 DBMS (NDBMS)
NoSQL (Not only SQL)
- 데이터 저장에 고정된 테이블 스키마가 필요없는 수평적인 확장이 가능한 DBMS
- 특성
ㆍBasically Available (고가용성 중시)
ㆍSoft-state (노드의 상태가 외부에서 전송된 정보를 통해 결정되는 속성)
ㆍEventually Consistency (일정시간이 지나면 데이터의 일관성이 유지되는 속성)
- 유형
ㆍ키-값 DBMS
: 키를 기반으로 Get/Put/Delete 제공
: 메모리 기반의 성능 우선 시스템 및 빅데이터 처리 기능
: Redis / DynamoDB
ㆍ컬럼 기반 DBMS
: Coulmn과 Value로 구성된 여러개의 필드를 갖는 구조
: 테이블 기반
: HBase
ㆍ문서 저장 DBMS
: 문서를 Value로 사용하는 구조
: 문서는 XML, JSON과 같이 구조화 된 데이터 타입으로 복잡한 계층 구조 표현 가능
: MongoDB, Couchbase
ㆍ그래프 DBMS
: 노드와 엣지로 이루어진 그래프로 데이터를 표현
: 노드간 관계를 구조화하여 저장
: Neo4j, AllegroGraph
빅데이터
- 주어진 비용, 시간 내에 처리 가능한 데이터의 범위를 넘어서는 수십 페타 바이트 크기의 비정형 데이터
- 특성
: 양 / 다양성 / 속도
- 수집 기술
ㆍ비정형 / 반정형 데이터 수집
: 정제되지 않은 데이터를 확보하고 필요한 정보를 추출하기 위해 효과적으로 수집하고 전송
: Chuckwa, Flume, Scribe
ㆍ정형 데이터 수집
: 정제된 대용량 데이터의 수집 및 전송
: ETL, FTP, Scoop, Hiho
ㆍ분산데이터 저장/처리
: 대용량 파일의 효과적인 분산 저장 및 분산 처리
: HDFS (대용량 데이터의 집합을 처리하는 응용 프로그램에 적합하도록 설계된 하둡 분산 파일 시스템)
: 맵 리듀스 (대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위해 2004년 구글에서 발표한 프레임워크)
ㆍ분산 데이터 베이스
: HDFS의 컬럼 기반 데이터 베이스 / 실시간 랜덤 조회 및 업데이트 가능
: HBase
데이터 마이닝
- 대규모로 저장된 데이터 안에서 의미있는 패턴을 찾아내거나 예측하는 기술
: 숨겨진 정보를 찾아내어 이를 기반으로 서비스와 제품에 도입하는 과정
- 절차
: 목적 설정 -> 데이터 준비 -> 가공 -> 마이닝 기법 적용 -> 정보 검증
- 주요 기법
ㆍ분류규칙
: 과거 데이터로 부터 특성을 찾아내어 분류 모형을 만들어 이를 토대로 결과를 예측
: 마케팅, 고객 신용평가 모형
ㆍ연관규칙
: 데이터 안의 항목들간 종속관계 파악
: 매장진열, 사기 적발 등
ㆍ연속규칙
: 연관규칙에서 시간 관련 정보가 포함된 형태
: A를 구매한 고객이 B를 구매할 확률
ㆍ데이터 군집화
: 레코드들을 특성을 지닌 소그룹으로 분할하는 작업
: 정보가 없는 상태에서 데이터를 분류하는 기법
: 지역/연령/성별에 따른 차별화 전략