정형 데이터
비정형 데이터
반정형 데이터
이 데이터 유형들은 데이터의 내부 구성을 가르키며 데이터 형식이라고도 한다.
정형 데이터(structured data)
데이터 베이스나 스프레드시트와 같은 형식에 맞춰 정확하게 구조화된 데이터를 나타낸다. 이러한 데이터는 표 형태로 표현되며 각 열(column)은 특정 데이터 유형을 나타내고, 각 행(row)은 개별 데이터 레코드를 나타낸다. 정형 데이터는 일반적으로 숫자, 날짜, 텍스트, 참/거짓값 등과 같은 고정된 데이터 유형을 포함한다. 데이터 모델 또는 스키마를 따르며 주로 테이블 형식으로 저장된다. 서로 다른 개체 간의 관계를 포착하는데 사용되므로 주로 관계형 데이터베이스에 저장된다. 정형 데이터는 ERP(전사적 자원관리, Enterprise Resource Planning) 및 CRM(고객 관계 관리, Customer Relationship Management) 시스템과 같은 기업 애플리케이션 및 정보 시스템에서 자주 생성된다. 정형데이터를 지원하는 도구와 데이터베이스가 풍부하므로 처리나 저장과 관련하여 딱히 고려할 필요가 없다. 이 유형의 데이터의 예시로는 표, 그래프, 엑셀 파일, 관계형 데이터베이스 등이 해당한다.
장점 : 일관된 구조를 가지고 있어 컴퓨터가 정확하고 빠르게 처리할 수 있고, 머신러닝 알고리즘을 적용할 수 있다. 시각화하기 쉽다.
단점 : 사전에 정의된 양식에 맞추기 위해 전처리 작업이 필요할 수 있다. 데이터를 저장하거나 관리하는 비용이 높을 수 있다.
활용법 : 비즈니스 데이터 분석, 관계형 데이터베이스 관리, 보고서 및 시각화(차트, 그래프, 표 등 다양한 시각화 자료)
비정형 데이터(Unstructured data)
정해진 구조나 형식을 갖추지 않은 데이터 형태를 나타낸다. 비정형 데이터는 정형 데이터보다 빠른 성장률을 보이고 있다. 이 유형의 데이터는 텍스트 또는 이진형태이며 주로 독립적이거나 비관계형 파일을 통해 전달된다. 텍스트 파일에는 다양한 트윗이나 메모, 보고서, 구조화되지 않은 텍스트, 블로그 글 등의 내용이 포함될 수 있다. 이진 파일은 주로 오디오 또는 비디오 데이터가 포함된 미디어 파일을 말한다. 비정형 데이터를 처리하고 저장하기 위해서는 특수 목적 논리가 일반적으로 필요하다. 비정형 데이터는 직접 처리하거나 SQL을 사용하여 질의할 수 없다. 비정형 데이터를 관계형 데이터베이스로 저장해야 한다면 BLOB(이진 대형 객체, Binary Large Object)형태로 테이블에 저장된다. 또는 NOSQL(Non-Structured Query Laguage, 확장성이 뛰어나고 성능이 빠르다) 데이터베이스에 정형 데이터와 함께 저장할 수 있다.
장점 : 다양한 형태의 데이터를 표현할 수 있다. 확장이 쉽고 간단하며, 새로운 속성이나 값이 추가되어도 기존의 데이터와 호환이 가능하다.
단점 : 스키마와 구조가 없어 관리하기 어려우며 저장하기도 번거롭다. 오디오나 이미지와 같이 큰 파일의 형태이므로 스토리지 파이 차트에서 큰 부분을 차지한다. 특정 데이터 검색이 어렵다.
활용법 : 텍스트분석, 이미지 또는 동영상 분석
반정형 데이터(Semi-structured data)
반정형 데이터는 구조가 정의되어 있고, 일관성을 가지고 있지만 본질적으로 관계형은 아니다. 대신 반정형 데이터는 계층적이거나 그래프 기반이다(정형 데이터와 비정형 데이터의 중간 형태이다). 이러한 종류의 데이터는 일반적으로 텍스트가 포함된 파일에 저장된다. 이 데이터 형태의 텍스트적 특성과 일부 수준의 구조에 대한 적합성으로 인해 비정형 데이터보다 처리가 더 쉽다. 반정형 데이터의 일반적인 소스로는 전자 데이터 교환파일, 스프레드시트, RSS 피드 및 센서 데이터가 있다. 특히 기본 형식이 텍스트 기반이 아닌 경우, 반정형 데이터는 주로 특수한 전처리 및 저장 요구사항을 가진다. 반정형 데이터에 대한 전처리의 예시로는 XML 파일의 유효성을 검사하여 스키마 정의와 일치하는 것을 들 수 있다. 또한 데이터의 복잡성을 처리하면서 데이터 품질을 유지하고 분석을 용이하게 하는 중요한 역할을 한다.
장점 : 정형 데이터에 비해 확장이 유연하고 간단하다. 비정형 데이터보다 분석이 더 쉽고 빠르다. 태그나 메타 데이터를 이용하여 데이터의 특징을 추출하거나 검색이 가능하다.
단점 : 정형 데이터에 비해 저장 공간이 많이 필요하다(태그나 메타데이터 공간 필요). 비정형 데이터에 비해 다양성이 떨어진다.
활용법 : 웹 페이지 분석, 소셜 미디어 분석, XML 문서 처리
댓글