2 분 소요

[견고한 데이터 엔지니어링]견고한 데이터 엔지니어링 - 데이터 엔지니어링 수명주기의 드러나지 않는 요소?

요즘 데이터 엔지니어링은 도구와 기술 그 이상을 포함함. 이제는 데이터 관리, 비용 최적화 같은 전통적 엔터프라이즈 관행과 데이터 옵스(DataOps) 같은 새로운 관행을 통합해 가치 사슬을 위로 끌어올리고 있음.

우리는 이러한 관행(보안, 데이터 관리, 데이터 옵스, 데이터 아키텍처, 오케스트레이션, 소프트웨어 엔지니어링 등)을 드러나지 않는 요소라고 부름. 이 요소들은 데이터 엔지니어가 수명주기의 모든 측면을 지원하는 핵심 역할을 함.

1. 보안

  • DE는 보안을 최우선시해야 함
  • 데이터와 접근 보안을 모두 이해하고 최소 권한 원칙을 실행해야 함 (IAM의 역할, 정책, 그룹, 암호 정책, 암호화 등)
  • 데이터 보안은 접근 타이밍과 관련 있음 → 접근해야 하는 사람과 시스템에 필요한 기간 동안만 허용하는 것이 좋음
  • 암호화, 토큰화, 데이터 마스킹, 난독화 및 접근 제어를 통해 원치 않는 데이터 노출을 막아야 함

2. 데이터 관리

데이터 도구가 단순해지면서 DE가 관리할 복잡성은 줄었음 → 그래서 이제는 가치사슬에서 다음 단계의 모범 사례로 이동하는 중임.

과거에는 대기업 전유물이던 데이터 거버넌스, 마스터 데이터 관리, 데이터 품질 관리, 메타데이터 관리 등이 이제는 모든 기업으로 확대되는 추세.

데이터 관리는 수명 주기 전체에 걸쳐 데이터와 정보 자산의 가치를 제공, 제어, 보호 및 향상할 계획, 정책, 프로그램과 사례를 개발, 실행 및 감독하는 것이다.DMBOK

데이터 관리에는 다음과 같은 측면이 있음:

  1. 데이터 거버넌스 (발견 가능성 & 책임)
  2. 데이터 모델링 및 설계
  3. 데이터 계보 (Data Lineage)
  4. 저장 및 운영
  5. 데이터 통합 및 상호 운용성
  6. 데이터 수명 주기 관리
  7. 고급 분석 및 ML을 위한 데이터 시스템
  8. 윤리 및 개인정보 보호

2.1 데이터 거버넌스

데이터 거버넌스는 조직이 수집한 데이터의 품질, 무결성, 보안 및 사용성을 보장하기 위한 데이터 관리 기능이다.에브렌 에리우렉

데이터 거버넌스는 보안 제어를 통해 데이터를 보호하면서, 조직 전체의 데이터 가치를 극대화하기 위해 인력·프로세스·기술을 활용하는 것임.

실패 사례?: 데이터 거버넌스가 부실할 때

  • DA가 보고서를 작성해야 하는데 필요한 데이터가 뭔지 몰라 트랜잭션 DB의 수십 개 테이블을 뒤짐
  • 몇 시간 동안 추측하며 필드를 찾고, 결국 방향은 맞지만 데이터의 타당성을 보장할 수 없음
  • 조직 전체가 데이터 신뢰성에 의문을 제기 → 사업 계획 수립 불가능

핵심 범주는 3가지가 있음.

  1. 발견 가능성 → 데이터는 검색 가능하고 접근 가능해야 함.
    • 메타데이터 관리: 데이터에 관한 데이터. (데이터 카탈로그, 계보 추적 시스템)
    • 메타데이터 유형:
      • 비즈니스 메타데이터: 데이터 정의, 규칙, 소유자
      • 기술 메타데이터: 스키마, 필드 매핑, 워크플로우
      • 데이터 계보 메타데이터: 데이터 출처, 변경, 종속성
      • 스키마 메타데이터: DB/DW/DL 구조 설명
      • 운영 메타데이터: 프로세스 로그, 런타임 결과
      • 참조 메타데이터: 조회 데이터(코드, 단위, 달력 등)
  2. 데이터 책임 → 데이터 일부를 관리할 개인을 명확히 지정
  3. 데이터 품질 → 원하는 상태로 데이터 최적화
    • 정확도: 중복 여부, 값의 정확성
    • 완전성: 필수 필드 값 유효성
    • 적시성: 필요한 시점에 데이터 이용 가능 여부

데이터 계보 (Data Lineage)

데이터 계보는 데이터를 처리하는 시스템과 업스트림 의존성을 추적해 감사 추적을 제공함. → 오류 추적, 디버깅, 설명 가능성을 확보.

데이터 수명 주기 관리

데이터 레이크 등장 이후 데이터 보관·파기 무시하는 경우가 많았음. 하지만:

  1. 클라우드 객체 스토리지가 Cold/Hot 계층 제공
  2. GDPR·CCPA 같은 법규 → 데이터 파기와 ‘잊혀질 권리’ 준수 필요

윤리와 개인정보 보호

DE는 개인식별정보(PII) 등 민감 데이터를 반드시 마스킹 처리해야 함.

3. 데이터 옵스 (DataOps)

데이터 옵스는 애자일, DevOps, SPC 모범사례를 데이터에 매핑해 품질을 개선하는 방법론임.

3가지 핵심 요소

  1. 자동화: CI/CD, 버전 관리, 변경관리, 신뢰성 확보
  2. 관찰 가능성과 모니터링: 로깅, 경고, 추적 필수 → “데이터 공포” 방지
  3. 사고 대응: 장애·재해 발생 시 신속 대응 준비

4. 데이터 아키텍처

데이터 아키텍처는 조직의 장기 전략과 요구사항을 지원하는 시스템의 현재와 미래 상태를 설계하는 것임.

  • 원천 시스템, 수집, 저장, 변환, 서빙까지 트레이드오프를 고려한 설계 필요

5. 오케스트레이션

오케스트레이션은 데이터 플랫폼뿐만 아니라 데이터 수명 주기 전체의 무게중심으로 간주될 만큼 중요하다.닉 슈록

오케스트레이션은 여러 작업이 예약된 순서대로 효율적으로 실행되도록 조정하는 프로세스. 대표 사례: Airflow DAG

  • 종속성이 완료되면 새 작업을 시작
  • 작업 기록, 시각화, 알림 기능 포함

댓글남기기