[서평] 데이터 품질의 비밀
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
데이터 품질에 관한 개념과 현실적인 방법론을 알려주는 책!
저는 데이터 엔지니어링 분야에 관해서 거의 모르는 초보입니다.
이 분야에 입문하는 입장에서 읽어본 후기입니다.
아무래도 데이터 관련한 실무자가 아닌데 데이터 관련한 책을 리뷰하기가 조심스럽네요..ㅎㅎ
책을 읽기 전에
데이터 엔지니어?
몇 년 전, 데이터 엔지니어가 어떤 일을 하는지, 역할이 무엇인지 혼란스러웠던 기억이 있습니다. 특히, 아무런 베이스가 없는 입장에서 데이터 사이언티스트, 데이터 애널리스트, 데이터 엔지니어 등의 용어가 한국으로 들어오면서 짬뽕되어서 더 헷갈렸습니다. 회사, 팀, 역할마다 다르긴 하지만 요즘 점점 정보가 늘어나면서 데이터 엔지니어링에 관해서 언급되면 자주 들리는 키워드들이 있습니다.
몇 개 떠올려보면 빅데이터, 카프카, 스칼라, 하둡, 분산, 파이프라인, 스트리밍 등입니다.
데이터 파이프라인?
그중에 데이터 파이프라인이 어떤 의미와 목적을 가지는 궁금했습니다.
파이프라인 자체는 "젠킨스 파이프라인" 다뤄본 내용을 떠올리면 예상이 됐습니다. 데이터가 들어와서 처리되고 나갈 수 있게 하는 것이겠죠.
하지만 데이터 쪽에서는 사용하는 기술도 고비용이고 데이터도 대용량이어서 뭔가 빌드, 배포 파이프라인과 용도가 달라서 목적이 무엇인지 궁금했습니다. 간단히 블로그 글을 읽으면서 "아. 이런 고민을 하는구나" 싶었지만 이 책을 통해서 좀 더 깊은 내용을 알 수 있었습니다.
데이터엔지니어는 데이터를 수집, 가공, 공급을 하는데 여러 기술과 데이터베이스 등을 사용합니다. 이런 것을 위해 데이터 파이프라인을 구축합니다. 각각의 요소별로 데이터 품질에 대한 관리가 필요합니다. 이 책은 데이터 품질에 대한 개념을 명확하게 정의하고 관리하기 위해서 필요한 요소들을 정리합니다.
책 리뷰
이 책의 초반에는 데이터 품질에 왜! 주목해야 되는지 알려줍니다.
데이터 신뢰성이 보장되지 않아 어떤 재앙이 일어날 수 있는지 소개해주며 데이터 품질을 데이터 라이프사이클에 따른 단계별 상태로 정의했습니다.
그리고 데이터 파이프라인 구축하며 겪게 되는 여러 문제점들을 다룹니다.
데이터소스의 증가, 이종 데이터 간 결합, 데이터 사용 증가, 서비스 고도화로 인한 종속성의 증가 등.
좋았던 점
현재 핀테크 스타트업에서 데브옵스 겸 백엔드 개발 인턴하고 있는데 책을 읽으면서 여러 시야가 트였습니다. 아직은 간단한 작업을 개발 및 자동화하며, 여러 시스템들을 건드리고 있습니다. 비용, 서비스 형태나 구조, 현재 당면한 상황?이 특이해서 이 책에서 제시하는 내용을 그대로 도입하지는 못할 것입니다. 그래도 품질을 바라보는 안목과 이 책의 여러 기업의 사례는 많은 도움이 되었습니다.
DBT 테스트를 처음 알게되었고 데이터를 모니터링하고 신선도를 파악할 수 있게 실제로 어떤 쿼리를 날리는지 볼 수 있어서 좋았습니다.
여러 (사례 연구)를 보면서 실제 기업에서 어떤 결정과 고민을 하는지 알 수 있는 것도 장점입니다.
저자분들이 강조하는 점을 두고 생각하는 것만으로 여러 인사이트를 얻을 수 있었습니다.
추천 대상
이 책은 실무적인 내용과 경험을 많이 담고 있습니다. 다만, 데이터 엔진니어링에 관해서 입문하는 입장에서는 읽기가 어려운 부분이 있었습니다. 책에서 엄청나게 깊게 파고들진 않아서 읽는데에 큰 문제는 없었지만 최소한 여기서 제시하는 문제점들에 대한 감을 바로 잡을 수 있는 분이 보시면 더 많은 것을 이 책으로부터 얻을 수 있었지 않았을까.. 싶습니다!
댓글
이 글 공유하기
다른 글
-
[서평] 관찰 가능성 엔지니어링
[서평] 관찰 가능성 엔지니어링
2023.08.27 -
[서평] 백엔드 개발을 위한 핸즈온 장고
[서평] 백엔드 개발을 위한 핸즈온 장고
2023.06.25 -
[서평] 머신러닝 시스템 설계
[서평] 머신러닝 시스템 설계
2023.04.23 -
[서평] 쉽게 시작하는 쿠버네티스
[서평] 쉽게 시작하는 쿠버네티스
2023.04.09