데이터 과학자 원칙 정리
2025. 6. 15. 11:59ㆍ수집/IT
728x90
반응형
https://www.yes24.com/Product/Goods/119016899
데이터 과학자 원칙 - 예스24
- 더 나은 데이터 과학자로 성장을 꿈꾼다면- 먼저 헤쳐온 데이터 리더들의 원칙에서 해답을 찾아보세요“데이터 과학자는 뭐하는 사람일까? 지금처럼 하면 되는 것일까? 나도 선배 데이터 과학
www.yes24.com
- 데이터 증강 기법과 클래스 불균형 문제에 대한 리샘플링 기법은 검증 데이터셋과 테스트 데이터셋에 적용하지 마세요.
- 이 문제는 손실 함수 변경을 통해 완화할수 있지만, 토멕 링크나 SMOTE와 같은 리샘플링기법을 사용해 해결하기도 합니다. 그러나 리샘플링 기법도 검증 데이터셋과 테스트 데이터셋에 사용해서는 안됩니다.
- 예측 성능이 높다면 데이터 누수를 항상 의심하세요
- 시간적인 순서가 있는 데이터를 무작위로 데이터셋으로 분할한 경우: 시간축에 따라 분할해야 합니다. 시간이 지나서 피처가 업데이트되었지만 이를 인지하지 못한 경우도 문제가 됩니다. 대표적인 예시는 재무제표 발표 후 나중에 정정하는 경우입니다.
- 데이터셋 분할 이전에 정규화, 피처 선택, 또는 결측값 대체 작업을 한 경우: 데이터 셋을 분할한 후, 훈련 데이터셋만을 사용해 통계치를 구한 다음, 이를 통해 테스트 데이터셋을 정규화하거나 결측값을 대체해야 합니다. 피처 선택도 마찬가지로, 훈련 데이터셋만을 사용해 피처를 선택한 다음, 테스트 데이터셋에 적용해야 합니다.
- 분할 전 중복된 데이터를 제대로 처리하지 않은 경우: 훈련과 테스트 데이터셋에 동일한 샘플이 존재하면 데이터 누수가 발생할 수 있으니 주의하세요.
- 그룹 누수, 즉 강한 레이블 상관관계를 갖는 샘플들이 각기 다른 분할로 나뉘어 들어간 경우: 예를 들어 동일한 환자에 대해 여러 차례 촬영한 폐 CT가 훈련 데이터셋과 테스트 데이터셋에 각각 존재하는 경우입니다.
- 테스트 데이터셋을 자주 참조해 최적 모델을 결정하는 행위도 데이터 누수의 원인이 될 수 있습니다.
- SOTA 대신에 단순한 모델로 시작하세요.
- 모델 오프라인 평가를 엄밀하되, 비지니스 목적에 적합하게 수행하세요.
- 모델을 평가할 때는 오류 간의 트레이드 오프 관계를 고려해야 합니다. 판단기준은 비지니스 문제에 따라 다르며 예를 들어 이진분류에서는 위양성과 위음성을 고려해야 합니다.
- 클래스 불균형 상황에서는 이에 맞는 평가 지표를 사용해야 합니다. 이진분류에서 특정 클래스 비중이 90%라면 단순히 해당 클래스로 예측해도 정확도는 90%가 됩니다. 따라서 정확도나 AUROC (Area Under ROC)와 같은 지표는 클래스 불균형 정도에 민감하며, 성능 판단에 오해를 불러일으킬 수 있습니다. 이를 방지하기 위해서는 클래스 불균형에 민감하지 않은 지표 (F1 점수, 코헨의 카피, MCC 등)를 고려해야 합니다.
- 때로는 데이터의 하위 집합별로 성능을 평가해볼 필요가 있습니다. 암 검출 신규 모델이 전반적으로 정확도가 더 높지만 희귀 암에 대해서는 과거 모델 예측보다 형편 없을 수 있습니다.
- 또한 모델이 내재적으로 확률적 변동성을 갖고 있는 경우가 있습니다. 즉, 모델을 훈련할 때마다 예측 결과가 조금씩 달라집니다. 이 경우 예측 성능을 여러 번 평가해 평균과 표준편자를 함께 기록하는 것이 좋습니다. 그러나 실행 시마다 결과가 크게 달라진다면 모델 구현을 검토해야 합니다.
- 배포 예정의 모델이라면 더 다양한 기준으로 모델을 검증하세요.
- 예측 값의 분포를 확인하며, 오류 분석을 통해 잘못 예측한 샘플에 일관된 패턴이 없는지 살펴보아야 합니다.
- 테스트셋에 임의의 잡음이나 변화분을 주입해 모델이 얼마나 강건한지 확인 할 수 있습니다.
- 모델이 인구통계학적인 편향이 존재하지 않는지 검증해야 합니다. 예를 들어 대출 심사 모델에서는 단순히 성별을 이유로, 학력이 고졸이라는 이유로 대출을 거부해서는 안 됩니다. 관측 데이터에, 학습한 모델에 편향이 존재하는지 측정하는 방법론과 구현 라이브러리를 찾아보고, 민감 정보 값을 직접 바꿔가며 출력값이 변경되는지 확인해보는 것도 한 방법입니다.
- 마지막으로 모델의 설명과 해석 가능성이 높은 경우, 예측 결과가 우리의 직관 또는 원하는 방향과 일치하는지 살펴볼 필요가 있습니다. 이것이 어렵다면 입력을 특정 방향으로 변경했을 때 출력값이 예상하는 쪽으로 움직이는지 확인해야 합니다. 부동산 가격 예측 모델이라면 특정 주택과 초등학교와의 거리를 좁힐 경우 부동산 가격은 대체로 상승해야 합니다.
- 딥러닝 모델을 튜닝하거나 디버깅하는 경우 최신 논문과 커뮤니티를 탐색하며 자신만의 노하우를 찾아나가세요.
- 딥러닝 모델을 사용할 때, 최적 성능을 위해 사용 가능한 연산 자원을 최대한 활용하도록 모델 아키텍처 및 배치 크기 등 하이퍼파라미터를 선택하고 조정하는 과정은 어려우며 많은 시간과 노력이 듭니다. 잘 알려진 모델 아키텍처를 시작으로, 하이퍼 파라미터를 점진적으로 변경하면서 개선해나가는 것이 좋습니다. 2022년 구글은 자신들만의 튜닝 노하우를 담은 튜닝 플레이북을 공개하였습니다.
- 딥러닝 모델을 디버깅하는 과정은 매우 까다롭고 느리기로 악명이 높습니다. 오류를 찾는 것 자체가 어려우므로, 데이터의 문제나 하이퍼파라미터의 적정 사용 여부를 먼저 확인해야 합니다. 단순한 모델부터 시작해 구성요소를 점진적으로 추가하면서 테스트하는 방법을 권장합니다. 또한 안드레아 카르파티의 블로그 게시물 '신경망 훈련을 위한 레시피' 는 다양한 팁을 제공하고 있으니 눈여겨 보기 바랍니다.
- 단순히 추천 모델이 아닌 추천 시스템
Recommender Systems, Not Just Recommender Models
by Even Oldridge and Karl Byleen-Higley
medium.com
- 데이터 분석을 통해 좋은 인사이트를 만들어 내는 것은 크게 2가지 방향으로 구분할 수 있다고 생각합니다. 데이터에서 나타나는 맥락을 발견하는 것, 그리고 데이터에서 나타나지 않는 맥락을 발견하는 것.
- 데이터 분석 과정보다 다음과 같은 3가지가 선행되야 한다
- 데이터 분석을 통해 달성하고자 하는 목적을 먼저 명확하게 정의한다.
- 비지니스 모델과 프로덕트/서비스에서 발생하거나 측정 가능한 데이터를 파악한다.
- 도메인 인사이트로 데이터에서 나타나는 현상들을 맥락으로 이해한다.
- 데이터 과학자라 해서 기술 부채에서 자유롭다고 생각하면 큰 착각입니다. 주기적으로 부채를 정리하는 시간도 있어야 합니다. 그렇지 않으면 지속 가능한 데이터 과학을 하기 힘들어질 수도 있습니다.
- 다른 사람들이 보편적으로 하지 않는 선택을 의도적으로 해보자.
- 주기적으로 일하는 목적 찾기 (왜 일하는가? 회사를 넘어서 더 많은 사람을 돕기 위해)
- 제너럴리스트, 스페셜리스트 이분법으로 생각하지 않기 (중요한 점은 자신의 현 상황과 자신의 욕구를 파악하고 그 방향으로 가려면 어떤 경험을 해야 할까를 생각하고 실제로 실행하는 겁니다.)
- 업무도 메타인지하며 목적 중심으로 생각하기 (일의 맥락을 이해하고, 목적을 파악하는 것이 시작입니다.)
- 나의 세상 정의하기 (접하는 정보, 업무 외 시간, 언어습관, 익숙한 거리)
- 회사에서 필요한 일과 내 흥미를 일치시키기 (조직에 필요한 일을 제안)
- 팀 현황을 파악해서 개선점 만들기 (우리 팀이 진정 무엇을 하고 싶은지 논의 )
- 더 나은 커뮤니케이션 능력 기르기
- 비즈니스 공부법
비즈니스 공부법 - 데이터 분석가, 데이터 사이언티스트도 비즈니스를 알아야 합니다
비즈니스를 어떻게 공부해야 하는지에 대한 개인 경험을 담은 글입니다 이 글이 진리라고 생각하진 않고, 제가 어떻게 공부하고 고민했는지에 대한 내용이 주로 담겨있습니다 피드백은 언제나
zzsza.github.io
한 장으로 끝내는 비즈니스 모델 100 - 예스24
“수백 권의 비즈니스 책을 봐도 이해되지 않는 혁신 구조가 단 한 장으로 이해된다!”오늘날의 변화는 엄청난 속도로 쉴 새 없이 진행되고 있다. 단순히 어제의 것을 더 좋게 만드는 수준이 아
www.yes24.com
- 지금 힘들다면 여유가 있는지 생각해보기
- 데이터팀의 모습 7가지
- 데이터가 있는지 확인하기
- 데이터를 활용하는 목표가 있는지 확인하기
- 관심 있는 도메인이 무엇인지 확인하기
- 데이터를 활용할 수 있는 환경 확인하기
- 함께 일할 데이터팀 구성원 확인하기
- 데이터팀을 어떤 목적으로 활용하는지 확인하기
- 데이터에 차별성이 있는지 확인하기
- 그로스 해킹은 창의성, 분석적인 사고, 소셜 네트워크를 이용해 제품을 팔고, 노출시켜 피드백을 받아 서비스 및 제품의 질을 지속적으로 향상시키는 마케팅 방법입니다.
- Acquisition: 고객유치(사용자 어떤 채널에서 유입되고 있는지 분석 및 채널별 지표 확인을 통한 마케팅 전략 수립)
- Activation: 활성화(사용자들이 서비스를 활성화시키는 것이 중요(UI/UX개선, 기능 추가, 문제점 개선))
- Retention: 유지(사용자가 서비스를 지속적으로 이용하도록 하는 것 중요 (문제점 파악 개선, 사용자들 가장 많이 이용하는 기능 파악, 기능 개선 및 새로운 기능 추가))
- Referral: 추천 (사용자들이 다른 사용자를 서비스에 유입시키는 것이 중요 (만족도 높일 수 있는 기능 추가, 공유))
- Revenue: 수익화 (서비스에서 발생하는 수익 최대화 (수익 요인 파악, 최적화))
- 주어진 문제를 인지하고, 해결 방법을 찾고 행동하는 사람
- 한 분야의 전문가들도 실수를 많이 한다는 것은 데이터 시각화도 별도의 시간을 들여 익히지 않으면 안되는 또 하나의 전문 분야라는 의미일수도 있습니다. 데이터 시각화는 어떤 일을 하더라도 기본기가 될 중요한 지식인만큼 시간을 들여 공부할 필요가 있습니다.
- 팩트풀니스
팩트풀니스 - 예스24
빌 게이츠가 미국 모든 대학 졸업생에게 직접 선물한 화제의 책강력한 사실을 바탕으로 세상을 정확하게 바라보는 방법을 담은 혁명적 저작전 세계적으로 확증편향이 기승을 부리는 탈진실의
www.yes24.com
- 정보 전달에서 가장 중요한 것은 상대방 입장에서 생각해보는 것이 아닐까 싶습니다.
728x90
반응형
'수집 > IT' 카테고리의 다른 글
| 만들면서 배우는 생성 AI 정리 중 (2) | 2025.06.15 |
|---|---|
| 한국어 임베딩 정리 (1) | 2025.06.15 |
| 행동 데이터 분석 정리 중 (0) | 2025.06.15 |
| 고객 니즈가 보이는 데이터 분석 with 파이썬 정리 (4) | 2025.06.15 |
| Do it BERT 와 GPT로 배우는 자연어 처리 정리 (0) | 2023.01.20 |