Jost Do It.

그냥 IT해.

반응형

전체 글 228

견고한 데이터 엔지니어링 02장

02장 데이터 엔지니어링 수명 주기  1. 데이터 엔지니어링 수명 주기데이터 엔지니어링 수명 주기수명 주기 단계들과 드러나지 않는 요소로 나뉨 [1] 데이터 수명주기 vs 데이터 엔지니어링 수명 주기데이터 엔지니어링 수명 주기는 데이터 수명 주기의 하위집합데이터 수명 주기: 데이터 전체의 수명을 포괄데이터 엔지니어링 수명 주기: 데이터 엔지니어가 제어하는 단계에 초점 [2] 데이터 생성원천 시스템(source system)은 데이터 엔지니어링 수명 주기에 사용하는 데이터 원본데이터 소비에 사용되지만 시스템 자체를 소유하거나 제어하진 않음DE는 원천 시스템에 대해 실무적 이해가 필요원천으로부터 데이터 생성하는 방법을 이해상호 작용하는 원천 시스템의 한계를 이해데이터 파이프라인 변경 사항에 대해 원천 시스템..

견고한 데이터 엔지니어링 01장

01장 데이터 엔지니어링 상세 1. 데이터 엔지니어링이란데이터 엔지니어링에 관한 다양한 사람들의 정의들조직 내 다른 전문가가 데이터를 사용할 수 있도록 만드는 일련의 작업데이터 엔지니어는 조직의 데이터 인프라를 구축하고 운영해 데이터 분석가와 데이터 과학자가 추가 분석을 수행할 수 있도록 준비한다.데이터 엔지니어링의 유형은 SQL 중심과 빅데이터 중심으로 나뉜다.데이터 엔지니어링 분야는 소프트웨어 엔지니어링에서 더 많은 요소를 가져오는 비지니스 인텔리전스와 데이터 웨어하우징의 상위집합(superset)으로 ‘빅데이터’ 분산 시스템 운영에 관한 전문화를 통합한다.데이터 엔지니어링은 데이터의 이동, 조작, 관리에 관한 모든 것 1-1. 데이터 엔지니어링 정의데이터 엔지니어링원시 데이터 (raw data)를 ..

[머피 머신러닝] Chapter 3. Generative models for discrete data

1. Introduction$  p\left ( y=c|x,\theta \right )\propto p\left ( x|y=c,\theta \right )p\left ( y=c|\theta \right ) $베이즈룰에 따른 generative classifier여기서 $ p\left ( x|y=c, \theta \right ) $ 인 class-conditional density를 어떻게 적절한 형태로 표현할지가 핵심 사항   2. Bayesian concept learningㄱ. 개념 학습(concept learning)이진 분류(binary classification)와 유사x가 concept C에 속하면 f(x) = 1이고, 아니면 f(x) = 0어떤 요소들이 C 개념에 속하는지 판단하는 지시함수 ..

Study/머신러닝 2025.02.04

[머피 머신러닝] Chapter 2. Probability

1. Introduction확률에 대한 두가지 관점빈도론자(frequentist): 장기적인 관점에서 사건의 발생 빈도에 초점을 맞춤 베이지안(Bayesian): 확률은 불확실성을 정량화하기 위해 사용된다. 따라서 사건보다는 정보에 초점을 맞춘다.장점: 사건에 대한 불확실성을 모델링하기 때문에 1. 관측이 적거나 2. 단기적으로 관측된 사건에 대해서 해석할 수 있다. 이 책에서는 베이지안 해석 관점을 채택함다만, 확률론의 기본 원칙은 빈도론자나 베이지안 모두 동일하게 적용된다.   2. A brief review of probability theory$  p\left ( A \right ) $: 사건 A가 발생할 확률 $ p\left ( \bar{A} \right ) $: 사건 A가 발생하지 않을 확률 ..

Study/머신러닝 2025.01.29

[머피 머신러닝] Chapter 1. Introduction

1. Machine learning: what and why?머신 러닝 정의: 데이터 속에서 숨겨진 패턴을 찾고, 패턴을 이용해서 데이터를 예측하는 방법론 1-1. 머신러닝 유형지도학습(predictive / supervised learning)목표: 입력 데이터(x)로 부터 결과 데이터(y)을 예측하는 모델을 학습하는 것데이터셋이  $ D={\left ( x_{i}, y_{i} \right )}_{i=1}^{N} $ 로 학습을 위해 입력데이터와 결과데이터가 필요함 문제 유형분류(classification): 결과 데이터가 범주화된 경우 (categorical)회귀(regression):  결과 데이터가 수치인 경우 (real-valued) 결과 데이터(y)를 예측하기 위해 입력 데이터(x)를 이용해 근..

Study/머신러닝 2025.01.22

[주절주절] 온프레미스가 아닌 클라우드 서비스를 쓰는 이유

우리 회사는 연혁이 오래된 터라 아직은 온프레미스 서버를 사용 중에 있다. 나도 회사의 시스템에 적응을 한지 오래라 클라우드의 필요성에 대해 잊고 있었는데, 오늘 아래와 같이 여러 서비스에서 셧다운이 발생했다.  오늘 오전에 발생한 문제는 오후 2시가 넘어서도 아직 해결되고 있지 않다.  원인으로는 서버실에서 작업 중 스토리지 스위치가 꺼진걸로 보이는데, 이로 인해 VM 내에서 동작 중이던 서비스, DB, 시스템 등이 모두 셧다운되었다. 사실 조그만 서비스라면 서버나 스토리지, 네트워크 등 관리 필요성이 크지 않아서 서버 유지 비용이 크지 않은데, 규모가 커지게 되면 이에 대한 비용이 크게 증가한다. 특히 서비스 규모가 커짐에 따라 증설하거나 감축하는 경우 온프레미스 서버는 클라우드에 비해 복잡하고 번거..

반응형