'Study' 카테고리의 글 목록

[견고한 데이터 엔지니어링] 03장. 우수한 데이터 아키텍처 설계

1. 데이터 아키텍처란?[1] 엔터프라이즈 아키텍처 정의엔터프라이즈 아키텍처(EA, Enterprise Architecture)비지니스, 기술, 애플리케이션 및 데이터를 포함한 다양한 하위집합을 포함많은 프레임워크와 자원이 엔터프라이즈 아키텍처에 할당됨 엔터프라이즈 아키텍처에 대한 다양한 정의TOGAF엔터프라이즈: 모든 정보 및 기술 서비스, 프로세스, 인프라를 포함하는 전체 기업 또는 기업 내 특정 도메인엔터프라이즈 아키텍처는 기업 내 여러 시스템과 기능 그룹을 넘나듦가트너엔터프라이즈 아키텍처: 바람직한 비지니스 비전과 결과를 향한 변화의 실행을 식별, 분석해 기업이 파괴적 힘에 능동적이고 전체적으로 대응할 수 있도록 주도하는 분야EABOKEA: 전략, 운용 및 기술을 조정해 성공 로드맵을 만드는 기업..

Study/Data 2025.04.06

[견고한 데이터 엔지니어링] 02장. 데이터 엔지니어링 수명 주기

1. 데이터 엔지니어링 수명 주기데이터 엔지니어링 수명 주기수명 주기 단계들과 드러나지 않는 요소로 나뉨 [1] 데이터 수명주기 vs 데이터 엔지니어링 수명 주기데이터 엔지니어링 수명 주기는 데이터 수명 주기의 하위집합데이터 수명 주기: 데이터 전체의 수명을 포괄데이터 엔지니어링 수명 주기: 데이터 엔지니어가 제어하는 단계에 초점 [2] 데이터 생성원천 시스템(source system)은 데이터 엔지니어링 수명 주기에 사용하는 데이터 원본데이터 소비에 사용되지만 시스템 자체를 소유하거나 제어하진 않음DE는 원천 시스템에 대해 실무적 이해가 필요원천으로부터 데이터 생성하는 방법을 이해상호 작용하는 원천 시스템의 한계를 이해데이터 파이프라인 변경 사항에 대해 원천 시스템 소유자와 소통 라인 유지 필요원천 시..

Study/Data 2025.04.04

[견고한 데이터 엔지니어링] 01장. 데이터 엔지니어링 상세

1. 데이터 엔지니어링이란데이터 엔지니어링에 관한 다양한 사람들의 정의들조직 내 다른 전문가가 데이터를 사용할 수 있도록 만드는 일련의 작업데이터 엔지니어는 조직의 데이터 인프라를 구축하고 운영해 데이터 분석가와 데이터 과학자가 추가 분석을 수행할 수 있도록 준비한다.데이터 엔지니어링의 유형은 SQL 중심과 빅데이터 중심으로 나뉜다.데이터 엔지니어링 분야는 소프트웨어 엔지니어링에서 더 많은 요소를 가져오는 비지니스 인텔리전스와 데이터 웨어하우징의 상위집합(superset)으로 ‘빅데이터’ 분산 시스템 운영에 관한 전문화를 통합한다.데이터 엔지니어링은 데이터의 이동, 조작, 관리에 관한 모든 것 1-1. 데이터 엔지니어링 정의데이터 엔지니어링원시 데이터 (raw data)를 가져와 분석 및 ML 같은 다운..

Study/Data 2025.03.04

[머피 머신러닝] Chapter 3. Generative models for discrete data

1. Introduction$ p\left ( y=c|x,\theta \right )\propto p\left ( x|y=c,\theta \right )p\left ( y=c|\theta \right ) $베이즈룰에 따른 generative classifier여기서 $ p\left ( x|y=c, \theta \right ) $ 인 class-conditional density를 어떻게 적절한 형태로 표현할지가 핵심 사항 2. Bayesian concept learningㄱ. 개념 학습(concept learning)이진 분류(binary classification)와 유사x가 concept C에 속하면 f(x) = 1이고, 아니면 f(x) = 0어떤 요소들이 C 개념에 속하는지 판단하는 지시함수 ..

Study/머신러닝 2025.02.04

[머피 머신러닝] Chapter 2. Probability

1. Introduction확률에 대한 두가지 관점빈도론자(frequentist): 장기적인 관점에서 사건의 발생 빈도에 초점을 맞춤 베이지안(Bayesian): 확률은 불확실성을 정량화하기 위해 사용된다. 따라서 사건보다는 정보에 초점을 맞춘다.장점: 사건에 대한 불확실성을 모델링하기 때문에 1. 관측이 적거나 2. 단기적으로 관측된 사건에 대해서 해석할 수 있다. 이 책에서는 베이지안 해석 관점을 채택함다만, 확률론의 기본 원칙은 빈도론자나 베이지안 모두 동일하게 적용된다. 2. A brief review of probability theory$ p\left ( A \right ) $: 사건 A가 발생할 확률 $ p\left ( \bar{A} \right ) $: 사건 A가 발생하지 않을 확률 ..

Study/머신러닝 2025.01.29

[머피 머신러닝] Chapter 1. Introduction

1. Machine learning: what and why?머신 러닝 정의: 데이터 속에서 숨겨진 패턴을 찾고, 패턴을 이용해서 데이터를 예측하는 방법론 1-1. 머신러닝 유형지도학습(predictive / supervised learning)목표: 입력 데이터(x)로 부터 결과 데이터(y)을 예측하는 모델을 학습하는 것데이터셋이 $ D={\left ( x_{i}, y_{i} \right )}_{i=1}^{N} $ 로 학습을 위해 입력데이터와 결과데이터가 필요함 문제 유형분류(classification): 결과 데이터가 범주화된 경우 (categorical)회귀(regression): 결과 데이터가 수치인 경우 (real-valued) 결과 데이터(y)를 예측하기 위해 입력 데이터(x)를 이용해 근..

Study/머신러닝 2025.01.22

[GPT] token 수 계산하기

개요GPT 모델은 input과 output의 토큰 수에 따라 비용을 다르게 책정하고 있다.여기서 한글은 보통 글자 하나가 토큰 1개로 계산되는 반면, 영어 같은 경우는 단어들이 토큰 1개로 계산되는 경우가 많다. 문제 상황문서를 요약하기 위해 GPT를 사용 중인데, 일부 문서는 GPT 모델에서 허용하는 최대 토큰 수를 넘는 경우가 있었다.따라서 문서의 내용을 잘라내서 GPT에 입력해야 했는데, 내용을 최대한 반영하기 위해 token 수를 계산할 필요가 있었다. 방법구글링해보니 GPT에 사용된 tokenizer 인코딩 방식이 오픈돼 있었고, tiktoken 라이브러리를 통해 토큰 수를 계산할 수 있다.최신 버전 GPT-4o의 경우 "o200k_base" 인코딩 방식이 적용돼 있다고 한다 (그 외 모델의 인..

Study/딥러닝 2024.07.02

[대화형 AI] TaskWeaver에 대해 알아보자.

개요 MS 대화형 AI는 서비스 제품인 1. MS Copilot과 오픈소스로 공개된 2. TaskWeaver, 3. AutoGen 으로 나뉩니다. 그 중 TaskWeaver에 대해 알아봅시다. 2. TaskWeaver 오픈소스 소개 Task Weaver는 데이터 분석 작업을 목적으로 개발된 AI입니다. 사용자의 프롬포트에서 요청을 해석하고, 실행 가능한 코드 스니펫을 생성해 사용자에게 결과와 함께 제공합니다. 데이터 분석 결과와 함께 관련 코드까지 제공한다는 장점이 있습니다. UI 인터페이스도 제공할 수 있습니다. 오픈소스 특징 Task Weaver는 2개의 대화형 AI에 각각 역할을 설정해 AI간 대화(interaction)를 통해 프롬포트 결과를 출력합니다. Planner: 사용자가 입력한 프롬포트를..

Study/딥러닝 2024.03.16

[대화형 AI] Microsoft Copilot에 대해 알아보자.

개요MS 대화형 AI는 서비스 제품인 1. MS Copilot과 오픈소스로 공개된 2. TaskWeaver, 3. AutoGen 으로 나뉩니다. 그 중 MS Copilot에 대해 알아봅시다. 1. MS Copilot서비스 소개Copilot은 MS사의 여러 제품에 최적화된 대화형 AI 챗봇을 범용적으로 부르는 이름입니다.크게 윈도우 11 Copilot, 앱 전용 Copilot, Bing Copilot 3가지로 나뉩니다.현재 윈도우 11은 프리뷰로 일부 유저만, Bing Copilot은 웹에서 사용이 가능합니다. 앱전용은 앱마다 사용 권한이 다르게 설정돼 있습니다.서비스 특징Copilot 지원 대상 앱Word, PowerPoint, Excel, Teams, Github, Outlook, OneNote, …한..

Study/딥러닝 2024.03.11

[ChatGPT] Error code 400 Failed to index file: Unsupported file 문제

문제 상황 GPT 어시스턴트에 파일을 넣어서 "retrival" 기능을 이용하는 코드를 다음과 같이 짰다. 참고로 파일 형식은 .txt이다. file = client.files.create( file=open(file_path, "rb"), purpose='assistants' ) assistant = client.beta.assistants.create( instructions=roleA, model="gpt-4-turbo-preview", tools=[{"type": "retrieval"}], ) thread = client.beta.threads.create( messages=[ { "role": "user", "content": prompt_text, "file_ids": [file.id] } ]..

Study/딥러닝 2024.03.05

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Jost Do It!

Study 38

티스토리툴바