전체글
엔지닉 K-방산 기초 스터디 학습일지
#엔지닉 #방산 #방위산업 #윈스펙 #이공계
LLM(대규모 언어 모델)과 비정형 데이터는 현대 AI 생태계의 핵심입니다.
비정형 데이터 (Unstructured Data)의 기초
- 이름 그대로 고정된 구조(Schema)가 없는 데이터를 칭함.
- 우리가 흔히 보는 엑셀 표(정형 데이터)와 달리, 형태가 제각각이라 전통적인 데이터베이스에 저장하거나 분석하기 까다로운편
- 주요 종류: 텍스트(이메일, 보고서, SNS), 이미지, 영상, 음성 파일 등.
-
특징: 현대 데이터의 약 80~90%를 차지하며, 그 안에 숨겨진 맥락과 감정, 의도를 파악하는 것이 중요합니다.
-
처리 방식: 예전에는 수동으로 태그를 달았지만, 이제는 임베딩(Embedding) 기술을 통해 데이터를 수치화(벡터화)하여 컴퓨터가 이해하도록 만듭니다.
비정형 데이터를 LLM이 효과적으로 처리하게 만드는 방법
프롬프트 엔지니어링 (Prompt Engineering)
모델을 추가로 학습시키지 않고, 질문의 기술만으로 원하는 답변을 끌어내는 기법입니다.
-
Zero-shot: 예시 없이 바로 명령 (예: "이 글을 요약해줘.")
-
Few-shot: 몇 가지 예시를 보여주고 답변 유도 (예: "A는 사과, B는 바나나, C는?")
-
Chain of Thought (CoT): "단계별로 생각해봐"라고 지시하여 논리적 추론 능력을 높임.
RAG (Retrieval-Augmented Generation, 검색 증강 생성)
모델이 학습하지 않은 비정형 데이터를 실시간으로 찾아보고 답변하게 만드는 기술
-
과정: 질문 관련 문서 검색 → 검색된 내용을 질문과 함께 LLM에 전달 → 답변 생성.
-
장점: '환각(Hallucination)' 현상을 줄이고, 데이터 업데이트가 쉽습니다.
파인튜닝 (Fine-tuning)
특정 도메인(의료, 법률, 사내 규정 등)에 특화된 데이터를 사용해 모델 자체를 가볍게 재학습시키는 과정입니다.
-
Full Fine-tuning: 모델 전체 가중치를 업데이트 (비용 높음).
-
PEFT/LoRA: 모델의 일부만 효율적으로 학습시켜 적은 자원으로 특정 말투나 형식을 익히게 함.
작성자 지혜로운자동차3133
신고글 엔지닉 K-방산 기초 스터디 학습일지
- 욕설/비하 발언
- 음란성
- 홍보성 콘텐츠 및 도배글
- 개인정보 노출
- 특정인 비방
- 기타
허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.

0
댓글