엔지닉 K-방산 기초 스터디 학습일지
강력한딸기0955
2026.02.25 22:53
조회 4추천 0스크랩 0
https://community.weport.co.kr/board_EouY72/126053520
#엔지닉 #방산 #방위산업 #윈스펙 #이공계 텍스트의 진화: 비정형 데이터와 LLM의 시너지 1. 비정형 데이터(Unstructured Data)의 본질 정해진 틀이나 스키마에 얽매이지 않는 데이터를 의미합니다. 우리가 흔히 접하는 규격화된 엑셀 시트(정형 데이터)와 달리, 데이터의 형태가 고정되어 있지 않아 기존의 관계형 데이터베이스로 관리하기에는 상당한 난도가 따릅니다. 주요 형태: 이메일이나 문서 같은 텍스트부터 이미지, 오디오, 비디오 등 일상에서 발생하는 대부분의 정보가 포함됩니다. 핵심 가치: 전 세계 데이터의 약 80~90%를 차지할 만큼 방대하며, 단순 수치를 넘어 그 속에 담긴 의도나 맥락, 감정 같은 심층적인 정보를 담고 있습니다. 처리 기법: 과거에는 사람이 일일이 분류 태그를 달아야 했으나, 현재는 임베딩(Embedding) 기술을 활용해 데이터를 고차원 벡터값으로 변환함으로써 AI가 의미론적으로 이해할 수 있게 처리합니다. 텍스트의 진화: 비정형 데이터와 LLM의 시너지 1. 비정형 데이터(Unstructured Data)의 본질 정해진 틀이나 스키마에 얽매이지 않는 데이터를 의미합니다. 우리가 흔히 접하는 규격화된 엑셀 시트(정형 데이터)와 달리, 데이터의 형태가 고정되어 있지 않아 기존의 관계형 데이터베이스로 관리하기에는 상당한 난도가 따릅니다. 주요 형태: 이메일이나 문서 같은 텍스트부터 이미지, 오디오, 비디오 등 일상에서 발생하는 대부분의 정보가 포함됩니다. 핵심 가치: 전 세계 데이터의 약 80~90%를 차지할 만큼 방대하며, 단순 수치를 넘어 그 속에 담긴 의도나 맥락, 감정 같은 심층적인 정보를 담고 있습니다. 처리 기법: 과거에는 사람이 일일이 분류 태그를 달아야 했으나, 현재는 임베딩(Embedding) 기술을 활용해 데이터를 고차원 벡터값으로 변환함으로써 AI가 의미론적으로 이해할 수 있게 처리합니다. 2. 비정형 데이터를 LLM에 최적화하는 3대 전략 ① 프롬프트 엔지니어링 (Prompt Engineering) 별도의 모델 재학습 과정 없이, 입력하는 지시문(Prompt)의 정교함을 조절하여 모델의 출력 성능을 극대화하는 기법입니다. Zero-shot: 참고 예시를 주지 않고 즉각적인 결과물을 요구하는 방식입니다. Few-shot: 몇 가지 모범 사례를 미리 제시하여 모델이 답변의 형식이나 방향성을 학습하게 유도합니다. Chain of Thought (CoT): 복잡한 문제에 대해 해결 과정을 단계별로 추론하도록 명령하여, 논리적 오류를 최소화합니다. ② RAG (검색 증강 생성) 모델이 사전에 학습하지 못한 외부의 비정형 데이터를 실시간으로 참조하여 답변을 생성하는 아키텍처입니다. 작동 원리: 사용자의 질문과 관련된 문서를 지식 저장소에서 먼저 찾아내고, 해당 내용을 질문과 함께 모델에 전달하여 최종 답변을 생성합니다. 핵심 이점: 사실이 아닌 것을 지어내는 환각(Hallucination) 현상을 억제하며, 최신 정보를 즉각 반영할 수 있다는 유연성이 장점입니다. ③ 파인튜닝 (Fine-tuning) 범용 모델을 의료, 법률 등 특정 도메인에 최적화하기 위해 전용 데이터를 사용하여 모델의 가중치를 미세하게 조정하는 과정입니다. Full Fine-tuning: 모델의 파라미터 전체를 업데이트하는 방식으로, 높은 컴퓨팅 자원과 비용이 소모됩니다. LoRA / PEFT: 모델 전체를 건드리지 않고 일부 레이어만 효율적으로 학습시키는 방식입니다. 적은 비용으로도 특정 분야의 전문 용어나 고유한 말투를 완벽하게 학습시킬 수 있습니다.
신고하기
작성자 강력한딸기0955
신고글 엔지닉 K-방산 기초 스터디 학습일지
사유선택
- 욕설/비하 발언
- 음란성
- 홍보성 콘텐츠 및 도배글
- 개인정보 노출
- 특정인 비방
- 기타
허위 신고의 경우 서비스 이용제한과 같은
불이익을 받으실 수 있습니다.
댓글 0

0
댓글