자율형 AI 에이전트 개발 실무 LangGraph와 Multi-Modal Tool-Using
- 대면자율형 AI 에이전트 개발 실무 LangGraph와 Multi-Modal Tool-Using
Module 1 – 왜 LangGraph인가? (From Chains to Agents)
- AI 에이전트의 핵심: ReAct, Planning, Tool-Using
- LangChain(LCEL)의 한계와 순환(Cycle)의 필요성
- (LangGraph 아키텍처: State, Nodes, Edges
- LangGraph로 간단한 ReAct(Reason+Act) 에이전트 구현하기
Module 2 – LangGraph 심화: 상태 기반 워크플로우
- StateGraph와 상태(State) 관리 Deep Dive
- add_node: 작업자 노드(Worker Node)와 도구(Tool) 연동하기
- dd_conditional_edges: 에이전트의 '두뇌' 구현 (도구 사용/재계획/종료 분기)
- 에러 핸들링 및 'Self-Correction(자가 수정)' 루프 구현하기
Module 3 – 멀티모달 (Multi-Modal) Tool-Using
- 멀티모달 LLM의 이해 (GPT-4o, LLaVA, CogVLM)
- Vision Tool 구축: 이미지(스크린샷)를 입력받아 설명(Description)을 반환하는 Tool (LLaVA/GPT-4o Vision API)
- Audio Tool 구축: 음성 파일을 입력받아 텍스트로 변환(STT)하는 Tool (Whisper API)
- LangGraph State에 이미지/오디오 데이터 추가 및 관리
Module 4 – 멀티모달 에이전트 통합
- 멀티모달 에이전트 라우팅 아키텍처 설계
- 'Vision 라우터' 구현: 입력에 이미지가 포함되면 Vision Tool 노드로 분기
- "웹 UI 자동화 에이전트" (개념 실습): 스크린샷을 '보고' 다음 클릭할 버튼을 결정하는 에이전트
- LangSmith를 이용한 에이전트 실행 흐름 추적 및 디버깅
Module 5 – 멀티모달 리서치 에이전트
- "이 차트(이미지)와 최신 뉴스(텍스트)를 바탕으로 주식 시장을 분석해 줘."
- 웹 검색 Tool (텍스트)
- 이미지/차트 분석 Tool (Vision)
- 종합 리포트 생성 에이전트 (LangGraph로 전체 워크플로우 오케스트레이션)
- 에이전트 배포 및 FastAPI를 이용한 API 서빙
