[Stock101] RAG PDF내용 요약과 전망을 도출하자 - 6일차

2026. 1. 26. 23:26·Archive(완료된 내용)/포트폴리오 강화

 

전자공기를 기반으로 1. 요약된 정보/ 2. 향후 전망을 알려주는 문서 발행.

 

RAG에서는 두가지 방식을 사용함. 

방법 A: 맵-리듀스(Map-Reduce) 방식 (전체 요약)

공시 문서처럼 양이 방대할 때 사용합니다.

  • Map: 각 섹션(또는 청크)별로 중요한 내용을 요약합니다.
  • Reduce: 요약된 조각들을 다시 합쳐서 전체 문서의 요약본을 만듭니다.
  • 특징: 문서 전체의 흐름을 파악하기 좋지만, LLM 호출 횟수가 많아 비용이 발생합니다.

방법 B: Stuff 방식 (핵심 섹션 추출 요약)

공시 문서에서 '요약'과 '전망'에 특화된 특정 섹션만 가져와서 요약합니다.

  • 절차: 개황, 사업의 내용, 이사회의 진단 및 분석(MD&A) 섹션의 데이터만 쿼리하여 LLM에게 전달합니다.
  • 특징: 비용이 저렴하고 정확도가 높습니다. 공시 문서는 특정 위치에 핵심 정보가 몰려 있기 때문입니다

 

 

먼저 어떤걸 보여줄지 정의부터 필요했다. 

공시 문서를 AI가 [요약]하고 향후 [전망]을 예측한다.

 

1. [요약] 실적의 "질적 분석" (숫자 뒤의 이유)

반/분기 보고서에서 가장 중요한 건 단순히 "얼마 벌었다"가 아니라 **"왜 그렇게 벌었는가"**입니다.

  • 정의: 매출과 영업이익의 변동 원인을 제품군(Segment)별로 요약합니다.
  • RAG 전략: 사업의 내용 섹션에서 '매출 실적', '판매 경로 및 방법' 데이터를 긁어옵니다.
  • LLM에게 시킬 일: "단순 금액 나열이 아니라, 어떤 제품이 잘 팔렸고 어떤 제품이 부진했는지 원인을 분석해 요약해줘."

2. [전망] 자금의 흐름: "CAPEX와 R&D"

반기 보고서에 "우리 미래가 밝습니다"라는 문구는 없어도, **"공장을 짓고 있다"**나 **"연구비를 늘렸다"**는 데이터는 반드시 들어있습니다. 이것이 실질적인 전망의 근거입니다.

  • 정의: 현재 진행 중인 설비 투자(CAPEX) 현황과 연구 개발 활동을 통해 미래 성장 동력을 정의합니다.
  • RAG 전략: 사업의 내용 섹션 안의 '설비에 관한 사항' 및 '연구개발활동' 데이터를 가져옵니다.
  • LLM에게 시킬 일: "현재 진행 중인 신규 시설 투자 금액과 완료 예정일을 찾고, 이를 통해 회사가 어떤 준비를 하고 있는지 추론해줘."

3. [리스크] 우발부채와 소송: "잠재적 지뢰"

향후 전망을 어둡게 할 수 있는 요인들을 미리 파악하는 것도 전망의 일부입니다.

  • 정의: 진행 중인 소송 사건이나 담보 제공 현황, 우발 채무를 요약합니다.
  • RAG 전략: 그 밖에 투자자 보호를 위하여 필요한 사항 섹션을 필터링합니다.
  • LLM에게 시킬 일: "회사가 현재 직면한 법적 리스크나 채무 보증 현황을 정리하고, 이것이 향후 재무에 미칠 부정적 영향을 분석해줘."

 

 

단순하게 데이터를 섹션별로 넣는다면 섹션별로 임베딩이 되기때문에 사업내용이 툭하고 떨어지기만한다.

 

어떻게 질문해서 어떻게 대답을 받아야할지 고민하는게 필요하다.

 

해당 기능 진행하며 느낀건 이 AI가 고도화되고 좋은 퀄리티 답변을 내뱉기위해서는

임베딩을 어떻게할지, 어떤 내용을 재정의할지 결정해야한다.

예를들어 분기 보고서를 읽고 예측하자라는 목표가있다면

분기보고서의 어떤 부분이 예측에 도움이 되는 부분인지, 예측에 도움되는 정보는 어디에 있으며 어떻게 필터링 할 수 있는지 등을 따져야한다.

 

가령 나는 전망을 바라본다고 단순히 생각했지만

전망을 바라보기위해서는 분기/반기에서 필요한 내용만 골라내야한다. 주요제품이 뭔지, 서비스는 뭔지, 판매 실적 등 여러가지를 고려해야한다. 이 여러가지를 정의해서 vectorDB에 잘 넣고 거기서 임베딩 모델의 점수를 잘 매길수있게하는게 중요했다.

 

결국 이런 결과만 나왔다. 데이터를 마구마구 불러오고 마구마구 쪼개서 부담없이 넣어야한다.

 

 제공된 정보만으로는 '주요 제품 및 서비스' 섹션의 내용이 제시되어 있지 않아, 주요 제품별 매출 비중과 실적 변화, 신규 사업이나 향후 성장 전략, 그리고 시장 환경에 대한 경영진의 전망을 구체적으로 분석하기 어렵습니다. 그러나 일반적인 접근 방식으로 답변을 드리겠습니다.

1. **주요 제품별 매출 비중과 실적 변화**
   - 주요 제품 및 서비스 섹션에서 각 제품이나 서비스의 매출 비중, 그리고 과거 연도와 비교한 실적 변화를 확인할 수 있습니다. 이 정보는 회사가 어떤 제품에 가장 많은 자원을 투자하고 있는지를 보여줍니다.
   - 예를 들어, 특정 제품이 전체 매출에서 점유율이 상승하거나 하락하는 경우, 그 원인과 앞으로의 전망을 분석할 수 있습니다.

2. **신규 사업이나 향후 성장 전략**
   - 회사가 신규 시장을 개척하거나 새로운 기술을 도입하여 제품 포트폴리오를 확장하고 있는지 확인해야 합니다.
   - 또한, 경영진이 어떤 분야에서의 성장을 목표로 하고 있는지도 중요합니다. 예를 들어, 디지털화나 지속 가능한 에너지와 같은 트렌드에 대응하기 위한 전략을 세우고 있을 수 있습니다.

3. **시장 환경에 대한 경영진의 전망**
   - 공시 문서에서 경영진이 작성한 시장 분석 섹션을 통해 회사가 직면하고 있는 주요 도전과 기회를 파악할 수 있습니다.
   - 예를 들어, 경쟁 상황, 규제 변화, 고객 행동 변화 등에 대한 이해도와 대응 전략을 확인할 수 있습니다.

위 답변은 일반적인 접근 방식이며, 실제 데이터가 제공되면 더 구체적이고 정확한 분석이 가능합니다.

 

 

 

 

 

 

나중에 궁금한거

1. 게임과같은 정보나 책의 정보들을 임베딩하는 기준

어떤기준으로 연관성을 가지는지 판단하지? ex) 사과와 애플이있다고치면 애플 핸드폰이있을수있고 진짜 사과일 수 있잖아. 

 

 

저작자표시 비영리 변경금지 (새창열림)

'Archive(완료된 내용) > 포트폴리오 강화' 카테고리의 다른 글

[Stock101] 반기 / 분기 공시 요약 및 전망 AI 기능 마무리- 8일차  (0) 2026.01.28
[Stock101]PDF 내용 요약 구현 - 7일차  (1) 2026.01.27
[Stock101] PDF 데이터 추출이 1회 만에 멈췄던 이유 - 5일차  (0) 2026.01.26
[stock101] pdf 업로드 및 추출 -5일차  (0) 2026.01.26
[stock101] dart연동 및 ksi 연동 그리고 리팩토링 -4일차  (1) 2026.01.22
'Archive(완료된 내용)/포트폴리오 강화' 카테고리의 다른 글
  • [Stock101] 반기 / 분기 공시 요약 및 전망 AI 기능 마무리- 8일차
  • [Stock101]PDF 내용 요약 구현 - 7일차
  • [Stock101] PDF 데이터 추출이 1회 만에 멈췄던 이유 - 5일차
  • [stock101] pdf 업로드 및 추출 -5일차
오늘은치킨이닭
오늘은치킨이닭
개발로 세상을 밝히자.(억지 맞음)
  • 오늘은치킨이닭
    개발세밝
    오늘은치킨이닭
  • 전체
    오늘
    어제
    • 분류 전체보기 (80)
      • Project(마감 기한이 정해진 목표) (2)
        • Docker(도커) (1)
        • Django(장고) (0)
        • 부트캠프 (1)
      • Archive(완료된 내용) (59)
        • 재취업준비 (8)
        • 포트폴리오 강화 (24)
        • 부트캠프 (3)
        • 팁 (2)
        • 데이터베이스 (2)
        • SQL (12)
        • 백엔드 (5)
        • 프론트엔드 (1)
        • 유니티(Unity) (2)
      • Area(일생동안 지속 유지하는 활동,마감X) (16)
        • 게임 (2)
        • 코딩테스트 (12)
        • 운영체제 (0)
        • DB (2)
      • Resource(지속적 관심을 갖는 주제분야) (1)
        • 애니메이션 (0)
        • 내가 선정한 맛집 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    고클린 #cpu온도보는법 #cpu온도
    인포그래픽 #자기소개서 #자기소개 #명함삭제
    맛집
    DB #데이터베이스
    명동맛집
    롤 #룬 #자동적용 #블리츠 #다운로드 #도움 #TIP #브론즈 #아이언 #브실골 #아브실
    명동
    명동교자
    유니티 #설치 #방법 #다운
    칼국수맛집
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
오늘은치킨이닭
[Stock101] RAG PDF내용 요약과 전망을 도출하자 - 6일차
상단으로

티스토리툴바