5.2 자료 수집하기 원문 기반 심화 분석

자료 수집은 파일을 많이 넣는 일이 아니라, 나중에 의심하고 다시 검증할 수 있는 원천과 처리 이력을 만드는 일이다. 이 페이지는 WikiDocs 5.2 절의 웹 문서 수집, 회의록 분리, LLM 작업 요청, log.md 기록 방식을 실무 절차로 재구성한다.

원문 URL
5.2 자료 수집하기
원천 도서
LLM위키 완벽 가이드
소스 경로
data/runtime/write-agents/LLM wiki reference analyses/md/wikidocs/pages/05-02-collect-materials.md
확인일
2026-06-06 KST
원문 마지막 편집
2026년 5월 16일 1:06 오후
빠른 이동

핵심 요약

수집의 목표

5.2의 핵심은 URL, 파일, 회의록을 저장하는 행위보다 원천 자료, 확인 날짜, 수집 이유, 처리 이력을 남기는 데 있다. 그래야 LLM이 만든 요약을 6장과 8장에서 다시 검증할 수 있다.

웹 문서

웹 자료는 raw/web의 원천 카드와 wiki/sources의 source note로 분리한다. 제목, URL, 발행자, 확인일, 수집 이유, 확인 필요가 있어야 원문 변경과 최신성 위험을 추적할 수 있다.

회의록

업무 메모와 회의록은 지저분하지만 실제 맥락을 담는다. 원래 상태는 raw/meetings에 보존하고, 결정 사항, 실행 항목, 확인 필요는 wiki/meetings에서 해석 문서로 분리한다.

완료 기준: 웹 문서 한 개와 회의록 한 개라도 원천 카드, 정리 문서, 처리 이력이 연결되어 있으면 좋은 시작이다. 반대로 자료가 많아도 raw, wiki, index, log가 연결되지 않으면 수집이 끝난 것이 아니다.

원문 구조

원문 절핵심 내용실무 의미
도입부자료 수집은 LLM위키의 첫 단추이며 원천 자료, 확인 날짜, 처리 이력이 있어야 한다.ingest는 많이 넣는 작업이 아니라 신뢰 가능한 근거를 만드는 작업이다.
웹 문서 넣기제목, URL, 발행자, 확인 날짜, 수집 이유를 함께 남긴다.URL 저장과 source card 작성을 구분한다.
웹 문서 수집 흐름가치 판단, raw/web 저장, wiki/sources 정리, index.md 링크, log.md 기록으로 이어진다.수집 자료는 raw와 wiki와 index와 log로 이어져야 한다.
웹 전체 저장의 주의웹 클리퍼 도구를 쓰더라도 공개, 사내, 유료, 고객 자료는 권한이 다르다.본문 저장은 권한과 보안 기준이 확실할 때만 한다.
업무 메모와 회의록 넣기메모는 불완전하고 추정과 결정이 섞이지만 실제 맥락이 남는다.지저분함은 raw 가치지만, 해석은 분리해야 한다.
회의록을 위키 지식으로 바꾸는 흐름회의 중 메모를 raw에 저장하고 결정, 실행 항목, 확인 필요를 wiki 요약으로 만든다.결정은 보고서 근거, 실행 항목은 할 일, 확인 필요는 다음 수집의 출발점이다.
LLM에게 맡길 때의 요청 예시특정 raw만 근거로 쓰고, 실제 결정만 정리하며, 개인정보를 복사하지 말고, log를 갱신하게 한다.LLM 요청은 좋은 글 작성 요청이 아니라 신뢰 경계와 출력 위치 지정이다.
처리 이력 남기기날짜, 작업, 원천 자료, 결과 문서, 상태, 다음 행동을 남긴다.log.md는 raw와 wiki와 후속 질문을 연결하는 감사 경로다.
5.2의 검증 포인트raw 보존, wiki 분리, 확인 날짜, 출처 경로, 결정/추정 구분, 처리 이력을 점검한다.완료 기준은 파일 수가 아니라 검증 가능성이다.

상세 분석

1. 자료 수집은 ingest가 아니라 provenance 설계다

5.2가 말하는 수집의 품질은 원천성, 확인 가능성, 연결성으로 요약된다. 원천성은 raw에 원문 또는 원천 카드가 남는 상태다. 확인 가능성은 URL, 확인일, 자료 성격, 수집 이유가 있는 상태다. 연결성은 정리 문서와 log가 raw를 가리키는 상태다.

품질 기준좋은 상태실패 신호후속 영향
원천성raw에 원문 또는 원천 카드가 남는다.LLM 요약문이 원본처럼 저장된다.6.2의 문장별 근거 검증이 불가능해진다.
확인 가능성URL, 확인일, 자료 성격, 수집 이유가 있다.언제 왜 넣었는지 모른다.8.1에서 오래된 주장과 출처 누락을 찾기 어렵다.
연결성정리 문서와 log가 raw를 가리킨다.raw가 쌓였지만 wiki와 output에서 돌아갈 길이 없다.7장의 보고서와 실행 계획이 근거를 잃는다.

이 관점은 5.1 자료를 넣기 전에 정할 기준의 포함/제외 기준과 5.3 위키 문서로 정리하기의 주제별 문서화 사이를 연결한다.

2. 웹 문서는 내용보다 재검증 메타데이터가 먼저다

웹 문서는 시간이 지나며 바뀌거나 사라질 수 있고, 같은 URL 안에서도 섹션과 문맥이 바뀔 수 있다. 그래서 웹 자료를 위키에 넣을 때는 URL만 붙이지 말고 제목, URL, 발행자, 확인 날짜, 수집 이유를 기록해야 한다.

위치목적남길 내용피해야 할 일
raw/web/...원천 카드 또는 저장본제목, URL, 발행자, 확인 날짜, 자료 성격, 수집 이유, 확인할 항목, 확인 필요LLM 해석이나 결론을 원문처럼 섞기
wiki/sources/...다시 질문하기 쉬운 source note한 문장 요약, 근거 raw 경로, 확인된 내용, 확인 필요, 관련 문서원문 전체를 장문 복제하거나 근거 없는 결론 확정하기
index.md탐색 출발점수집한 원천 자료와 정리 문서 링크긴 원문이나 보고서 본문 저장하기
log.md처리 이력날짜, 작업, 원천 자료, 결과 문서, 상태, 다음 행동자료가 들어온 이유와 상태를 비워 두기
권한 주의: 웹 페이지 전체를 저장하는 도구는 보조 수단일 뿐이다. 공개 문서, 사내 문서, 유료 문서, 고객 자료는 저장 권한과 공유 범위가 다르다. 저장 범위가 불확실하면 제목, URL, 확인 날짜, 짧은 메모만 남기고 본문 저장은 보류한다.

3. 업무 메모와 회의록은 지저분해서 가치 있고, 지저분해서 위험하다

업무 메모와 회의록은 공식 문서보다 문장이 불완전하고 추정, 제안, 결정, 실행 후보가 섞인다. 하지만 바로 그 이유로 실제 업무 맥락을 담는다. 핵심은 원문을 예쁘게 고치는 것이 아니라 원래 상태를 보존하고 해석을 따로 만드는 것이다.

자료 종류raw/에 남길 것wiki/에 정리할 것검증 질문
개인 업무 메모작성일, 작성자, 원문 메모, 떠오른 질문반복 업무 규칙, 문제 패턴, 다음 질문개인 생각을 확인된 사실로 쓰지 않았는가?
회의록회의일, 참석 범위, 안건, 원문 기록결정 사항, 실행 항목, 확인 필요논의 중인 의견을 결정으로 승격하지 않았는가?
인터뷰 메모인터뷰 대상, 맥락, 발언 요지, 인용 가능 여부요구사항, 불만, 사용 조건, 확인 필요인용 가능성과 개인정보 기준이 확인됐는가?
결정 기록결정일, 참여자, 대안, 결론채택 이유, 포기한 대안, 재검토 조건결정과 제안, 보류를 분리했는가?

회의록을 wiki 지식으로 바꿀 때는 결정 사항, 실행 항목, 확인 필요를 따로 뽑는다. 결정 사항은 보고서 근거가 되고, 실행 항목은 할 일 목록이 되며, 확인 필요는 다음 자료 수집과 질문의 출발점이 된다.

4. LLM에게 맡길 때는 자료 범위와 금지 사항을 먼저 고정한다

LLM에게 회의록이나 웹 자료 정리를 맡길 때는 단순 요약 요청으로 시작하지 않는다. 사용할 raw 파일, 결정과 실행 항목의 판정 기준, 개인정보 복사 금지, 결과 문서 경로, log.md 갱신 방식, 근거 부족 단정 금지를 명시해야 한다.

요청 요소왜 필요한가약한 요청의 위험
사용할 raw 범위 지정위키 밖 일반론과 다른 자료 혼입을 줄인다.LLM이 관련 없어 보이지만 그럴듯한 배경지식을 섞는다.
결정/실행/확인 필요 분리회의록의 신뢰 등급을 보존한다.논의, 제안, 결정이 같은 문장으로 합쳐진다.
민감 정보 복사 금지raw와 output의 보안 경계를 지킨다.고객 원문, 개인정보, 계약 정보가 파생 문서로 확산된다.
출력 경로 지정raw와 wiki와 output 책임을 유지한다.요약이 원천 위치에 저장되거나 파일이 흩어진다.
log 갱신 요구처리 이력과 후속 검증을 남긴다.어떤 raw가 어떤 wiki를 만들었는지 모른다.
근거 부족 단정 금지추정을 업무 지식으로 굳히지 않는다.미확정 담당자, 일정, 효과가 확정문처럼 남는다.

5. log.md는 위키의 lineage를 유지하는 최소 장부다

log.md는 열심히 정리했다는 기록이 아니라 raw와 wiki와 나중의 질문을 연결하는 lineage 기록이다. 좋은 처리 이력은 날짜, 작업, 원천 자료, 결과 문서, 상태, 다음 행동을 짧게라도 담는다.

필드예시 방향쓰임
날짜자료를 확인하거나 처리한 날짜최신성 판단, 감사 순서 확인
작업ingest, update, review, lint무엇을 했는지 구분
원천 자료raw/web/..., raw/meetings/...원문으로 돌아가기
결과 문서wiki/sources/..., wiki/meetings/...파생 문서 찾기
상태초안, 확인 필요, 검토 완료신뢰 수준 판단
다음 행동승인자 확인, 최신 문서 재확인후속 작업 연결

6. 실패 사례와 수정 방향

실패 사례왜 위험한가수정 방향
URL만 저장하고 제목, 확인일, 수집 이유를 남기지 않는다.원문 변경과 최신성, 수집 목적을 추적할 수 없다.웹 원천 카드에 제목, URL, 발행자, 확인일, 수집 이유를 남긴다.
웹 문서 전체를 권한 확인 없이 복사한다.유료 문서, 사내 문서, 고객 자료의 저장 권한 문제가 생긴다.권한이 불확실하면 메타데이터와 짧은 메모만 두고 본문 저장은 보류한다.
회의록을 깔끔한 요약으로 덮어쓴다.실제 발언과 결정, 추정의 경계가 사라진다.원문은 raw/meetings, 해석은 wiki/meetings에 둔다.
논의 중인 의견을 결정 사항으로 정리한다.보고서와 실행 항목이 잘못된 근거 위에 만들어진다.결정, 실행 항목, 확인 필요를 별도 섹션으로 나눈다.
개인정보가 포함된 문의 원문을 wiki에 복사한다.민감 정보가 파생 문서와 output으로 퍼진다.익명화, 제외, 접근 권한, 동의 기준을 먼저 확인한다.
LLM에게 요약만 요청한다.근거 범위, 출력 위치, 금지 사항, log 갱신이 빠진다.raw 범위, 결정 기준, 개인정보 금지, 결과 경로, log 갱신을 요청에 넣는다.
log.md를 작성하지 않는다.어떤 raw에서 어떤 wiki가 나왔는지 시간이 지나면 모른다.ingest/update/review/lint 기록을 한 줄이라도 남긴다.

실무 적용 절차

  1. 5.1에서 만든 수집 기준 카드를 다시 확인한다. 포함 범위, 제외 범위, 민감 정보 기준, 최신성 기준이 비어 있으면 자료를 넣기 전에 보완한다.
  2. 새 자료를 발견하면 현재 주제 질문에 필요한지 먼저 판단한다. 관련이 없으면 후보에서 제외하거나 별도 주제 후보로 둔다.
  3. 웹 문서라면 제목, URL, 발행자, 확인 날짜, 자료 성격, 수집 이유를 기록한다.
  4. 웹 문서 본문 전체 저장 여부를 판단한다. 공개 여부, 유료/사내/고객 자료 여부, 저장 권한이 불명확하면 본문 저장을 보류한다.
  5. 웹 원천 카드를 raw/web/에 둔다. 파일명에는 확인 날짜와 주제를 넣어 나중에 찾기 쉽게 한다.
  6. 같은 자료를 wiki/sources/의 source note로 정리한다. 한 문장 요약, 근거 raw 경로, 확인된 내용, 확인 필요, 관련 문서를 포함한다.
  7. 업무 메모나 회의록은 원래 상태를 먼저 raw/meetings/ 또는 적절한 raw 위치에 보존한다.
  8. 회의록에서 결정 사항, 실행 항목, 확인 필요를 분리한다. 발언이나 제안이 결정인지 확인되지 않으면 확인 필요로 둔다.
  9. 회의록 정리 문서를 wiki/meetings/에 만든다. 원천 자료 경로와 확인 날짜를 반드시 남긴다.
  10. 개인정보, 고객명, 계약 정보, 내부 전략, 회의 녹취, 자동 전사본은 조직 보안 기준과 동의 기준을 확인하기 전까지 그대로 복사하지 않는다.
  11. LLM에게 맡길 때는 사용할 raw 파일을 명시하고, 위키 밖 일반론이나 다른 자료를 섞지 말라고 요청한다.
  12. LLM 요청에는 결정/실행 항목/확인 필요 분리, 개인정보 복사 금지, 출력 경로, log 갱신, 근거 부족 단정 금지를 포함한다.
  13. 결과 문서를 받은 뒤 raw와 wiki를 비교한다. 원문보다 강한 표현, 출처 없는 추가, 민감 정보 복사, 확인 필요 누락을 찾는다.
  14. index.md에는 수집한 원천 자료와 정리 문서 링크를 짧게 추가한다. 긴 본문은 index에 넣지 않는다.
  15. log.md에 날짜, 작업, 원천 자료, 결과 문서, 상태, 다음 행동을 남긴다.
  16. raw에 있는 모든 원천 자료가 log에 언급되어 있는지 점검한다. 누락된 자료는 log를 보완하거나 보류 이유를 남긴다.
  17. 수집 완료를 파일 수로 판단하지 않는다. raw, wiki, index, log가 서로 연결되고 확인 필요가 남아 있어야 완료로 본다.
  18. 5.3으로 넘어가기 전 수집 자료를 어떤 주제별 wiki 문서로 나눌지 초안을 작성한다.

실무 템플릿

웹 원천 자료 카드

항목작성 내용검증 질문
제목웹 문서 제목나중에 같은 자료를 찾을 수 있는가?
URL원문 주소원문으로 돌아갈 수 있는가?
발행자조직, 작성자, 사이트자료 성격과 신뢰 범위를 판단할 수 있는가?
확인 날짜YYYY-MM-DD최신성 판단이 가능한가?
자료 성격공식 문서, 블로그, 도움말, 내부 문서 등공식성이나 한계를 표시했는가?
수집 이유어떤 위키 질문에 쓰이는지수집 이유가 없으면 제외 또는 보류할 수 있는가?
원문에서 확인할 항목섹션, 기능, 정책, 제한, 예외나중에 검증할 위치가 보이는가?
확인 필요최신성, 권한, 버전, 저장 가능 범위단정하지 말아야 할 항목이 남았는가?

웹 source note 골격

섹션포함할 내용5.2와의 연결
한 문장 요약이 웹 문서가 어떤 업무 질문에 쓰이는지wiki/sources는 다시 질문하기 쉬운 정리 문서다.
근거raw/web/..., URL, 확인 날짜, 자료 성격원천 자료 경로가 남아야 나중에 표현을 고칠 수 있다.
확인된 내용원문에서 확인되는 내용만 정리웹 문서 요약이 추정으로 커지는 것을 막는다.
확인 필요버전, 최신성, 실제 설치 환경, 권한근거 부족 항목을 단정하지 않는다.
관련 문서상위 wiki, 질문, output, logindex와 log 흐름으로 이어진다.

회의록 원천 카드

항목작성 내용주의
회의일YYYY-MM-DD최신성과 처리 순서를 판단한다.
회의명회의 이름같은 날짜의 여러 회의를 구분한다.
참석 범위팀 또는 역할 단위개인정보가 필요 없으면 개인명 대신 역할명을 쓴다.
기록자기록 담당기록 책임과 신뢰 범위를 판단한다.
자료 성격내부 회의 메모, 자동 전사본, 공식 회의록 등자동 전사본은 오류와 동의 기준을 확인한다.
원문 메모발언, 논의, 결정 후보를 가능한 한 원래 상태로 둔다.LLM 요약이나 사람 해석을 섞지 않는다.
민감 정보고객명, 계약 정보, 개인정보, 내부 전략 포함 여부포함되면 익명화 또는 보류한다.

회의 요약 wiki 골격

섹션작성 내용검증 질문
한 문장 요약회의에서 실제로 확인된 중심 결정 또는 주제원문보다 강한 결론으로 바뀌지 않았는가?
근거raw/meetings/..., 확인 날짜, 자료 성격원천으로 돌아갈 수 있는가?
결정실제로 결정된 내용만의견이나 제안을 결정으로 쓰지 않았는가?
실행 항목행동, 담당자, 기한, 확인 방법담당자나 기한이 없으면 확인 필요로 뒀는가?
확인 필요미정인 유형, 승인자, 기준, 자료다음 질문과 수집의 출발점이 되는가?
다음 질문이 회의 요약으로 할 수 있는 후속 질문6.1의 업무 질문으로 이어지는가?

처리 이력 한 줄 템플릿

날짜작업원천 자료결과 문서상태다음 행동
YYYY-MM-DDingest/update/review/lintraw/...wiki/... 또는 output/...초안/확인 필요/검토 완료승인자 확인, 최신성 재확인, 다음 질문 작성

LLM 작업 요청 템플릿

[raw 경로]만 근거로 사용하세요.

다음 작업을 해 주세요.
1. 원문에서 실제로 확인되는 내용만 정리하세요.
2. 결정, 실행 항목, 확인 필요를 분리하세요.
3. 담당자, 기한, 효과, 기준이 원문에서 확인되지 않으면 확인 필요로 표시하세요.
4. 개인정보, 고객 원문, 계약 정보, 비공개 코드는 새 문서에 복사하지 마세요.
5. 결과는 [wiki 경로] 형식으로 작성하세요.
6. log.md에 날짜, 작업, 원천 자료, 결과 문서, 상태, 다음 행동을 남길 항목을 제안하세요.

근거가 약한 내용은 단정하지 마세요.

검증 체크리스트

웹 문서 수집 체크리스트

업무 메모와 회의록 체크리스트

LLM 작업 검증 체크리스트

처리 이력 체크리스트

좋은 질문과 검증 질문

LLM에게 던질 좋은 질문

사람이 확인할 검증 질문

한계와 완료 기준

이 문서는 2026-06-06 KST에 WikiDocs 원문을 직접 열람해 작성된 Markdown 분석을 HTML로 변환한 것이다. 원문 자체의 최신 수정 여부와 세부 표현은 WikiDocs 원문에서 다시 확인해야 한다.

이 절의 완료 기준

  1. 웹 문서 수집 시 제목, URL, 발행자, 확인 날짜, 수집 이유를 남길 수 있다.
  2. 웹 원천 카드와 source note를 raw/webwiki/sources처럼 분리할 수 있다.
  3. 웹 문서 전체 저장 여부를 권한과 보안 기준으로 판단하고, 불확실하면 본문 저장을 보류할 수 있다.
  4. 업무 메모와 회의록을 원본 상태로 raw에 보존하고, 해석 문서를 wiki에 따로 만들 수 있다.
  5. 회의록에서 결정 사항, 실행 항목, 확인 필요를 구분할 수 있다.
  6. 개인정보, 고객명, 계약 정보, 내부 전략, 회의 녹취 같은 민감 자료를 그대로 파생 문서에 복사하지 않는다.
  7. LLM에게 맡길 때 사용할 raw 범위, 출력 경로, 금지 사항, log 갱신, 근거 부족 단정 금지를 명시할 수 있다.
  8. 새 자료마다 log.md에 날짜, 작업, 원천 자료, 결과 문서, 상태, 다음 행동을 남길 수 있다.
  9. raw 파일이 log에 언급되어 있는지 점검할 수 있다.
  10. 5.3에서 수집 자료를 주제별 wiki 문서로 나눌 준비가 되어 있다.