본문 바로가기
AI 활용 & 구조화/자동화 기록

[13편] ‘아카이브용 데이터’ 만들기: 나중에 다시 쓰는 자동화 (Make.com + DeepSeek)

by momncode 2025. 12. 31.

뉴스를 “오늘 쓰고 끝”내면 자동화는 금방 소모됩니다.
13편에서는 뉴스 자동화를 아카이브 데이터(재사용 자산) 로 바꿔, 월별/주제별로 다시 꺼내 쓰는 구조를 만듭니다.


뉴스는 흘러가지만, 엑셀(시트)은 기억합니다.


✅ 이 편의 핵심 목적

블로그 자동화를 “글 생산”에서 “지식 축적”으로 전환합니다.

  • 11편: 쓸 뉴스만 남김(선별)
  • 12편: 한 줄 인사이트까지 붙임(해석)
  • 13편: 그 결과물을 다시 꺼내 쓸 수 있는 데이터로 저장·재가공(아카이브)

결론적으로, 자동화 콘텐츠를 “일회성 포스팅”이 아니라 “참고자료/리서치 DB”로 바꾸는 설계입니다.


📌 뉴스 자동화가 ‘아카이브’로 바뀌는 순간

1) “오늘 뉴스”가 아니라 “흐름”이 보이기 시작할 때

처음엔 매일 요약 포스팅만으로도 충분합니다.
그런데 시간이 지나면 독자는 이런 걸 원합니다.

  • “최근 3개월 토론토 집값/금리 흐름 정리해줘”
  • “올해 캐나다 생활비(식료품/통신비) 올라간 포인트만 뽑아줘”
  • “정책 변화 타임라인이랑, 내가 뭘 확인해야 하는지 알려줘”

이때 필요한 게 타임라인 + 주제별 축적 + 재구성입니다.

2) “포스팅”이 아니라 “레코드(record)”로 저장해야 합니다

글은 읽고 끝나지만, 레코드는 모이고 검색되고 묶입니다.
아카이브는 ‘검색 가능성’이 생기는 순간부터 자산이 됩니다.


🧱 아카이브 설계의 기본: ‘3층 구조’로 생각하기

아카이브를 만들 때 가장 많이 실패하는 이유는,
뉴스를 그냥 통째로 쌓아두기 때문입니다(나중에 못 씁니다).

권장 구조는 아래 3층입니다.

1층) Raw(원문 요약 정보)

  • 제목, 출처, 날짜, URL, 스니펫, 카테고리, 점수(score)

2층) Enriched(해석/태깅/엔티티)

  • 한 줄 인사이트, 영향 대상(who), 체크포인트(what_to_check)
  • 토픽 태그(예: housing, rate, groceries, immigration)
  • 지역 태그(예: Toronto, Ontario, Canada)

3층) Packaged(재사용 묶음)

  • 주간/월간 묶음(digest)
  • “주제 리포트”(예: 90일 토론토 부동산 흐름)
  • “FAQ형 글”(예: 최근 정책/규정 변화 정리)

이 3층이 분리되면, 13편의 아카이브는 ‘콘텐츠 엔진’이 됩니다.


🗓 월별/주제별 자동 묶음 설계(핵심)

여기서부터가 “실전 운영자 단계”입니다.

A. 묶음 기준 2개만 고정하세요

  1. 시간 버킷(bucket): 주간/월간/분기
  2. 주제 버킷(topic): housing / money / jobs / policy / living-cost / immigration 등

포인트: 주제를 20개로 시작하면 100% 망가집니다.
처음엔 6~10개로 시작하고, 데이터가 쌓이면 늘리세요.

B. “Group Key” 규칙(자동 묶음의 핵심)

아카이브에서 묶음의 기본키는 이렇게 잡으면 운영이 편합니다.

  • group_key = YYYY-MM + topic
    • 예: 2025-12_housing
  • 지역을 강하게 쓰고 싶으면
    • group_key = YYYY-MM + topic + region
    • 예: 2025-12_housing_toronto

이 key가 있으면 “한 달치 묶음”이 자동으로 완성됩니다.


🧾 시트 구조를 ‘장기 보관용’으로 바꾸는 방법

옵션 1) Google Sheets 중심(가볍게 시작)

시트는 초반에 유리합니다. 사람이 눈으로 확인하기 쉽기 때문입니다.
다만 장기 운영 시 “검색/성능/정합성”이 약해질 수 있어 구조를 분리합니다.

권장 시트 3개(최소)

  1. news_records (뉴스 단위 레코드 저장)
  2. topic_monthly_index (월×주제 인덱스/통계)
  3. publish_assets (나중에 글로 뽑아낼 재료 묶음)

news_records 필드(권장)

  • id(hash), published_at, month(YYYY-MM)
  • title, source, url, excerpt
  • category, score, decision
  • topic(1개) + topic_secondary(옵션)
  • region(Toronto/ON/Canada)
  • insight_one_liner, who_affected, what_to_check
  • created_at, prompt_version

핵심 문장: “month, topic, region” 3개 컬럼이 있어야 나중에 다시 씁니다.


옵션 2) Data Store 중심(운영 안정성)

글이 쌓이면 “중복/키 기반 조회/정해진 구조”가 중요해집니다.
이때는 Data Store가 강력합니다(간단 DB처럼 운용). 

  • news_records 데이터 스토어: key = id(url hash)
  • monthly_topic_rollup 데이터 스토어: key = YYYY-MM_topic_region

Data Store는 키로 존재 여부 체크가 쉬워서, 중복 방지와 인덱스 운영이 편해집니다. 


🧠 (중요) “토픽 태그”를 자동으로 붙이는 방식

아카이브 품질의 70%는 토픽 태그에서 결정됩니다.

추천: 토픽은 “1개 + 보조 1개”까지만

  • topic_primary: 딱 1개
  • topic_secondary: 선택(있으면)

이렇게 해야 월간 묶음이 깔끔합니다.

DeepSeek 토픽 분류 프롬프트(운영 팁)

  • 입력: title + excerpt + category(11편 결과)
  • 출력: topic_primary, topic_secondary, region, confidence
  • 룰: “모호하면 primary만 주고 secondary 비움”

이 분류 결과를 news_records에 저장하면, 이후 묶음/리포트가 자동화됩니다.


📈 “올해 토론토 부동산 흐름” 같은 글 만드는 법(자동 생성 파이프라인)

이제 아카이브가 실제로 “글”로 변환되는 과정을 설계합니다.

Step 1) 데이터 추출(기간 + 토픽 + 지역)

  • 조건: topic_primary = housing AND region = toronto
  • 기간: 최근 90일 또는 올해(YYYY-01-01~)
  • 결과: 관련 레코드 리스트(최대 N개)

Step 2) 월별 롤업(rolling-up)

월별로 아래를 자동 집계합니다.

  • count_articles(몇 건 쌓였나)
  • avg_score(중요도 평균)
  • top_insights(인사이트 상위 5개)
  • notable_changes(반복 등장 키워드/정책/금리)

이 롤업은 Make의 Aggregator로 “여러 번들 → 하나의 묶음”을 만들 때 편합니다. 

Step 3) DeepSeek로 “리포트 글” 생성(구조 고정)

출력 글의 뼈대를 아예 고정하세요.

  • 도입: “이번 기간의 핵심 변화 1~2문장”
  • 본문 1: 월별 타임라인(3~5개 포인트)
  • 본문 2: 영향을 받는 사람(세입자/집주인/첫집 구매자)별 정리
  • 본문 3: 체크리스트(독자 행동 3개)
  • 마무리: “다음 달 관찰 지표 2개”

핵심 문장: 아카이브 기반 리포트는 ‘내가 이미 모아둔 데이터만’으로 써야 신뢰가 유지됩니다.


🔄 Make.com 시나리오를 “2개로 분리”하면 오래 갑니다

아카이브 운영은 한 시나리오에 다 넣으면 유지보수 난이도가 급증합니다.
권장 분리는 아래처럼 단순합니다.

시나리오 A) Daily Ingest (매일: 수집/선별/요약/태그/저장)

  • 11~12편까지의 흐름
  • 결과를 news_records에 저장

시나리오 B) Weekly/Monthly Packager (주/월: 묶음/롤업/리포트 생성)

  • 매주 1회: 주간 digest 생성
  • 매월 1회: 월간 리포트 생성
  • 스케줄은 Make의 시나리오 스케줄 기능으로 분리 운영 

이렇게 하면 “매일 도는 파이프라인”은 가볍게,
“무거운 글 생성 작업”은 주/월로 넘겨 비용도 안정화됩니다.


🧰 생활 팁: 자동화 블로그를 ‘참고자료’로 만드는 전략 7가지

  1. 레코드에 ‘재사용 필드’를 꼭 넣으세요
  • month/topic/region/who_affected/what_to_check
  1. 월간 리포트는 “기사 전부”가 아니라 상위 N개만
  • score 상위 + 다양성(같은 사건 중복 제거)
  1. “중복 후속 기사”는 한 곳으로 합치세요
  • 같은 이슈 키워드/URL 패턴이면 parent_id로 묶기
  1. 아카이브는 “저장”보다 “검색”이 중요합니다
  • topic_primary를 강하게 유지
  1. REVIEW 큐(수동 검토)는 월 1~2번만 다듬어도 효과 큽니다
  • 태그/인사이트 품질이 안정화됩니다
  1. 롤업(월간 인덱스)을 따로 저장하세요
  • 나중에 리포트를 쓸 때 “추출 비용”이 크게 줄어듭니다
  1. 백업 습관
  • 구조 변경 전에는 반드시 백업(필드명 변경은 특히 위험)

🔜 14편 예고글

아카이브가 쌓이면 시스템은 강해지지만, 동시에 더 잘 “망가질 준비”를 합니다.
RSS 포맷 변경, API 정책 변화, 비용 급증, 그리고 어느 날 갑자기 조용히 멈추는 시나리오까지.
다음 14편에서는 자동화를 오래 굴리기 위한 유지보수 전략(에러 감지, 알림, 비용 안전장치, 고장나도 복구되는 구조) 을 운영자 관점에서 정리합니다.