디지털 부록
이 웹페이지는 2025년 9월 30일 발행된 『헤리티지: 역사와 과학』 제58권 제3호에 게재된 동명 논문의 디지털 부록입니다. 논문 작성 과정에서 구축한 시스템은 지면을 통해 온전히 전달하기 어려운 측면이 있어, 이를 보완하기 위해 본 디지털 부록을 마련했습니다.
본 논문은 2025년 4~5월에 작성되었습니다. 아시다시피 LLM 기술은 매우 빠르게 발전하고 있어, 논문 작성 시점과 비교하면 현재는 훨씬 저렴한 비용으로 월등히 높은 성능의 모델을 사용할 수 있습니다. 예를 들어 논문에서 주로 활용된 OpenAI의 GPT-4o는 GPT-5로 대체되면서 성능은 크게 향상되고 비용은 오히려 저렴해졌습니다. 이처럼 기술 발전 속도가 빠르기에, 논문과 영상의 성능, 정확도, 가격 등은 당시 시점의 기록으로 참고해주시기 바랍니다. 영상 속 프로그램은 모델만 최신으로 교체해도 훨씬 좋은 결과를 얻을 수 있습니다. 따라서 이 연구의 핵심은 특정 시점의 성능과 결과물이 아닌, 자동화 파이프라인을 설계하고 LLM을 적재적소에 활용함으로써 발굴조사보고서의 메타데이터를 자동으로 추출할 수 있다는 개념을 검증했다는 데 있습니다.
영상에서 확인할 수 있는 다양한 한계점은 물론, 논문에서 다룬 기술적·현실적 제약 사항들을 지속적으로 보완하여 관련 자료와 시연 영상을 이 공간에 계속 추가해 나가겠습니다.
현재도 후속 연구와 개발을 진행 중입니다. 2026년 1월에는 발굴조사보고서 PDF에서 구조화된 데이터를 추출하는 TypeScript 라이브러리 heripo-engine을 오픈소스로 공개했습니다. 이 엔진은 PDF 파싱, 문서 구조 분석, 이미지/표 추출 등 데이터 파이프라인의 핵심 전처리 단계를 담당하며, 보고서 1편당 처리 비용을 몇백원 수준으로 낮추는 데 성공했습니다. 이를 기반으로 웹 플랫폼을 준비하고 있으며,
2025년 하반기 중에는 누구나 직접 사용해볼 수 있는 형태의 프로토타입 서비스를 개발하여 공개할 계획입니다.
2026년 중 공개로 일정을 조정했습니다. 다만 가능한 한 앞당길 수 있도록 방법론 고도화와 구현을 병행해 최대한 빠르게 공개하겠습니다.
이 디지털 부록에는 굵직한 이야기 위주로 업데이트됩니다. heripo lab의 지속적인 동향은 GitHub에서 확인하실 수 있으며, 편하게 소식을 받아보시려면 뉴스레터를 구독해주세요. 문화유산 분야의 연구 동향과 함께 heripo lab의 소식도 받아보실 수 있습니다.
@llm-newsletter-kit/core)와 문화유산 분야 구현체(@heripo/research-radar)로 분리하여 공개했습니다.npm install @llm-newsletter-kit/core / GitHubnpm install @heripo/research-radar @llm-newsletter-kit/core / GitHub논문에서 언급한 웹 플랫폼의 첫 번째 기능이 출시되었습니다! 리서치 레이더는 문화유산 관련 웹 자료를 수집하여 LLM으로 중요도별로 분석한 후, 맞춤형 뉴스레터로 제공하는 서비스입니다. 매일 아침 8시 30분에 최신 문화유산 관련 소식을 받아보세요.
논문에서의 메타데이터 추출과는 주제가 다르긴 하지만 리서치 레이더도 여러 모듈을 연결시켜놓은 하이브리드 파이프라인 형태이며 논문과는 달리 LangChain을 활용했으며, 각 단계는 다음과 같습니다.