디지털 부록

대형 언어 모델(LLM)을 활용한 고고학 정보화 연구

- 발굴조사보고서의 메타데이터 자동 추출 파이프라인 개념 검증 -

1. heripo-engine 데모 사이트

2. PoC의 실제 구동 화면 살펴보기

3. Google NotebookLM으로 핵심만 빠르게 훑어보기 (논문 7분 요약)

이 웹페이지는 2025년 9월 30일 발행된 『헤리티지: 역사와 과학』 제58권 제3호에 게재된 동명 논문의 디지털 부록입니다. 논문 작성 과정에서 구축한 시스템은 지면을 통해 온전히 전달하기 어려운 측면이 있어, 이를 보완하기 위해 본 디지털 부록을 마련했습니다.

본 논문은 2025년 4~5월에 작성되었습니다. 아시다시피 LLM 기술은 매우 빠르게 발전하고 있어, 논문 작성 시점과 비교하면 현재는 훨씬 저렴한 비용으로 월등히 높은 성능의 모델을 사용할 수 있습니다. 예를 들어 논문에서 주로 활용된 OpenAI의 GPT-4o는 GPT-5로 대체되면서 성능은 크게 향상되고 비용은 오히려 저렴해졌습니다. 이처럼 기술 발전 속도가 빠르기에, 논문과 영상의 성능, 정확도, 가격 등은 당시 시점의 기록으로 참고해주시기 바랍니다. 영상 속 프로그램은 모델만 최신으로 교체해도 훨씬 좋은 결과를 얻을 수 있습니다. 따라서 이 연구의 핵심은 특정 시점의 성능과 결과물이 아닌, 자동화 파이프라인을 설계하고 LLM을 적재적소에 활용함으로써 발굴조사보고서의 메타데이터를 자동으로 추출할 수 있다는 개념을 검증했다는 데 있습니다.

영상에서 확인할 수 있는 다양한 한계점은 물론, 논문에서 다룬 기술적·현실적 제약 사항들을 지속적으로 보완하여 관련 자료와 시연 영상을 이 공간에 계속 추가해 나가겠습니다.

현재도 후속 연구와 개발을 진행 중입니다. 2026년 1월에는 발굴조사보고서 PDF에서 구조화된 데이터를 추출하는 TypeScript 라이브러리 heripo-engine을 오픈소스로 공개했습니다. 이 엔진은 PDF 파싱, 문서 구조 분석, 이미지/표 추출 등 데이터 파이프라인의 핵심 전처리 단계를 담당하며, 보고서 1편당 처리 비용을 몇백원 수준으로 낮추는 데 성공했습니다. 이를 기반으로 웹 플랫폼을 준비하고 있으며, 2025년 하반기 중에는 누구나 직접 사용해볼 수 있는 형태의 프로토타입 서비스를 개발하여 공개할 계획입니다. 2026년 중 공개로 일정을 조정했습니다. 다만 가능한 한 앞당길 수 있도록 방법론 고도화와 구현을 병행해 최대한 빠르게 공개하겠습니다.

이 디지털 부록에는 굵직한 이야기 위주로 업데이트됩니다. heripo lab의 지속적인 동향은 GitHub에서 확인하실 수 있으며, 편하게 소식을 받아보시려면 뉴스레터를 구독해주세요. 문화유산 분야의 연구 동향과 함께 heripo lab의 소식도 받아보실 수 있습니다.

연구·개발 일지