Dec 17

[교육/데이터 관리,분석] The Paper Times

📌 프로젝트 소개

매일 아침, 사용자가 관심 있는 전 세계 학술 논문을 정리하여, 요약 및 동향을 알려주는 개인형 맞춤 논문 큐레이션 시스템
Empty space, drag to resize

🧐 문제 정의

arXiv나 논문 추천 사이트들은 연구 정보의 양은 충분히 제공하지만, 정작 연구자가 논문의 핵심 내용을 빠르게 파악하기는 쉽지 않습니다. 연구자들은 동향을 파악하기 위해 매일 arXiv를 직접 방문하거나 새로운 논문을 직접 탐색해야 하는데, 여러 플랫폼을 오가는 반복적인 정보 수집 과정과 낮은 효율성을 마주하게 됩니다.

따라서 논문 정보를 Slack과 같은 연구자들이 자주 사용하는 공간으로 옮겨와, 한눈에 최신 연구를 파악하고 필요한 경우 즉시 세부 내용을 확인할 수 있는 효율적인 정보 수집 방식이 요구됩니다.
Empty space, drag to resize

💡 문제 해결

The Paper Times 시스템은 사용자가 논문 사이트를 일일이 탐색하지 않아도, 매일 게재되는 논문을 요약하여 Slack 메세지를 통해 확인할 수 있는 효율적이고 자동화된 정보 수집 환경을 제공합니다.

사용자가 관심 분야만 설정하면, arXiv API를 통해 최신 논문 데이터를 자동 수집하고, 관심 주제에 맞는 논문을 선별합니다. 이후 LLM에서 각 논문의 핵심 내용을 분석해 요약문과 저자와 같은 메타 데이터를 구조화된 형태로 추출합니다.

이렇게 정리된 데이터는 Slack 채널로 전송되며, 사용자는 별도의 탐색 과정 없이 맞춤화된 최신 논문 목록을 제공받고, 요약문과 주요 인사이트를 즉시 확인할 수 있습니다.

이 시스템은 논문 탐색과 정리에 필요한 반복적인 과정을 대신 수행하여, 연구자의 정보 접근 효율성과 인사이트를 동시에 향상시키는 AI 논문 큐레이션 워크플로우입니다.
Empty space, drag to resize

⚙️ 핵심 기능

매일 오전 9시, 사용자가 설정한 관심 키워드를 기반으로 arXiv API를 호출해 최근 하루 이내에 등록된 논문만 자동으로 수집합니다. 이때 API의 submittedDate 필터를 활용해 최신 논문만 선별하며, 응답으로 전달되는 Atom(XML) 형식의 데이터에서 제목(title), 저자(author), 고유 식별자(id), 링크(link) 등 핵심 메타데이터를 JSON 형태로 변환합니다. 이후 JSON을 바탕으로 요약용(ar5iv HTML 링크), 원문 확인용(arXiv 페이지 링크), PDF 다운로드용 링크를 받아 전처리합니다.

  전처리된 데이터로 본문 분석을 하고, 이때 Upstage Solar LLM API가 사용됩니다. 우선 ar5iv HTML으로부터 본문을 추출하고, 없으면 PDF를 텍스트로 변환해 대체 입력으로 사용합니다. 불필요한 태그를 제거하고, 문단 단위로 분할한 뒤, 이 정제된 텍스트를 Solar로 전달해 논문을 자동 분석합니다. Solar API는 프롬프트를 통해 Summary, Discussion, Future Work의 세 가지 섹션을 명시적으로 요구하도록 설계되었습니다. 

  이후 생성된 데이터는 논문의 제목, 저자, Summary, Discussion, Future Work, 원문 링크로 구성되어 Google Sheets API를 통해 구조적으로 저장됩니다. Google Sheets API를 활용해 자동으로 행이 추가되며, 각 셀에는 논문별 필드(title, author, summary, discussion, future work, link)가 채워집니다.

  최종적으로, Slack API를 통해 사용자는 매일 아침 자동으로 전송되는 최신 논문 목록을 받습니다. 메세지는 원문 제목과 한국어 제목이 표시되며, 사용자가 Slack에 명령어를 입력하면 해당 논문의 Summary, Discussion, future work, link를 즉시 받을 수 있습니다.
Empty space, drag to resize

🎬 데모 영상

Empty space, drag to resize

👥 팀원 소개

안승철
- 알림 자동화 시스템 구축
- asc4994@naver.com

이정민
- 자동화 파이프라인 구축, 발표 자료 제작
- kevin873820@gmail.com
허동진
- 발표 자료 제작
- yeunho0329@naver.com

박세옥
- 오류 모니터링 및 예외 처리 설계
- tpdhr101@naver.com
Empty space, drag to resize

💾 참고 자료