본문 바로가기

딥러닝/Paper review

(3)
[논문리뷰] Time is Encoded in the Weights of Finetuned Language Models Abstract언어 모델을 새로운 시간 기간에 맞추기 위한 간단한 도구인 시간 벡터를 제시시간 벡터: 언어 모델을 특정 시간(예: 연도 또는 월)의 데이터로 세세하게 조정한 후 원래 사전 훈련된 모델의 가중치를 뺀 것실험 결과에 따르면, 이 벡터는 해당 시간 기간의 텍스트에서 성능을 향상시키는 가중치 공간에서의 이동 방향을 지정인접한 시간 기간에 특화된 시간 벡터는 매니폴드 내에서 서로 더 가까이 위치이 구조를 활용하여 시간 벡터 사이를 보간하여 어떠한 추가 훈련 없이 중간 및 미래 시간 기간에 더 나은 성능을 발휘하는 새로운 모델을 유도할 수 있음다양한 작업, 도메인, 모델 크기 및 시간 척도에서 결과의 일관성을 입증결과적으로, 이 연구는 시간이 세세하게 조정된 모델의 가중치 공간에 인코딩되어 있음을 ..
[논문리뷰] Towards Large Language Models as Copilots for Theorem Proving in Lean 0. AbstractTheorem proving - LLM에 있어 중요한 challenge문제 : 존재하는 LLM기반 provers는 인간의 직관 없이 완전히 자율적인 모드로 정리를 증명하려고 노력했으나 어려움 → LeanDojo해당 논문에서는 LLM을 copilot으로..
[논문 리뷰] End-to-End Memory Networks 논문: https://arxiv.org/abs/1503.08895v5 Abstract 구조 : a form of Memory Network, trained ene-to-end, an extension of RNNsearch, multiple computational steps(hops)-> improved results task : question answering, language modeling * Memory network (1) 스토리 문장 Embedding C로 임베딩, 질문 문장 Embedding B로 임베딩 -> 내적을 통해 각 단어 간 유사도 -> 소프트맥스 함수 (2) 스토리 문장 Embedding A로 임베딩 -> 유사도와 덧셈 (어텐션 메커니즘) => 질문 문장과의 유사도를 반영한 스..