papervault
Mimari Yolculuk Architectural Journey

Memex → Papervault

Evrensel bir wiki altyapısı nasıl akademik paper bilgi tabanına dönüştürüldü —
mimari kararlar, miras alınan katmanlar ve yeni bileşenler.
How a universal wiki infrastructure was transformed into an academic paper knowledge base —
architectural decisions, inherited layers, and new components.

Temel Foundation  memex
Özelleşme Specialization  papervault
Yeni katman New layer  fetcher · search
Temel Altyapı Foundation Infrastructure

memex: Domain-agnostik wiki motoru memex: Domain-agnostic wiki engine

memex, her tür bilgi biriktirme projesinin üzerine inşa edilebileceği genel amaçlı bir altyapıdır. Ham kaynak dosyasını alıp yapılandırılmış wiki sayfasına dönüştüren ajan döngüsünü tanımlar — domain ne olursa olsun aynı mekanizma çalışır. memex is a general-purpose infrastructure upon which any type of knowledge accumulation project can be built. It defines the agent loop that takes a raw source file and converts it into a structured wiki page — the same mechanism works regardless of the domain.

Giriş Input
wiki/raw/ Salt okunur — asla değiştirilmez Read-only — never modified
İşleme Processing
runner/ locker/ validator/ scheduler/ budget/
Bilgi Knowledge
wiki/ papers · authors · methods · concepts · venues
Süreç Process
agents/ memory/ journal/ scratch/
Arama Search
MCP hybrid search BM25 + vector + RRF

Tier sistemi: bağlam yönetimi Tier system: context management

Her oturumda tüm wiki yüklenmez. Tier sistemi hangi dosyaların ne zaman bağlama gireceğini belirler. The full wiki is not loaded every session. The tier system determines which files enter context and when.

Tier 1 — Her oturum Tier 1 — Every session
memory/, scratch/, journal/ (son 3 günlast 3 days)
Tier 2 — Alan aktifken Tier 2 — When domain is active
wiki/index.md, aktifactive agents/*/AGENT.md + MEMORY.md
Tier 3 — Sadece istenince Tier 3 — Only when requested
wiki/archive/, outputs/, eski journalold journal
Sorun Alanı Problem Domain

Akademik paper neden farklı? Why is academic paper research different?

Genel wiki motoru bir dosyayı işleyebilir — ama akademik paper araştırması bunu çok aşar. PDF çeşitliliği, çok-kaynaklı keşif, atıf grafiği ve süreklilik gereksinimleri memex'in temel tasarımının dışında kalıyordu. A general wiki engine can process a file — but academic paper research goes far beyond that. PDF variety, multi-source discovery, citation graphs, and continuity requirements were outside memex's core design.

Sorun 01 Problem 01

Kaynak çeşitliliği Source variety

Aynı paper arXiv'de, PMC'de, DOI'de, kurumsal repoda farklı formatlarda (PDF, LaTeX, HTML, XML) bulunur. Tek kaynak yeterli değildir; kalite de değişir. The same paper can be found on arXiv, PMC, DOI, or institutional repos in different formats (PDF, LaTeX, HTML, XML). A single source is not enough; quality also varies.

"arxiv.org 403 döndü, diğer kaynakları denemedim." "arxiv.org returned 403, I didn't try other sources."
Sorun 02 Problem 02

Keşif döngüsü Discovery loop

Yeni bir konuya başlarken hangi paper'ların okunmaya değer olduğunu bulmak için web araması, Google Scholar, arXiv browsing gerekir — hepsi ayrı ayrı. When starting a new topic, web search, Google Scholar, and arXiv browsing are all needed to find worthwhile papers — all separately.

"Hangi paper'lardan başlayayım bilmiyorum." "I don't know which papers to start with."
Sorun 03 Problem 03

Atıf grafiği Citation graph

Paper A, yöntem B'yi kullanır; yöntem B, paper C'de tanımlanmıştır. Bu ilişki ancak ikisini de okuyunca görünür hale gelir. Paper A uses method B; method B is defined in paper C. This relationship only becomes visible when you read both.

"Bu yöntemi başka paper'larda da gördüm ama bağlantısı yok." "I've seen this method in other papers but there's no connection."
Sorun 04 Problem 04

Tekrarlayan araştırma Recurring research

Haftalık yeni paper keşfi manuel ve düzensizdir. Bazı alanlar takip edilir, bazıları unutulur. Birikim olmaz. Weekly new paper discovery is manual and irregular. Some areas are tracked, others are forgotten. No accumulation happens.

"Geçen ay ne okudum, yeni ne çıktı hatırlamıyorum." "I don't remember what I read last month or what's new."
Çözümler Solutions

papervault: Her soruna bir katman papervault: A layer for every problem

Dört soruna dört mimari yanıt. Her biri memex'in temel iskeletine eklenen yeni bir bileşen ya da mevcut bir katmanın domain-spesifik uyarlaması. Four architectural answers to four problems. Each is either a new component added to memex's core skeleton or a domain-specific adaptation of an existing layer.

Sorun 01 · Kaynak çeşitliliği Problem 01 · Source variety
src/fetcher/ cascade
12 kaynak adaptörü sırayla denenir (arxiv-api → arxiv-src → pmc → openalex …). Her biri 5 parser formatı destekler. Kalite skoru 0–5 arası hesaplanır; eşik geçilince cascade durur. sources-config.json ile her adapter enable/disable edilir. 12 source adapters are tried in sequence (arxiv-api → arxiv-src → pmc → openalex …). Each supports 5 parser formats. A quality score 0–5 is calculated; the cascade stops when the threshold is passed. Each adapter can be enabled/disabled via sources-config.json.
Sorun 02 · Keşif döngüsü Problem 02 · Discovery loop
src/search/ modülümodule
Keyword listesini OpenAlex, arXiv, Semantic Scholar, PubMed, Crossref'e paralel gönderir. paper-search-mcp CLI kuruluysa 20+ kaynak otomatik devreye girer. Sonuçlar DOI/arXiv ID üzerinden tekilleştirilir. Sends the keyword list to OpenAlex, arXiv, Semantic Scholar, PubMed, Crossref in parallel. If the paper-search-mcp CLI is installed, 20+ sources activate automatically. Results are deduplicated by DOI/arXiv ID.
Sorun 03 · Atıf grafiği Problem 03 · Citation graph
Çift yönlü wiki linkleri Bidirectional wiki links
Her /ingest, wiki/authors/, wiki/methods/, wiki/venues/ sayfalarını günceller veya oluşturur. Her sayfa kaynağına geri bağlanır. Sorgu: "Bu yöntemi hangi paper'lar kullanıyor?" → anında yanıt. Every /ingest updates or creates wiki/authors/, wiki/methods/, wiki/venues/ pages. Every page links back to its source. Query: "Which papers use this method?" → instant answer.
Sorun 04 · Tekrarlayan araştırma Problem 04 · Recurring research
research/{topic}/ + GitHub Actions
Her konu için index.md (keyword listesi), candidates.md (☐→☑→✓ kuyruğu), log.md. GitHub Actions Salı–Cuma çalışır; src/research/ yeni adayları candidates.md'ye yazar ve commit atar. Per topic: index.md (keyword list), candidates.md (☐→☑→✓ queue), log.md. GitHub Actions runs Tue–Fri; src/research/ writes new candidates to candidates.md and commits.
Pipeline

Uçtan uca akış End-to-end flow

Bir arXiv ID'sinin wiki sayfasına dönüşme yolculuğu — manuel tetikleme veya tam otomasyon. The journey from an arXiv ID to a wiki page — manual trigger or full automation.

Manuel akış Manual flow

Başlangıç Start
arXiv ID · DOI · URL
Kullanıcı candidates.md'den seçer User selects from candidates.md
Fetch · src/fetcher/
Cascade: 12 kaynaksources × 5 formatformats
Kalite skoru ≥ eşik → cascade durur Quality score ≥ threshold → cascade stops
Ham depo (salt okunur) Raw storage (read-only)
wiki/raw/papers/{slug}.md
frontmatter + abstract + full text
↓ /ingest
Araştırmacı ajan Researcher agent
wiki/papers/YYYY-{slug}.md
Problem · Contributions · Methods · Results · Limitations
Bağlantılı sayfalar Linked pages
authors/ · methods/ · venues/ · concepts/
Yeni sayfa oluşturulur veya güncellenir New page created or updated

Otomatik keşif akışı Automatic discovery flow

Tetikleyici Trigger
GitHub Actions (Salı–CumaTue–Fri)
Daemon: Sal–Per araştırmacı, Pzt orkeströr Daemon: Tue–Thu researcher, Mon orchestrator
Girdi Input
research/{topic}/index.md
search_keywords listesi okunur search_keywords list is read
Arama · src/search/ Search · src/search/
5 kaynak paralelsources parallel · dedup
paper-search-mcp varsa 20+ kaynak 20+ sources if paper-search-mcp installed
LLM
LLM (anthropic · openai · …) → JSON
new_candidates satırları üretilir new_candidates rows are generated
Çıktı Output
research/{topic}/candidates.md
Git commit + push otomatik Git commit + push automatic
Miras Zinciri Inheritance Chain

memex'ten ne kaldı, ne değişti What was inherited, what changed

papervault, memex'ten doğrudan türemiştir. Altyapının büyük bölümü değişmeden miras alınmıştır; domain-spesifik bileşenler sıfırdan yazılmış ya da uyarlanmıştır. papervault derives directly from memex. The bulk of the infrastructure is inherited unchanged; domain-specific components were written from scratch or adapted.

Bileşen Component Durum Status memex'te In memex papervault'ta In papervault
wiki/ katmanılayer Uyarlandı Adapted Domain-agnostik Domain-agnostic papers · authors · methods · concepts · venues
runner/ · locker/ · validator/ Miras Inherited Genel wiki yazma motoru General wiki writing engine Değişmedi Unchanged
scheduler/ · budget/ Miras Inherited HEARTBEAT.md periyodik tetikleme HEARTBEAT.md periodic trigger Değişmedi Unchanged
consolidator/ Miras Inherited MEMORY.md → wiki/syntheses/ köprüsü MEMORY.md → wiki/syntheses/ bridge Değişmedi Unchanged
agents/ (orchestrator + researcher) Uyarlandı Adapted Genel ingest + haftalık sentez General ingest + weekly synthesis Paper-spesifik AGENT.md talimatları Paper-specific AGENT.md instructions
MCP hybrid search Miras Inherited BM25 + vector + RRF Değişmedi Unchanged
Tier sistemi Tier system Miras Inherited Tier 1/2/3 bağlam yönetimi Tier 1/2/3 context management Değişmedi Unchanged
src/fetcher/ Yeni New 12 adapter · 5 parser · kalite cascade quality cascade
src/search/ Yeni New 5 kaynaksources + paper-search-mcp opsiyoneloptional
research/{topic}/ Uyarlandı Adapted podcasts.md ( URL kuyruğu URL queue ) candidates.md (arXiv ID / DOI kuyruğu queue )
LLM paketi LLM package Miras Inherited @ai-sdk/* (multi-provider) Aynı Same — anthropic · openai · google · deepseek · llama · grok
7
Değişmeden miras alınan
bileşen
Inherited
unchanged
3
Domain'e uyarlanan
bileşen
Domain-
adapted
2
Sıfırdan yazılan
yeni bileşen
Written
from scratch