Menganalisis Efisiensi Biaya Model LLM: Studi Kasus Prompt Caching dan Simulasi Lintas Model

Outline Artikel
Pendahuluan
Konteks Uji dan Fokus Use Case
Struktur Biaya Token LLM
Strategi Prompt Caching sebagai Optimasi
Simulasi Biaya Tiga Batch Token
Perbandingan Total Biaya antar Model
Kesimpulan dan Rekomendasi

Di tengah berkembangnya penggunaan model bahasa besar (LLM), evaluasi terhadap efisiensi biaya menjadi semakin krusial bagi para developer dan peneliti.
Pemrosesan token yang besar dalam agentic workflow, otomatisasi tugas, atau pengembangan perangkat lunak memerlukan pendekatan ekonomis dan strategis. Penelitian ini mengangkat bagaimana penggunaan Claude Sonnet 4 dalam konteks nyata—melalui platform Databricks dan lingkungan Visual Studio Code—dapat dibandingkan secara simulatif dengan model-model lain seperti GPT‑4o dari OpenAI dan Kimi K2 dari Moonshot AI.

Uji coba ini berfokus pada skenario agentic coding, dengan Claude Sonnet 4 digunakan secara langsung melalui Databricks.
Pemilihan Sonnet 4 didasari pertimbangan performa solid dan harga yang lebih masuk akal dibanding Claude Opus. GPT-4o dipilih sebagai representasi terbaik dari OpenAI, sementara Kimi K2 dipertimbangkan karena performanya yang sedang naik daun dan mengungguli banyak model proprietary, termasuk menantang Claude Sonnet dalam coding dan reasoning. Dalam uji ini, CLINE—sebuah ekstensi Visual Studio berbasis LLM—digunakan untuk menjalankan workflow yang melibatkan pembuatan dan update memory bank, serta konversi HTML ke sebuah template. Workflow ini sangat bergantung pada system prompt dan memory context yang besar.

Perbedaan struktur biaya per juta token input dan output antar model LLM menjadi fondasi utama perbandingan ini.
Berikut adalah tabel ringkas yang menunjukkan harga standar per juta token (USD) dari ketiga model yang diuji:

Model	Input (/1M)	Output (/1M)
GPT-4o	$5.00	$15.00
Claude Sonnet 4	$3.00	$15.00
Kimi K2 (OpenRouter)	$0.60	$2.50

Harga ini kemudian digunakan untuk menghitung total biaya atas token input dan output yang dicatat oleh Databricks saat menggunakan Claude Sonnet 4 secara aktual.

Strategi prompt caching memberikan peluang signifikan untuk menghemat biaya, terutama pada skenario dengan system prompt yang besar dan repetitif.
Caching memungkinkan model tidak perlu mengulang pemrosesan token yang bersifat statis, seperti instruksi sistem atau memori global. GPT-4o menawarkan potongan 50% hingga 100% untuk token cache-hit, sementara Claude Sonnet bisa memproses token cache dengan tarif hanya $0.30 per juta. Kimi K2, meski sudah sangat murah, diuntungkan dari arsitektur penggunaan yang ringan secara alami—sehingga makin efisien saat cache berlaku.

Sebanyak tiga batch log token digunakan untuk simulasi lintas model, dengan total 6,67 juta input tokens dan 146 ribu output tokens.
Claude Sonnet 4 digunakan secara nyata melalui Databricks untuk ketiga batch tersebut. Sementara untuk GPT-4o dan Kimi K2, simulasi dilakukan berdasarkan jumlah token yang sama. Berikut adalah hasil perhitungan total biaya dalam Rupiah (kurs Rp16.300/USD):

Model	Tanpa Cache	Dengan Cache
Databricks (Sonnet 4)	Rp543.279	(tanpa cache)
GPT-4o	Rp579.628	Rp194.622
Claude Sonnet 4	Rp362.023	Rp144.092
Kimi K2	Rp71.231	Rp34.230

Hasil simulasi menunjukkan penghematan biaya drastis setelah prompt caching diaktifkan, terutama pada model-model high-end.
Tanpa cache, GPT-4o menjadi model termahal, diikuti Claude dan Databricks. Namun ketika 75% token input dianggap cacheable (karena bersifat sistem), biaya GPT-4o dapat ditekan lebih dari 60%. Claude juga menunjukkan efisiensi signifikan, sementara Kimi K2 tetap unggul secara ekonomis, bahkan tanpa caching. Ini menjadikan Kimi sebagai pilihan menarik untuk workload coding atau agentic task berbiaya rendah, dengan performa yang kompetitif terhadap model-model besar lainnya.

Evaluasi ini memperlihatkan bahwa kombinasi pemilihan model tepat dan strategi caching dapat secara substansial mengoptimalkan biaya operasional LLM.
Claude Sonnet 4 menjadi pilihan masuk akal untuk agentic coding saat Opus dianggap terlalu mahal. GPT-4o, meskipun unggul, membutuhkan caching agar biaya tetap kompetitif. Kimi K2, sebagai pendatang baru, tidak hanya efisien secara biaya tetapi juga terbukti mampu bersaing dalam benchmark coding. Dengan demikian, untuk proyek yang melibatkan memory bank, tool-usage, atau coding interaktif, pemanfaatan caching dan model berperforma tinggi yang ekonomis adalah strategi terbaik yang dapat diadopsi saat ini.

Outline Artikel#

Outline Artikel