- ההוצאה הכי גדולה היא tokens, לא compute. GPT-4o ו-Claude Sonnet 4.5 הם הסטנדרט; הזולים פי 30 כשאפשר.
- Vector DB: pgvector ב-Supabase מספיק עד מיליון embeddings. מעבר לכך — Pinecone או Qdrant Cloud.
- Embeddings זולים מאוד: 0.02 דולר ל-1M tokens ב-text-embedding-3-small.
- Streaming + caching של prompts מורידים עלות ב-40–70%.
- אפליקציית chat ל-1,000 משתמשים פעילים: 80–400 דולר/חודש. RAG עם 100k מסמכים: 200–800.
המבנה של הוצאות AI App
אפליקציית AI מודרנית מורכבת מארבעה צירי הוצאה: inference (קריאות למודל), embeddings (חיפוש סמנטי), vector storage (מסד נתונים וקטורי), והוסטינג של ה-frontend וה-API. ההפתעה לרוב היא שהקרדיט של OpenAI נגמר מהר משחושבים — לא בגלל compute אלא בגלל היקף ה-tokens.
מחירי Inference (2026)
| מודל | Input ($ ל-1M tokens) | Output ($ ל-1M tokens) | מתי להשתמש |
|---|---|---|---|
| GPT-4o | 2.50 | 10.00 | ברירת מחדל לצ׳אט איכותי |
| GPT-4o mini | 0.15 | 0.60 | סיווג, summarization, רוב ה-UX flows |
| GPT-5 (preview) | 5.00 | 15.00 | משימות reasoning כבדות |
| Claude Sonnet 4.5 | 3.00 | 15.00 | כתיבה, קוד, ניתוח ארוך |
| Claude Haiku 4 | 0.80 | 4.00 | תגובות מהירות, בוטים |
| Gemini 2.5 Pro | 1.25 | 5.00 | מולטימודאל, context ארוך |
| Gemini 2.5 Flash | 0.075 | 0.30 | הזול ביותר באיכות סבירה |
| DeepSeek V3 | 0.27 | 1.10 | open-weights, חלופה זולה |
אל תפעיל GPT-4o על כל אינטראקציה. השתמש ב-router: שאלה קצרה = GPT-4o mini / Haiku. תוכן ארוך או reasoning = המודל היקר. חיסכון טיפוסי 60–85%.
Embeddings — הזול בסיפור
Embeddings הם הדבר היחיד שכמעט לא יעלה לך כסף, אם תיצור אותם פעם אחת ותשמור. text-embedding-3-small של OpenAI עולה 0.02 דולר ל-מיליון tokens. גוף ידע של 100,000 מסמכים בני 500 מילים = כ-30 דולר חד-פעמי. הטעות הנפוצה: לחשב embeddings בכל פעם שמשתמש שואל. עשה זאת batch בעת ה-ingest.
Vector Databases — איפה לאחסן
| פתרון | מתאים ל | עלות חודשית |
|---|---|---|
| pgvector על Supabase / Neon | עד 1M embeddings | 0–25 דולר (כלול בפלאן) |
| Pinecone Starter | 100k vectors | חינם |
| Pinecone Standard | מיליוני vectors | 70–500 דולר |
| Qdrant Cloud | 1M+ vectors, hybrid search | 25–300 דולר |
| Weaviate Cloud | ידע ארגוני, מולטי-טננט | החל מ-25 דולר |
| Turbopuffer | אופטימלי לעלות, serverless | תשלום לפי queries |
כשה-recall נופל מתחת ל-90% בחיפושים, או שיש לך מעל 2M vectors. עד אז — pgvector חינמי, פשוט יותר ב-ops, ויושב באותו DB עם הנתונים.
Streaming, Caching ו-Prompt Caching
- Streaming לא חוסך כסף ישירות אבל מקצר זמן תגובה משוער ומוריד הוצאות retry.
- Prompt Caching ב-Anthropic ו-Gemini חוסך עד 90% על system prompts ארוכים — מחיר input יורד פי 10.
- Response cache: שאלות נפוצות (FAQ) — שמור תשובה למשך 24 שעות ב-Redis. חיסכון של עד 70%.
- Semantic cache: זיהוי שאלות דומות עם embeddings — מתאים לבוטים עם FAQ חוזר.
דוגמאות עלות מהשטח
| סוג אפליקציה | משתמשים פעילים | פירוט | עלות חודשית |
|---|---|---|---|
| צ׳אט בוט תמיכה (FAQ) | 500 | GPT-4o mini + cache | 15–40 דולר |
| AI writing assistant | 1,000 | Claude Sonnet, 30k tokens/user | 150–350 דולר |
| RAG על 50k מסמכים | 800 | pgvector + GPT-4o | 200–500 דולר |
| AI Code Assistant פנימי | 30 מפתחים | Sonnet 4.5 כבד | 400–900 דולר |
| מחולל תמונות (DALL-E/SDXL) | 2,000 | 5 תמונות/יוזר/חודש | 250–700 דולר |
| Voice agent (TTS+STT+LLM) | 100 | Whisper + ElevenLabs + GPT-4o | 300–1,200 דולר |
הוסטינג ל-AI Backend
Inference דרך OpenAI/Anthropic לא דורש GPU שלך. הוסטינג צריך רק לטפל ב-proxy וב-business logic. Vercel Edge Functions או Cloudflare Workers מתאימים מצוין: streaming מובנה, latency נמוך, עלות אפסית עד מאות אלפי בקשות. אם אתם רצים מודל פתוח (Llama, Mistral) — צריך GPU. Modal, RunPod ו-Replicate נותנים תשלום לפי שנייה: A100 בערך 1.5–3 דולר לשעה.
איך לחתוך את החשבון של OpenAI
- Router בין מודלים — 70% מהשאלות לא צריכות GPT-4o.
- הגדר max_tokens קשיח לכל call. ברירת המחדל פתוחה והמשתמשים יקבלו תשובות באורך לא נחוץ.
- צמצם system prompt: כל 1,000 tokens × 100k calls = הרבה כסף. שמור הוראות חיוניות בלבד.
- Prompt caching ל-system prompts מעל 1024 tokens — Claude ו-Gemini.
- Batch API של OpenAI נותן 50% הנחה למשימות שלא דורשות real-time (סיכומים יומיים, ניתוח לוגים).
- הגדר usage limits ב-OpenAI Dashboard — מונע חיוב בהפתעה אם יש bug ב-loop.
שאלות נפוצות
עם GPT-4o mini, 1,000 הודעות ביום, בלי cache: כ-30–60 דולר בחודש. עם cache: 10–25 דולר.
רק מעל ~50M tokens בחודש. מתחת לזה — API ספקים תמיד זול יותר אחרי שמחשבים GPU idle, devops ו-cold starts.
pgvector ב-Supabase או Neon. אפס overhead, אפס עלות נוספת עד מיליון רשומות, ואפשר לעבור החוצה מאוחר יותר.
לסיווג, summarization, חילוץ נתונים — כן. לכתיבה איכותית או reasoning מורכב — לא, השתמש ב-Sonnet 4.5 או GPT-4o.
מעלים אתר לאוויר? תוודאו שהוא מוכן!
קבלו סריקת אבטחה ו-SEO מקצועית במחיר משתלם שתוכלו לישון בראש שקט
צרו קשר עכשיו ↗