2019 Flashcards

Question

Case 1 Why Theese Metrics

Answer 1

- **mAP50**: Standard metric, comparable across models - **Detection Accuracy**: Business-relevant (how many circles found?) - **Radius/Centroid Error**: Task-specific (precision matters for circular objects) - **Latency**: Production requirement (real-time vs batch)

Answer 2

1. **Data Drift Detection**: - Monitor input image statistics (mean, std, distribution) - Track confidence score distributions over time - Alert if distribution shifts significantly 2. **Performance Monitoring**: - Track detection counts per image (anomaly detection) - Compare against historical baselines - A/B test new model versions 3. **Ground Truth Collection**: - Sample predictions for human annotation - Calculate metrics on production data - Retrain if accuracy drops below threshold 4. **Model Versioning**: - Triton supports model versioning - Can rollback to previous version if new model performs worse - Gradual rollout (10% → 50% → 100% traffic)

Answer 3

- ✅ **Multi-Framework**: Supports ONNX, TensorRT, PyTorch, TensorFlow - ✅ **Dynamic Batching**: Automatically batches requests for GPU efficiency - ✅ **Model Ensembles**: Can chain multiple models - ✅ **GPU Optimization**: TensorRT backend for maximum performance - ✅ **Production-Ready**: Used by major tech companies - ✅ **Monitoring**: Built-in metrics and health checks - ✅ **Versioning**: Easy model A/B testing

Answer 4

2. **Metrics Tracking**: - Track metrics per model version - Compare accuracy, latency, error rates - Gradual rollout: 10% → 50% → 100% 4. **Canary Deployment**: - Deploy new model version - Route small % of traffic - Monitor metrics - Gradually increase if metrics are good - Rollback if metrics degrade **Metrics to Compare:** - Detection accuracy (if ground truth available) - Inference latency - Error rate - User satisfaction (if applicable)

Answer 5

|---------|-----------|----------|----------| | **Triton Down** | Health check | 503 | Auto-restart, alert | | **DB Down** | Connection error | 500 | Retry, alert, manual intervention | | **S3 Down** | API error | Fallback to local | Auto-switch, alert | | **GPU OOM** | Triton error | 500 | Reduce batch size, alert | | **Invalid Image** | Load error | 400 | User retry with valid image | | **Timeout** | Request timeout | 504 | Increase timeout, optimize | **Improvements Needed:** 1. **Retry Logic**: Exponential backoff for transient failures 2. **Circuit Breaker**: Stop calling failing service after N failures 3. **Graceful Degradation**: Continue operating with reduced functionality 4. **Dead Letter Queue**: Store failed requests for later processing

Answer 6

Adayın Gzip Level 9 (maksimum sıkıştırma) tercihinin teknik özeti şudur: 1. Stratejik Karar (Compute vs. Storage): Sistem, yazma sırasındaki işlemci maliyetini (CPU cost) feda ederek, depolama ve ağ verimliliğini (Storage/Network cost) optimize etmiştir. Kare başına 15ms'lik ek sıkıştırma süresi (bir kerelik maliyet), %16'lık disk tasarrufu (sürekli kazanç) ile telafi edilmiştir. Okuma (decompression) hızının etkilenmemesi bu kararı haklı çıkarır. 2. Neden Diğerleri Değil? LZ4/Snappy: Çok hızlıdır ancak sıkıştırma oranı (ratio) bilimsel veriler için yetersizdir. Zstandard (zstd): Teknik olarak daha üstündür ancak Python standart kütüphanesinde bulunmadığı için projeye ekstra bağımlılık (dependency) eklememek adına reddedilmiştir. "Maintenance" (bakım) kolaylığı performansa tercih edilmiştir. 3. Sonuç: Bu tercih, sınırlı depolama alanı veya bant genişliği olan, ancak sıkıştırma anında (ingestion) 10-20ms gecikmeyi tolere edebilen (batch processing gibi) sistemler için en uygun "yerli ve basit" (native) çözümdür.

Answer 7

Öncelik sırası: (1) Batch size'ı 1000'e çıkarmak (hızlı kazanım), (2) Paralel processing eklemek (CPU-bound işlemler için), (3) COPY veya bulk insert kullanmak (database throughput için), (4) Gerekirse distributed processing (çok büyük setler için). Neden bu sıra: Batch size artışı en az riskle en yüksek kazancı verir. Paralel processing CPU-bound işlemleri hızlandırır. COPY PostgreSQL'in native bulk insert mekanizmasıdır. Distributed processing son çare olarak düşünülmeli.

Answer 8

“Bu nedenle büyük dataset’lerde streaming tercih edilir. Streaming’de frame’leri Postgres’ten micro-batch olarak alıp anında client’a gönderirim. Bu sayede memory sabit kalır. Tek dezavantajı şu: her küçük chunk gönderildiğinde TCP bir paket (segment) oluşturur ve flush eder. TCP paket dediğimiz şey, verinin ağ üzerinden taşınmak için bölündüğü küçük parçalardır. Her flush, ekstra ağ maliyeti demektir; bu yüzden throughput bir miktar düşer.”

Answer 9

Bu cevabın özeti, depolama verimliliği (storage efficiency) ve sistem esnekliğini, milisaniyelerle ölçülen önemsiz bir gecikme süresine tercih eden bilinçli bir mimari kararı yansıtmaktadır. Aday, 16 farklı renk haritasını önceden hesaplayıp saklamanın yaratacağı %93'lük veri şişkinliğini (393MB vs 25MB) reddederek, işlemi istek anında (on-demand) yapmayı seçmiştir. Bu yöntem, kare başına sadece 2ms'lik bir hesaplama maliyeti karşılığında, hem depolama maliyetlerini minimize etmekte hem de sistemi gelecekte eklenebilecek sınırsız sayıda renk haritasına açık hale getirerek "re-ingestion" (veriyi tekrar işleme) yükünü ortadan kaldırmaktadır. Aday ayrıca, en popüler haritaları önceden hesaplamak (hibrit yaklaşım) veya sonuçları önbelleklemek (caching) gibi alternatifleri değerlendirmiş, ancak bu aşamada getirecekleri kod karmaşıklığının (complexity) sağladıkları faydaya değmeyeceğine karar vermiştir. Bununla birlikte, projenin gelecekte ölçeklenmesi durumunda sık erişilen veriler için Redis gibi bir önbellekleme katmanının eksik olduğunu ve performans optimizasyonu için sisteme dahil edilebileceğini belirterek mimariyi geliştirmeye açık bir vizyon sunmuştur.

Answer 10

**Seçtiğim yaklaşım: PostgreSQL BYTEA** ✅ **Avantajlar:** - **ACID guarantees**: Transaction safety (ingestion sırasında critical) - **Single system**: Database + storage aynı yerde (operational simplicity) - **Query integration**: Depth-based query'lerle birlikte data fetch (single query) - **Backup consistency**: Database backup = data backup (atomic) - **No external dependency**: S3 için AWS account, credentials, network latency ❌ **Dezavantajlar:** - **Database size**: Database büyüyor (502MB şu an, ama 100GB+ olabilir) - **Backup time**: Büyük database backup'ları yavaş - **Scaling**: PostgreSQL vertical scaling limit'leri var - **Cost**: Database storage genelde object storage'dan pahalı **Neden BYTEA seçtim:** 1. **Data size**: 502MB şu an, 100GB'a çıksa bile PostgreSQL handle edebilir 2. **Query pattern**: Depth-based query'lerde data'yı da çekiyoruz (single query efficient) 3. **Operational simplicity**: Tek system = daha az failure point 4. **Transaction safety**: Ingestion sırasında atomicity önemli **Ne zaman object storage'a geçerim:** - Database size > 500GB - Global distribution gerekiyorsa (CDN) - Cost optimization kritikse - Read-heavy workload (write'lar az) **Eksik olan şey:** - **Hybrid approach**: Büyük frame'leri (original_data) S3'te, küçük olanları (resized_data) database'de tutabilirdim - **Storage tiering**: Eski data'yı cold storage'a taşıyabilirdim - **Compression at rest**: PostgreSQL'de TOAST compression var ama explicit kontrol yok

Answer 11

PNG de kalite kaybı oluyor bu scientific olduğu için kalite kaybı olsun istemedim 1. Kullanım Amacı (Intent): Görsel Değil, Sayısal: Kullanıcılar (araştırmacılar) bu veriyi ekranda göstermek için değil, matris çarpımı, istatistiksel analiz veya model beslemesi yapmak için istemektedir. Sıfır Sürtünme (Zero Friction): PNG decode etmek ve kütüphane (Pillow vb.) bağımlılığıyla uğraşmak yerine, Base64 verisi tek satırda numpy.frombuffer ile işlenebilir hale gelir. 2. Performans (Latency & CPU): Encoding Hızı: Base64 encoding, PNG encoding'e göre yaklaşık 150 kat daha hızlıdır (0.08ms vs 12ms). Scale Etkisi: Tekil işlemde fark edilmese de, 100 frame'lik bir batch işleminde PNG kullanımı gecikmeyi 1.2 saniye artırırken, Base64 sadece 8ms harcar. Bu, CPU darboğazını (bottleneck) engeller. 3. Veri Bütünlüğü (Integrity): Bit-Exactness: Bilimsel çalışmalarda tekrarlanabilirlik (reproducibility) esastır. JPEG kayıplıdır; PNG ise metadata veya renk uzayı dönüşümleriyle (gamma vb.) piksel değerlerini değiştirebilir. Base64, ham byte dizisinin matematiksel olarak birebir (lossless) aktarılmasını garanti eder. 4. Bant Genişliği Savunması (Trade-off): Base64, binary'ye göre %33 daha fazla yer kaplasa da, HTTP Gzip sıkıştırması bu farkın büyük kısmını kapatır. "Hesaplama gücü (Compute)" şu an "Bant genişliğinden (Bandwidth)" daha pahalı ve kritiktir.

Answer 12

Orkestrasyon Dönüşümü: Compose'dan Kubernetes'e GitOps Tabanlı Ayrık CI/CD Mimarisi CI süreçleri (Build, Test, Security Scan) Jenkins üzerinde koşarken, CD süreçleri ArgoCD ile GitOps prensiplerine göre yönetilmektedir.

Answer 13

Batch Insert (Toplu Yazma): Mevcut frame-by-frame (tek tek) yazma işlemi yerine, verileri 100-1000'lik gruplar halinde (batch) veritabanına yazarak transaction maliyetlerini ve network trafiğini minimize etmek. PostgreSQL WAL (Write-Ahead Log) mekanizmasını verimli kullanarak I/O performansını 10-20 kat artırmak. Multiprocessing (Paralel İşleme): CSV parsing işlemi CPU odaklı (CPU-bound) olduğu için multithreading yerine multiprocessing kullanmak. Dosyayı segmentlere ayırıp birden fazla worker ile işleyerek ingestion süresinde lineer hızlanma sağlamak (Örn: 4 worker ile ~3.5x hız). Checkpointing & Resume Capability (Kaldığı Yerden Devam Etme): Uzun süren işlemlerde olası bir hata (crash/network failure) durumunda sürecin en baştan başlamasını önlemek. İşlenen son batch'in offset bilgisini metadata olarak saklayıp, sistemin kaldığı yerden devam etmesini sağlamak. Fault Tolerance & Quarantine Table (Hata Toleransı): Hatalı veya şemaya uymayan satırların tüm pipeline'ı durdurmasını engellemek (Fail-fast yerine). Bozuk verileri bir **"Quarantine Table"**a (Karantina Tablosu) ayırıp akışın devam etmesini sağlamak ve hatalı verileri sonradan incelemek. Observability & Monitoring (Gözlemlenebilirlik): Sürecin "kara kutu" olmaması için Prometheus ve Grafana entegrasyonu yapmak. Throughput (satır/saniye), hata oranları, worker kaynak kullanımı gibi metrikleri izleyerek darboğazları tespit etmek.

Answer 14

Özetle: 10x scale etmek için önce bottleneck’leri ölçer, ardından database tarafında read replicas + partitioning, API katmanında horizontal scaling, üstüne Redis caching ekleyerek yükü efektif şekilde dağıtırım. Daha büyük resimde ise binary storage’ı object storage’a taşıyarak mimariyi daha future-proof hale getiririm. Bu yaklaşım hem performansı hem maliyeti optimize eder ve sistemi sürdürülebilir bir ölçeklenebilirlik seviyesine taşır.

Answer 15

Scientific imaging alanında verinin kusursuz olmasını beklemek gerçekçi değil. Sensör arızaları, aktarım hataları veya bozuk frame’ler sık görülen bir durum. Böyle bir ortamda “tek bir hatalı frame yüzünden tüm request’i fail etmek” araştırmacının iş akışını gereksiz yere durduruyor. Örneğin kullanıcı 100 frame talep ediyor, 97’si tamamen sağlam, sadece 3’ü bozuk. Eğer ben bu durumda tüm request’i 500 ile kapatırsam kullanıcı analizine devam edemiyor; partial success stratejisinde ise 97 geçerli frame’i anında alıp çalışmaya devam edebiliyor. Bu alanda beklenti transaction-level atomicity değil, graceful degradation. Tabii ki bu “sessizce drop ediyorum” anlamına gelmiyor. Her hatayı structured logging ile kaydediyorum; hangi depth’te hangi frame neden işlenemediği monitoring’e düşüyor

Answer 16

Single-service yapıda distributed tracing’in ROI’si düşük. Mevcut Prometheus metrikleri + structured logging ihtiyacı tamamen karşılıyor. Sistem microservices’e genişlerse tracing’i ekleyecek altyapıyı planladım, ama şu an için gereksiz.

Answer 17

Şu anda projede bir temel test setim var: compression, image processing, health check ve schema doğrulama için unit ve integration testleri yazdım. Bu testler özellikle core logic’in doğru ve deterministik çalıştığını garanti ediyor. Yani algoritmaların kendisi, colormap uygulaması, gzip compression/decompression ve API’nin temel endpoint’leri güvence altında.

Answer 18

Hybrid yaklaşım: (1) Streaming ingestion: Kafka/Kinesis ile real-time ingestion, (2) Write-through cache: Yeni frame'ler hem Redis'e hem PostgreSQL'e yazılır, (3) Query optimization: Önce Redis, sonra PostgreSQL, (4) WebSocket notifications: İlgili client'lara real-time update. Neden: Streaming ingestion latency'yi düşürür. Write-through cache hem hız hem consistency sağlar. Query optimization mevcut read path'i optimize eder. WebSocket notifications client experience'i iyileştirir. Tradeoff: Sistem karmaşıklığı artar, ancak gerçek zamanlılık sağlanır. Infrastructure maliyeti yükselir, ancak business value artar.

Answer 19

Veritabanındaki en kritik performans sorunu, büyük ikili verilerin (BYTEA) yarattığı yoğun Disk I/O ve TOAST (The Oversized-Attribute Storage Technique) mekanizmasının getirdiği ek maliyettir. Yazma işlemlerinde WAL ve indeks bakımı, okuma işlemlerinde ise bu büyük verilerin diskten çekilmesi sistemi kilitler. Bu sorunu çözmek için seçilen strateji 4 adımdan oluşur: Yükü Dışarı Atma: Veritabanını hafifletmek için büyük verileri Object Storage'a (S3) taşımak. Yükü Dağıtma: Okuma trafiğini Read Replica'lara yönlendirmek. Veriyi Bölme: Sorgu performansını artırmak için Partitioning kullanmak. Erişimi Hızlandırma: Sık erişilen veriyi Cache'leyerek diske gitmeyi engellemek.

2019 Flashcards

(43 cards)