https://parasdahal.com/deep-clustering https://parasdahal.com/adversarial-attack https://parasdahal.com/softmax-crossentropy https://parasdahal.com/notes/MAP-Elites https://parasdahal.com/notes/Tiny+Reasoning+Model+(TRM) https://parasdahal.com/notes/Hierarchical+Reasoning+Model+(HRM) https://parasdahal.com/notes/dpo-direct-preference-optimization https://parasdahal.com/notes/stochastic+gradients https://parasdahal.com/notes/gaussian+distribution https://parasdahal.com/notes/activation+functions https://parasdahal.com/notes/alr_optimizers https://parasdahal.com/notes/advantage-functions https://parasdahal.com/notes/autoencoders https://parasdahal.com/notes/Autoregressive+Generation+and+KV+Caching+in+Transformers https://parasdahal.com/notes/autoregressive+models https://parasdahal.com/notes/bert https://parasdahal.com/notes/bleu https://parasdahal.com/notes/bm25 https://parasdahal.com/notes/backpropagation+through+time https://parasdahal.com/notes/backpropagation https://parasdahal.com/notes/basis+functions https://parasdahal.com/notes/bayesian+estimation https://parasdahal.com/notes/bayesian+linear+regression https://parasdahal.com/notes/bayesian+model+selection+with+model+evidence https://parasdahal.com/notes/beam+decoding https://parasdahal.com/notes/bellman+equation+and+value+functions https://parasdahal.com/notes/bias+vs+variance+in+machine+learning https://parasdahal.com/notes/boltzmann+machines https://parasdahal.com/notes/bradley-terry-model https://parasdahal.com/notes/byte+pair+encoding https://parasdahal.com/notes/cnns+for+nlp https://parasdahal.com/notes/calibration https://parasdahal.com/notes/capsule+networks+(capsnet) https://parasdahal.com/notes/challenges+of+gan https://parasdahal.com/notes/challenges+of+optimizing+deep+models https://parasdahal.com/notes/class+imbalance https://parasdahal.com/notes/collaborative+filtering https://parasdahal.com/notes/compositional+semantics+and+sentence+representations https://parasdahal.com/notes/compressed+sensing https://parasdahal.com/notes/conditional+gan https://parasdahal.com/notes/Confident+Learning+-+Principled+Data+Cleaning https://parasdahal.com/notes/conformal+prediction https://parasdahal.com/notes/contrastive+divergence https://parasdahal.com/notes/control+variates https://parasdahal.com/notes/convolution https://parasdahal.com/notes/convolutional+neural+networks+(cnn) https://parasdahal.com/notes/coreference+resolution https://parasdahal.com/notes/counterfactual+evaluation+and+ltr https://parasdahal.com/notes/covariate-shift https://parasdahal.com/notes/cross+validation https://parasdahal.com/notes/cross+entropy https://parasdahal.com/notes/decision+theory https://parasdahal.com/notes/Deep+Q-Learning https://parasdahal.com/notes/Deep+Supervision+with+Recursion https://parasdahal.com/notes/depth+and+trainability https://parasdahal.com/notes/discrete+fourier+transform https://parasdahal.com/notes/discriminant+functions https://parasdahal.com/notes/disentangled+representations https://parasdahal.com/notes/distant+supervision https://parasdahal.com/notes/distribution-shift https://parasdahal.com/notes/dropout https://parasdahal.com/notes/dyna-q+-+planning+and+learning https://parasdahal.com/notes/dynamic+programming+(rl) https://parasdahal.com/notes/Eligibility+Trace https://parasdahal.com/notes/Emergent+Misalignment+in+LLMs https://parasdahal.com/notes/energy+based+models https://parasdahal.com/notes/ensemble+methods https://parasdahal.com/notes/equivalent+kernel https://parasdahal.com/notes/expectation+maximization https://parasdahal.com/notes/expected+reciprocal+rank https://parasdahal.com/notes/fisher-information https://parasdahal.com/notes/Focal+Loss https://parasdahal.com/notes/gru https://parasdahal.com/notes/gaussian+mixture+model https://parasdahal.com/notes/gaussian+processes https://parasdahal.com/notes/generalized+advantage+estimate https://parasdahal.com/notes/generative+adversarial+networks https://parasdahal.com/notes/graph+convolutional++networks+(gcn) https://parasdahal.com/notes/group+equivariant+convolutional+neural+networks https://parasdahal.com/notes/Grouped+Query+Attention+(GQA) https://parasdahal.com/notes/harris+corner+detection https://parasdahal.com/notes/dot-product-normalization https://parasdahal.com/notes/hopfield+networks https://parasdahal.com/notes/hough+transform https://parasdahal.com/notes/importance+sampling https://parasdahal.com/notes/incremental+implementation+of+estimating+action+values https://parasdahal.com/notes/infogan https://parasdahal.com/notes/inverse+reinforcement+learning https://parasdahal.com/notes/jensen's+inequality https://parasdahal.com/notes/jensen–shannon+divergence https://parasdahal.com/notes/k-means https://parasdahal.com/notes/kl+divergence https://parasdahal.com/notes/kernel+methods https://parasdahal.com/notes/lstm https://parasdahal.com/notes/lagrange+multipliers https://parasdahal.com/notes/lambdarank https://parasdahal.com/notes/latenent+variable+models https://parasdahal.com/notes/layer+normalization https://parasdahal.com/notes/learning+to+defer https://parasdahal.com/notes/learning+to+rank https://parasdahal.com/notes/least+squares+for+classification https://parasdahal.com/notes/listnet+and+listmle https://parasdahal.com/notes/logistic+regression https://parasdahal.com/notes/loss+functions https://parasdahal.com/notes/maml+-+model-agnostic+meta-learning https://parasdahal.com/notes/markov+decision+processes https://parasdahal.com/notes/markov+reward+processes https://parasdahal.com/notes/maximum+a+posteriori+(map) https://parasdahal.com/notes/Maximum+Entropy+Principle https://parasdahal.com/notes/maximum+likelihood+estimation https://parasdahal.com/notes/mmd https://parasdahal.com/notes/meta+learning https://parasdahal.com/notes/Mixture+of+Experts+in+Transformers+(MoE) https://parasdahal.com/notes/mixture+of+experts https://parasdahal.com/notes/model+based+reinforcement+learning https://parasdahal.com/notes/model+complexity+and+occams+razor https://parasdahal.com/notes/model+free+reinforcement+learning https://parasdahal.com/notes/monte-carlo+estimation https://parasdahal.com/notes/monte-carlo+rl+methods https://parasdahal.com/notes/monte-carlo+tree+search https://parasdahal.com/notes/multi-armed+bandits https://parasdahal.com/notes/Multi-Head+Latent+Attention+(MLA) https://parasdahal.com/notes/Multi-Network+Training+with+Moving+Average+Target https://parasdahal.com/notes/natural+policy+gradient https://parasdahal.com/notes/normalization https://parasdahal.com/notes/normalizing+flows https://parasdahal.com/notes/off-policy+learning+with+approximation https://parasdahal.com/notes/on-policy+learning+with+approximation https://parasdahal.com/notes/online+evaluation+and+ltr https://parasdahal.com/notes/pgt+actor-critic https://parasdahal.com/notes/partial-observability https://parasdahal.com/notes/pathwise+gradient+estimator https://parasdahal.com/notes/perceptron https://parasdahal.com/notes/pixelrnn https://parasdahal.com/notes/policy+gradient https://parasdahal.com/notes/polyloss https://parasdahal.com/notes/positional+encoding https://parasdahal.com/notes/principle+component+analysis+(pca) https://parasdahal.com/notes/prioritized+sweeping https://parasdahal.com/notes/probabilistic+generative+models https://parasdahal.com/notes/reinforce+-+monte+carlo+policy+gradient https://parasdahal.com/notes/reinforce+-+score+function+estimator https://parasdahal.com/notes/rlhf+-+reinforcement+learning+with+human+feedback https://parasdahal.com/notes/rmsnorm https://parasdahal.com/notes/ranknet https://parasdahal.com/notes/relu https://parasdahal.com/notes/recurrent+neural+networks+(rnn) https://parasdahal.com/notes/regularized+least+squares https://parasdahal.com/notes/reinforcement+learning+problem+setup https://parasdahal.com/notes/Rotary+Position+Embeddings+(RoPE) https://parasdahal.com/notes/semi-markov+decision+processes https://parasdahal.com/notes/sentencepiece+-+unigram+lm+encoding https://parasdahal.com/notes/similarity+measures https://parasdahal.com/notes/singular+value+decomposition https://parasdahal.com/notes/state+update+functions+in+partially+observable+mdp https://parasdahal.com/notes/stochastic+gradient+descent https://parasdahal.com/notes/support+vector+machines+(svm) https://parasdahal.com/notes/temporal+difference+learning https://parasdahal.com/notes/tokenization https://parasdahal.com/notes/transformers https://parasdahal.com/notes/uncertainty+in+machine+learning https://parasdahal.com/notes/variational+autoencoders https://parasdahal.com/notes/variational+inference https://parasdahal.com/notes/weight+initialization https://parasdahal.com/notes/why+generative+models https://parasdahal.com/notes/why+implicit+density+models https://parasdahal.com/notes/ppo+-+proximal+policy+optimization https://parasdahal.com/notes/trpo+-+trust-region+policy+optimization https://parasdahal.com/notes/deep-q-network https://parasdahal.com/notes/grpo-group-relative-policy-optimization https://parasdahal.com/notes/attention+mechanism https://parasdahal.com/notes/Scaling+Attention https://parasdahal.com/notes/Dreamer https://parasdahal.com/notes/Intrinsically-Motivated+Humans+and+Agents+in+Open-World+Exploration https://parasdahal.com/notes/AlphaEvolve https://parasdahal.com/notes/Towards+an+AI+co-scientist https://parasdahal.com/notes/OMNI+-+Open-endedness+via+Models+of+human+Notions+of+Interestingness https://parasdahal.com/notes/Darwin+Godel+Machine+(DGM) https://parasdahal.com/notes/Foundation+Model+Self-Play+(FMSP) https://parasdahal.com/notes/Automated+Design+of+Agentic+Systems+(ADAS) https://parasdahal.com/notes/Go-Explore https://parasdahal.com/notes/Better+Think+Thrice+-+Learning+to+Reason+Causally+with+Double+Counterfactual+Consistency https://parasdahal.com/notes/Mathematical+Exploration+and+Discovery+at+Scale+(with+AlphaEvolve) https://parasdahal.com/notes/Minimal+Criterion+Coevolution https://parasdahal.com/ https://parasdahal.com/blog https://parasdahal.com/notes