diff --git a/docs/diffusion/stable_diffusion/latent_diffusion.html b/docs/diffusion/stable_diffusion/latent_diffusion.html
index b74bf0a1..9b71f132 100644
--- a/docs/diffusion/stable_diffusion/latent_diffusion.html
+++ b/docs/diffusion/stable_diffusion/latent_diffusion.html
@@ -76,7 +76,7 @@
                 <a href='#section-0'>#</a>
             </div>
             <h1>Latent Diffusion Models</h1>
-<p>Latent diffusion models use an auto-encoder to map between image space and latent space. The diffusion model works on the diffusion space, which makes it a lot easier to train. It is based on paper <a href="https://arxiv.org/abs/2112.10752">High-Resolution Image Synthesis with Latent Diffusion Models</a>.</p>
+<p>Latent diffusion models use an auto-encoder to map between image space and latent space. The diffusion model works on the diffusion space, which makes it a lot easier to train. It is based on paper <a href="https://papers.labml.ai/paper/2112.10752">High-Resolution Image Synthesis with Latent Diffusion Models</a>.</p>
 <p>They use a pre-trained auto-encoder and train the diffusion U-Net on the latent space of the pre-trained auto-encoder.</p>
 <p>For a simpler diffusion implementation refer to our <a href="../ddpm/index.html">DDPM implementation</a>. We use same notations for <span ><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:0.58056em;vertical-align:-0.15em;"></span><span class="mord coloredeq eqd" style=""><span class="mord" style=""><span class="mord mathnormal" style="margin-right:0.0037em">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-left:-0.0037em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style=""><span class="mord mathnormal mtight coloredeq eqj" style="">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span></span></span>, <span ><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:0.8888799999999999em;vertical-align:-0.19444em;"></span><span class="mord coloredeq eqe" style=""><span class="mord" style=""><span class="mord" style=""><span class="mord mathnormal coloredeq eqf" style="margin-right:0.05278em">β</span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.2805559999999999em;"><span style="top:-2.5500000000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style=""><span class="mord mathnormal mtight coloredeq eqj" style="">t</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span></span></span></span></span></span> schedules, etc.</p>
 
diff --git a/docs/index.html b/docs/index.html
index 1f06b6d0..da8d97a6 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -101,13 +101,15 @@ <h4>✨ <a href="transformers/index.html">Transformers</a></h4>
 <li><a href="transformers/vit/index.html">Vision Transformer (ViT)</a> </li>
 <li><a href="transformers/primer_ez/index.html">Primer EZ</a> </li>
 <li><a href="transformers/hour_glass/index.html">Hourglass</a></li></ul>
-<h4>✨ <a href="recurrent_highway_networks/index.html">Recurrent Highway Networks</a></h4>
-<h4>✨ <a href="lstm/index.html">LSTM</a></h4>
-<h4>✨ <a href="hypernetworks/hyper_lstm.html">HyperNetworks - HyperLSTM</a></h4>
-<h4>✨ <a href="resnet/index.html">ResNet</a></h4>
-<h4>✨ <a href="conv_mixer/index.html">ConvMixer</a></h4>
-<h4>✨ <a href="capsule_networks/index.html">Capsule Networks</a></h4>
-<h4>✨ <a href="unet/index.html">U-Net</a></h4>
+<h4>✨ <a href="neox/index.html">Eleuther GPT-NeoX</a></h4>
+<ul><li><a href="neox/samples/generate.html">Generate on a 48GB GPU</a> </li>
+<li><a href="neox/samples/finetune.html">Finetune on two 48GB GPUs</a> </li>
+<li><a href="neox/utils/llm_int8.html">LLM.int8()</a></li></ul>
+<h4>✨ <a href="diffusion/index.html">Diffusion models</a></h4>
+<ul><li><a href="diffusion/ddpm/index.html">Denoising Diffusion Probabilistic Models (DDPM)</a> </li>
+<li><a href="diffusion/stable_diffusion/sampler/ddim.html">Denoising Diffusion Implicit Models (DDIM)</a> </li>
+<li><a href="diffusion/stable_diffusion/latent_diffusion.html">Latent Diffusion Models</a> </li>
+<li><a href="diffusion/stable_diffusion/index.html">Stable Diffusion</a></li></ul>
 <h4>✨ <a href="gan/index.html">Generative Adversarial Networks</a></h4>
 <ul><li><a href="gan/original/index.html">Original GAN</a> </li>
 <li><a href="gan/dcgan/index.html">GAN with deep convolutional network</a> </li>
@@ -115,18 +117,23 @@ <h4>✨ <a href="gan/index.html">Generative Adversarial Networks</a></h4>
 <li><a href="gan/wasserstein/index.html">Wasserstein GAN</a> </li>
 <li><a href="gan/wasserstein/gradient_penalty/index.html">Wasserstein GAN with Gradient Penalty</a> </li>
 <li><a href="gan/stylegan/index.html">StyleGAN 2</a></li></ul>
-<h4>✨ <a href="diffusion/index.html">Diffusion models</a></h4>
-<ul><li><a href="diffusion/ddpm/index.html">Denoising Diffusion Probabilistic Models (DDPM)</a></li></ul>
+<h4>✨ <a href="recurrent_highway_networks/index.html">Recurrent Highway Networks</a></h4>
+<h4>✨ <a href="lstm/index.html">LSTM</a></h4>
+<h4>✨ <a href="hypernetworks/hyper_lstm.html">HyperNetworks - HyperLSTM</a></h4>
+<h4>✨ <a href="resnet/index.html">ResNet</a></h4>
+<h4>✨ <a href="conv_mixer/index.html">ConvMixer</a></h4>
+<h4>✨ <a href="capsule_networks/index.html">Capsule Networks</a></h4>
+<h4>✨ <a href="unet/index.html">U-Net</a></h4>
 <h4>✨ <a href="sketch_rnn/index.html">Sketch RNN</a></h4>
 <h4>✨ Graph Neural Networks</h4>
 <ul><li><a href="graphs/gat/index.html">Graph Attention Networks (GAT)</a> </li>
 <li><a href="graphs/gatv2/index.html">Graph Attention Networks v2 (GATv2)</a></li></ul>
-<h4>✨ <a href="cfr/index.html">Counterfactual Regret Minimization (CFR)</a></h4>
-<p>Solving games with incomplete information such as poker with CFR.</p>
-<ul><li><a href="cfr/kuhn/index.html">Kuhn Poker</a></li></ul>
 <h4>✨ <a href="rl/index.html">Reinforcement Learning</a></h4>
 <ul><li><a href="rl/ppo/index.html">Proximal Policy Optimization</a> with  <a href="rl/ppo/gae.html">Generalized Advantage Estimation</a> </li>
 <li><a href="rl/dqn/index.html">Deep Q Networks</a> with  with <a href="rl/dqn/model.html">Dueling Network</a>,  <a href="rl/dqn/replay_buffer.html">Prioritized Replay</a>  and Double Q Network.</li></ul>
+<h4>✨ <a href="cfr/index.html">Counterfactual Regret Minimization (CFR)</a></h4>
+<p>Solving games with incomplete information such as poker with CFR.</p>
+<ul><li><a href="cfr/kuhn/index.html">Kuhn Poker</a></li></ul>
 <h4>✨ <a href="optimizers/index.html">Optimizers</a></h4>
 <ul><li><a href="optimizers/adam.html">Adam</a> </li>
 <li><a href="optimizers/amsgrad.html">AMSGrad</a> </li>
@@ -149,15 +156,11 @@ <h4>✨ <a href="uncertainty/index.html">Uncertainty</a></h4>
 <ul><li><a href="uncertainty/evidence/index.html">Evidential Deep Learning to Quantify Classification Uncertainty</a></li></ul>
 <h4>✨ <a href="activations/index.html">Activations</a></h4>
 <ul><li><a href="activations/fta/index.html">Fuzzy Tiling Activations</a></li></ul>
-<h4>✨ <a href="sampling/index.html">Sampling Techniques</a></h4>
+<h4>✨ <a href="sampling/index.html">Language Model Sampling Techniques</a></h4>
 <ul><li><a href="sampling/greedy.html">Greedy Sampling</a> </li>
 <li><a href="sampling/temperature.html">Temperature Sampling</a> </li>
 <li><a href="sampling/top_k.html">Top-k Sampling</a> </li>
 <li><a href="sampling/nucleus.html">Nucleus Sampling</a></li></ul>
-<h4>✨ <a href="neox/index.html">Eleuther GPT-NeoX</a></h4>
-<ul><li><a href="neox/samples/generate.html">Generate on a 48GB GPU</a> </li>
-<li><a href="neox/samples/finetune.html">Finetune on two 48GB GPUs</a> </li>
-<li><a href="neox/utils/llm_int8.html">LLM.int8()</a></li></ul>
 <h4>✨ <a href="scaling/index.html">Scalable Training/Inference</a></h4>
 <ul><li><a href="scaling/zero3/index.html">Zero3 memory optimizations</a></li></ul>
 <h2>Highlighted Research Paper PDFs</h2>
diff --git a/docs/papers.json b/docs/papers.json
index 20eb3449..a0f48520 100644
--- a/docs/papers.json
+++ b/docs/papers.json
@@ -123,6 +123,9 @@
  "2006.11239": [
   "https://nn.labml.ai/diffusion/ddpm/index.html"
  ],
+ "2010.02502": [
+  "https://nn.labml.ai/diffusion/stable_diffusion/sampler/ddim.html"
+ ],
  "2010.07468": [
   "https://nn.labml.ai/optimizers/ada_belief.html"
  ],
@@ -168,6 +171,9 @@
  "2112.04426": [
   "https://nn.labml.ai/transformers/retro/index.html"
  ],
+ "2112.10752": [
+  "https://nn.labml.ai/diffusion/stable_diffusion/latent_diffusion.html"
+ ],
  "2201.09792": [
   "https://nn.labml.ai/conv_mixer/index.html"
  ],
diff --git a/docs/sitemap.xml b/docs/sitemap.xml
index 5a1dabe4..b9efd7c6 100644
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -134,7 +134,7 @@
 
     <url>
       <loc>https://nn.labml.ai/neox/checkpoint.html</loc>
-      <lastmod>2022-08-11T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
@@ -533,112 +533,112 @@
 
     <url>
       <loc>https://nn.labml.ai/diffusion/index.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/util.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/index.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/latent_diffusion.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/sampler/ddim.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/sampler/index.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/sampler/ddpm.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/scripts/text_to_image.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/scripts/in_paint.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/scripts/index.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/scripts/image_to_image.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/model/unet.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/model/index.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/model/clip_embedder.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/model/autoencoder.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/diffusion/stable_diffusion/model/unet_attention.html</loc>
-      <lastmod>2022-09-12T16:30:00+00:00</lastmod>
+      <lastmod>2022-09-15T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
diff --git a/labml_nn/__init__.py b/labml_nn/__init__.py
index 0ccd4e68..4d961bb4 100644
--- a/labml_nn/__init__.py
+++ b/labml_nn/__init__.py
@@ -41,6 +41,26 @@
 * [Primer EZ](transformers/primer_ez/index.html)
 * [Hourglass](transformers/hour_glass/index.html)
 
+#### ✨ [Eleuther GPT-NeoX](neox/index.html)
+* [Generate on a 48GB GPU](neox/samples/generate.html)
+* [Finetune on two 48GB GPUs](neox/samples/finetune.html)
+* [LLM.int8()](neox/utils/llm_int8.html)
+
+#### ✨ [Diffusion models](diffusion/index.html)
+
+* [Denoising Diffusion Probabilistic Models (DDPM)](diffusion/ddpm/index.html)
+* [Denoising Diffusion Implicit Models (DDIM)](diffusion/stable_diffusion/sampler/ddim.html)
+* [Latent Diffusion Models](diffusion/stable_diffusion/latent_diffusion.html)
+* [Stable Diffusion](diffusion/stable_diffusion/index.html)
+
+#### ✨ [Generative Adversarial Networks](gan/index.html)
+* [Original GAN](gan/original/index.html)
+* [GAN with deep convolutional network](gan/dcgan/index.html)
+* [Cycle GAN](gan/cycle_gan/index.html)
+* [Wasserstein GAN](gan/wasserstein/index.html)
+* [Wasserstein GAN with Gradient Penalty](gan/wasserstein/gradient_penalty/index.html)
+* [StyleGAN 2](gan/stylegan/index.html)
+
 #### ✨ [Recurrent Highway Networks](recurrent_highway_networks/index.html)
 
 #### ✨ [LSTM](lstm/index.html)
@@ -55,18 +75,6 @@
 
 #### ✨ [U-Net](unet/index.html)
 
-#### ✨ [Generative Adversarial Networks](gan/index.html)
-* [Original GAN](gan/original/index.html)
-* [GAN with deep convolutional network](gan/dcgan/index.html)
-* [Cycle GAN](gan/cycle_gan/index.html)
-* [Wasserstein GAN](gan/wasserstein/index.html)
-* [Wasserstein GAN with Gradient Penalty](gan/wasserstein/gradient_penalty/index.html)
-* [StyleGAN 2](gan/stylegan/index.html)
-
-#### ✨ [Diffusion models](diffusion/index.html)
-
-* [Denoising Diffusion Probabilistic Models (DDPM)](diffusion/ddpm/index.html)
-
 #### ✨ [Sketch RNN](sketch_rnn/index.html)
 
 #### ✨ Graph Neural Networks
@@ -74,12 +82,6 @@
 * [Graph Attention Networks (GAT)](graphs/gat/index.html)
 * [Graph Attention Networks v2 (GATv2)](graphs/gatv2/index.html)
 
-#### ✨ [Counterfactual Regret Minimization (CFR)](cfr/index.html)
-
-Solving games with incomplete information such as poker with CFR.
-
-* [Kuhn Poker](cfr/kuhn/index.html)
-
 #### ✨ [Reinforcement Learning](rl/index.html)
 * [Proximal Policy Optimization](rl/ppo/index.html) with
  [Generalized Advantage Estimation](rl/ppo/gae.html)
@@ -88,6 +90,12 @@
  [Prioritized Replay](rl/dqn/replay_buffer.html)
  and Double Q Network.
 
+#### ✨ [Counterfactual Regret Minimization (CFR)](cfr/index.html)
+
+Solving games with incomplete information such as poker with CFR.
+
+* [Kuhn Poker](cfr/kuhn/index.html)
+
 #### ✨ [Optimizers](optimizers/index.html)
 * [Adam](optimizers/adam.html)
 * [AMSGrad](optimizers/amsgrad.html)
@@ -119,17 +127,12 @@
 
 * [Fuzzy Tiling Activations](activations/fta/index.html)
 
-#### ✨ [Sampling Techniques](sampling/index.html)
+#### ✨ [Language Model Sampling Techniques](sampling/index.html)
 * [Greedy Sampling](sampling/greedy.html)
 * [Temperature Sampling](sampling/temperature.html)
 * [Top-k Sampling](sampling/top_k.html)
 * [Nucleus Sampling](sampling/nucleus.html)
 
-#### ✨ [Eleuther GPT-NeoX](neox/index.html)
-* [Generate on a 48GB GPU](neox/samples/generate.html)
-* [Finetune on two 48GB GPUs](neox/samples/finetune.html)
-* [LLM.int8()](neox/utils/llm_int8.html)
-
 #### ✨ [Scalable Training/Inference](scaling/index.html)
 * [Zero3 memory optimizations](scaling/zero3/index.html)
 
diff --git a/labml_nn/diffusion/stable_diffusion/latent_diffusion.py b/labml_nn/diffusion/stable_diffusion/latent_diffusion.py
index 1a097e7f..3f08333d 100644
--- a/labml_nn/diffusion/stable_diffusion/latent_diffusion.py
+++ b/labml_nn/diffusion/stable_diffusion/latent_diffusion.py
@@ -12,7 +12,7 @@
 latent space. The diffusion model works on the diffusion space, which makes it
 a lot easier to train.
 It is based on paper
-[High-Resolution Image Synthesis with Latent Diffusion Models](https://arxiv.org/abs/2112.10752).
+[High-Resolution Image Synthesis with Latent Diffusion Models](https://papers.labml.ai/paper/2112.10752).
 
 They use a pre-trained auto-encoder and train the diffusion U-Net on the latent
 space of the pre-trained auto-encoder.
diff --git a/readme.md b/readme.md
index 7dcf3160..d8ee600e 100644
--- a/readme.md
+++ b/readme.md
@@ -44,19 +44,17 @@ implementations almost weekly.
 * [Primer EZ](https://nn.labml.ai/transformers/primer_ez/index.html)
 * [Hourglass](https://nn.labml.ai/transformers/hour_glass/index.html)
 
-#### ✨ [Recurrent Highway Networks](https://nn.labml.ai/recurrent_highway_networks/index.html)
-
-#### ✨ [LSTM](https://nn.labml.ai/lstm/index.html)
-
-#### ✨ [HyperNetworks - HyperLSTM](https://nn.labml.ai/hypernetworks/hyper_lstm.html)
-
-#### ✨ [ResNet](https://nn.labml.ai/resnet/index.html)
-
-#### ✨ [ConvMixer](https://nn.labml.ai/conv_mixer/index.html)
+#### ✨ [Eleuther GPT-NeoX](https://nn.labml.ai/neox/index.html)
+* [Generate on a 48GB GPU](https://nn.labml.ai/neox/samples/generate.html)
+* [Finetune on two 48GB GPUs](https://nn.labml.ai/neox/samples/finetune.html)
+* [LLM.int8()](https://nn.labml.ai/neox/utils/llm_int8.html)
 
-#### ✨ [Capsule Networks](https://nn.labml.ai/capsule_networks/index.html)
+#### ✨ [Diffusion models](https://nn.labml.ai/diffusion/index.html)
 
-#### ✨ [U-Net](https://nn.labml.ai/unet/index.html)
+* [Denoising Diffusion Probabilistic Models (DDPM)](https://nn.labml.ai/diffusion/ddpm/index.html)
+* [Denoising Diffusion Implicit Models (DDIM)](https://nn.labml.ai/diffusion/stable_diffusion/sampler/ddim.html)
+* [Latent Diffusion Models](https://nn.labml.ai/diffusion/stable_diffusion/latent_diffusion.html)
+* [Stable Diffusion](https://nn.labml.ai/diffusion/stable_diffusion/index.html)
 
 #### ✨ [Generative Adversarial Networks](https://nn.labml.ai/gan/index.html)
 * [Original GAN](https://nn.labml.ai/gan/original/index.html)
@@ -66,10 +64,19 @@ implementations almost weekly.
 * [Wasserstein GAN with Gradient Penalty](https://nn.labml.ai/gan/wasserstein/gradient_penalty/index.html)
 * [StyleGAN 2](https://nn.labml.ai/gan/stylegan/index.html)
 
-#### ✨ [Diffusion models](https://nn.labml.ai/diffusion/index.html)
+#### ✨ [Recurrent Highway Networks](https://nn.labml.ai/recurrent_highway_networks/index.html)
 
-* [Denoising Diffusion Probabilistic Models (DDPM)](https://nn.labml.ai/diffusion/ddpm/index.html)
+#### ✨ [LSTM](https://nn.labml.ai/lstm/index.html)
 
+#### ✨ [HyperNetworks - HyperLSTM](https://nn.labml.ai/hypernetworks/hyper_lstm.html)
+
+#### ✨ [ResNet](https://nn.labml.ai/resnet/index.html)
+
+#### ✨ [ConvMixer](https://nn.labml.ai/conv_mixer/index.html)
+
+#### ✨ [Capsule Networks](https://nn.labml.ai/capsule_networks/index.html)
+
+#### ✨ [U-Net](https://nn.labml.ai/unet/index.html)
 
 #### ✨ [Sketch RNN](https://nn.labml.ai/sketch_rnn/index.html)
 
@@ -123,17 +130,12 @@ Solving games with incomplete information such as poker with CFR.
 
 * [Fuzzy Tiling Activations](https://nn.labml.ai/activations/fta/index.html)
 
-#### ✨ [Sampling Techniques](https://nn.labml.ai/sampling/index.html)
+#### ✨ [Langauge Model Sampling Techniques](https://nn.labml.ai/sampling/index.html)
 * [Greedy Sampling](https://nn.labml.ai/sampling/greedy.html)
 * [Temperature Sampling](https://nn.labml.ai/sampling/temperature.html)
 * [Top-k Sampling](https://nn.labml.ai/sampling/top_k.html)
 * [Nucleus Sampling](https://nn.labml.ai/sampling/nucleus.html)
 
-#### ✨ [Eleuther GPT-NeoX](https://nn.labml.ai/neox/index.html)
-* [Generate on a 48GB GPU](https://nn.labml.ai/neox/samples/generate.html)
-* [Finetune on two 48GB GPUs](https://nn.labml.ai/neox/samples/finetune.html)
-* [LLM.int8()](https://nn.labml.ai/neox/utils/llm_int8.html)
-
 #### ✨ [Scalable Training/Inference](https://nn.labml.ai/scaling/index.html)
 * [Zero3 memory optimizations](https://nn.labml.ai/scaling/zero3/index.html)
 
diff --git a/setup.py b/setup.py
index cabff2b9..8c350568 100644
--- a/setup.py
+++ b/setup.py
@@ -5,7 +5,7 @@
 
 setuptools.setup(
     name='labml-nn',
-    version='0.4.131',
+    version='0.4.132',
     author="Varuna Jayasiri, Nipun Wijerathne",
     author_email="vpjayasiri@gmail.com, hnipun@gmail.com",
     description="🧑‍🏫 Implementations/tutorials of deep learning papers with side-by-side notes 📝; including transformers (original, xl, switch, feedback, vit), optimizers (adam, radam, adabelief), gans(dcgan, cyclegan, stylegan2), 🎮 reinforcement learning (ppo, dqn), capsnet, distillation, diffusion, etc. 🧠",