From bd11ab68161bcb1cd3af7881fc1875eb3f9929c8 Mon Sep 17 00:00:00 2001
From: Weixing Zhang <weixingzhang@users.noreply.github.com>
Date: Thu, 2 Jul 2020 22:09:30 -0700
Subject: [PATCH] Optimize LayernormGrad (#4156)

* Draft for LayerNorm Optimization

* Modify LayernormGrad kernel based on new backward graph.

* keep two LayernormGrad implementations.

One is implemented based on input X, mean. The other is based on output Y, scale, bias. The first one is enabled by default. The second one can be enabled by --use_invertible_layernorm_grad

* expose use_invertible_layernorm_grad to frontend.

* add fp16 tests.

Co-authored-by: Sherlock Huang <bahuang@OrtTrainingDev3.af05slrtruoetgaxwwjv5nsq5e.px.internal.cloudapp.net>
Co-authored-by: Weixing Zhang <wezhan@microsoft.com>
---
 .../contrib_ops/cuda/cuda_contrib_kernels.cc  |   4 +-
 onnxruntime/contrib_ops/cuda/layer_norm.cc    |   2 +-
 .../contrib_ops/cuda/layer_norm_impl.cu       |   2 +-
 .../core/framework/gradient_graph_builder.cc  |   5 +-
 .../core/framework/gradient_graph_builder.h   |   3 +
 .../core/graph/gradient_builder.cc            |  18 +-
 .../core/graph/gradient_builder_base.h        |   9 +-
 .../core/graph/gradient_builder_registry.cc   |   5 +-
 .../core/graph/gradient_builder_registry.h    |   4 +-
 .../orttraining/core/graph/gradient_config.h  |  18 ++
 .../core/graph/training_op_defs.cc            |  26 +++
 .../core/session/training_session.cc          |   8 +-
 .../core/session/training_session.h           |   7 +
 orttraining/orttraining/models/bert/main.cc   |   7 +-
 .../models/runner/training_runner.cc          |   1 +
 .../models/runner/training_runner.h           |   3 +
 orttraining/orttraining/python/ort_trainer.py |  14 +-
 .../python/orttraining_pybind_state.cc        |   6 +-
 .../test/gradient/gradient_checker.cc         |   3 +
 .../test/gradient/gradient_op_test_utils.cc   |   3 +
 .../test/training_ops/cuda/layer_norm_test.cc | 138 ++++++++++++
 .../training_ops/cpu/cpu_training_kernels.cc  |   4 +
 .../training_ops/cpu/nn/layer_norm.cc         |  82 ++++++-
 .../training_ops/cpu/nn/layer_norm.h          |  10 +
 .../cuda/cuda_training_kernels.cc             |  10 +-
 .../training_ops/cuda/nn/layer_norm.cc        |  67 +++++-
 .../training_ops/cuda/nn/layer_norm.h         |  10 +
 .../training_ops/cuda/nn/layer_norm_impl.cu   | 203 +++++++++++++-----
 .../training_ops/cuda/nn/layer_norm_impl.h    |   6 +-
 29 files changed, 594 insertions(+), 84 deletions(-)
 create mode 100644 orttraining/orttraining/core/graph/gradient_config.h

diff --git a/onnxruntime/contrib_ops/cuda/cuda_contrib_kernels.cc b/onnxruntime/contrib_ops/cuda/cuda_contrib_kernels.cc
index 685ae59fc6..1005423035 100644
--- a/onnxruntime/contrib_ops/cuda/cuda_contrib_kernels.cc
+++ b/onnxruntime/contrib_ops/cuda/cuda_contrib_kernels.cc
@@ -61,7 +61,7 @@ class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain,
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, double, ThresholdedRelu);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, MLFloat16, ThresholdedRelu);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, float_float, LayerNormalization);
-class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, double_float, LayerNormalization);
+class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, double_double, LayerNormalization);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, MLFloat16_float, LayerNormalization);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, Inverse);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, int8_t_MLFloat16, QuantizeLinear);
@@ -125,7 +125,7 @@ Status RegisterCudaContribKernels(KernelRegistry& kernel_registry) {
       BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, double, ThresholdedRelu)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, MLFloat16, ThresholdedRelu)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, float_float, LayerNormalization)>,
-      BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, double_float, LayerNormalization)>,
+      BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, double_double, LayerNormalization)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kOnnxDomain, 1, MLFloat16_float, LayerNormalization)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, Inverse)>,
 
diff --git a/onnxruntime/contrib_ops/cuda/layer_norm.cc b/onnxruntime/contrib_ops/cuda/layer_norm.cc
index bd6d14eef0..de89bd424d 100644
--- a/onnxruntime/contrib_ops/cuda/layer_norm.cc
+++ b/onnxruntime/contrib_ops/cuda/layer_norm.cc
@@ -24,7 +24,7 @@ namespace cuda {
       LayerNorm<T, U>);
 
 REGISTER_KERNEL_TYPED(float, float)
-REGISTER_KERNEL_TYPED(double, float)
+REGISTER_KERNEL_TYPED(double, double)
 REGISTER_KERNEL_TYPED(MLFloat16, float)
 
 template <typename T, typename U>
diff --git a/onnxruntime/contrib_ops/cuda/layer_norm_impl.cu b/onnxruntime/contrib_ops/cuda/layer_norm_impl.cu
index 747a2ff70e..4251c21033 100644
--- a/onnxruntime/contrib_ops/cuda/layer_norm_impl.cu
+++ b/onnxruntime/contrib_ops/cuda/layer_norm_impl.cu
@@ -376,7 +376,7 @@ void HostApplyLayerNorm(
 
 LAYERNORM_LINEAR_IMPL(float, float)
 LAYERNORM_LINEAR_IMPL(half, float)
-LAYERNORM_LINEAR_IMPL(double, float)
+LAYERNORM_LINEAR_IMPL(double, double)
 //LAYERNORM_LINEAR_IMPL(half, half)
 
 }  // namespace cuda
diff --git a/orttraining/orttraining/core/framework/gradient_graph_builder.cc b/orttraining/orttraining/core/framework/gradient_graph_builder.cc
index 0b32ec0857..fe44ae78b6 100644
--- a/orttraining/orttraining/core/framework/gradient_graph_builder.cc
+++ b/orttraining/orttraining/core/framework/gradient_graph_builder.cc
@@ -6,6 +6,7 @@
 #include "core/graph/schema_registry.h"
 #include "orttraining/core/framework/gradient_graph_builder.h"
 #include "orttraining/core/graph/gradient_builder_registry.h"
+#include "orttraining/core/graph/gradient_config.h"
 #include "orttraining/core/optimizer/insert_output_rewriter.h"
 #include "core/optimizer/gelu_fusion.h"
 #include "core/optimizer/rule_based_graph_transformer.h"
@@ -22,9 +23,11 @@ GradientGraphBuilder::GradientGraphBuilder(Graph* graph,
                                            const unordered_set<string>& y_node_arg_names,
                                            const unordered_set<string>& x_node_arg_names,
                                            string loss_node_arg_name,
+                                           const GradientGraphConfiguration& gradient_graph_config,
                                            const bool set_gradient_as_graph_output)
     : graph_(graph),
       loss_node_arg_name_(loss_node_arg_name),
+      gradient_graph_config_(gradient_graph_config),
       set_gradient_as_graph_output_(set_gradient_as_graph_output) {
   auto rule_based_graph_transformer =
       onnxruntime::make_unique<RuleBasedGraphTransformer>("pre_training_rule_based_graph_transformer");
@@ -187,7 +190,7 @@ Status GradientGraphBuilder::Build() {
       }
     }
 
-    GradientDef node_defs = GetGradientForOp(node, output_args_need_grad, input_args_need_grad);
+    GradientDef node_defs = GetGradientForOp(gradient_graph_config_, node, output_args_need_grad, input_args_need_grad);
 
     // updates arg name if gradient accumulation is needed
     for (auto& op_def : node_defs) {
diff --git a/orttraining/orttraining/core/framework/gradient_graph_builder.h b/orttraining/orttraining/core/framework/gradient_graph_builder.h
index 2c40ab86e8..403d543613 100644
--- a/orttraining/orttraining/core/framework/gradient_graph_builder.h
+++ b/orttraining/orttraining/core/framework/gradient_graph_builder.h
@@ -58,6 +58,7 @@ class GradientGraphBuilder {
                        const std::unordered_set<std::string>& y_node_arg_names,
                        const std::unordered_set<std::string>& x_node_arg_names,
                        std::string loss_node_arg_name,
+                       const GradientGraphConfiguration& gradient_graph_config,
                        const bool set_gradient_as_graph_output = false);
 
   Status Build();
@@ -73,6 +74,8 @@ class GradientGraphBuilder {
 
   std::string loss_node_arg_name_;
 
+  const GradientGraphConfiguration& gradient_graph_config_;
+
   onnxruntime::GraphTransformerManager graph_transformation_mgr_{5};
 
   // key: ArgDef for the gradient after accumulation
diff --git a/orttraining/orttraining/core/graph/gradient_builder.cc b/orttraining/orttraining/core/graph/gradient_builder.cc
index 9c6cbf72fc..a823d46ba9 100644
--- a/orttraining/orttraining/core/graph/gradient_builder.cc
+++ b/orttraining/orttraining/core/graph/gradient_builder.cc
@@ -956,11 +956,19 @@ IMPLEMENT_GRADIENT_BUILDER(GetFastGeluGradient) {
 }
 
 IMPLEMENT_GRADIENT_BUILDER(GetLayerNormalizationGradient) {
-  return std::vector<NodeDef>{
-      NodeDef(OpDef{"LayerNormalizationGrad", kMSDomain, 1},
-              {GO(0), I(0), I(1), O(1), O(2)},
-              {GI(0), GI(1), GI(2)},
-              {SrcNodeAttributes()})};
+  if (GetGradientGraphConfiguration().use_invertible_layernorm_grad) {
+    return std::vector<NodeDef>{
+        NodeDef(OpDef{"InvertibleLayerNormalizationGrad", kMSDomain, 1},
+                {GO(0), O(0), I(1), I(2), O(2)},
+                {GI(0), GI(1), GI(2)},
+                {SrcNodeAttributes()})};
+  } else {
+    return std::vector<NodeDef>{
+        NodeDef(OpDef{"LayerNormalizationGrad", kMSDomain, 1},
+                {GO(0), I(0), I(1), O(1), O(2)},
+                {GI(0), GI(1), GI(2)},
+                {SrcNodeAttributes()})};
+  }
 }
 
 IMPLEMENT_GRADIENT_BUILDER(GetBatchNormalizationGradient) {
diff --git a/orttraining/orttraining/core/graph/gradient_builder_base.h b/orttraining/orttraining/core/graph/gradient_builder_base.h
index 0f5c79eb8e..90f5ed5124 100644
--- a/orttraining/orttraining/core/graph/gradient_builder_base.h
+++ b/orttraining/orttraining/core/graph/gradient_builder_base.h
@@ -7,6 +7,7 @@
 #include <string>
 #include "core/graph/graph.h"
 #include "orttraining/core/graph/graph_augmenter.h"
+#include "orttraining/core/graph/gradient_config.h"
 #include "onnx/defs/attr_proto_util.h"
 
 namespace onnxruntime {
@@ -27,10 +28,11 @@ typedef std::vector<NodeDef> GradientDef;
 class GradientBuilderBase {
  public:
   GradientBuilderBase(
+      const GradientGraphConfiguration& gradient_graph_config,
       const Node* node,
       const std::unordered_set<std::string>& gradient_inputs,
       const std::unordered_set<std::string>& gradient_outputs)
-      : node_(node), gradient_inputs_(gradient_inputs), gradient_outputs_(gradient_outputs) {
+      : gradient_graph_config_(gradient_graph_config), node_(node), gradient_inputs_(gradient_inputs), gradient_outputs_(gradient_outputs) {
     unique_node_prefix_ = CreateUniqueNodePrefix();
   }
 
@@ -54,6 +56,10 @@ class GradientBuilderBase {
  protected:
   virtual GradientDef GetGradientDefsImpl() const = 0;
 
+  const GradientGraphConfiguration& GetGradientGraphConfiguration() const {
+    return gradient_graph_config_;
+  }
+
   // i-th input of forward op
   ArgDef I(const size_t i) const {
     ORT_ENFORCE(i < node_->InputDefs().size());
@@ -185,6 +191,7 @@ class GradientBuilderBase {
     return unique_prefix.str();
   }
 
+  const GradientGraphConfiguration& gradient_graph_config_;
   const Node* node_;
   std::string unique_node_prefix_;
 
diff --git a/orttraining/orttraining/core/graph/gradient_builder_registry.cc b/orttraining/orttraining/core/graph/gradient_builder_registry.cc
index 54149f7bf3..94b4e1e096 100644
--- a/orttraining/orttraining/core/graph/gradient_builder_registry.cc
+++ b/orttraining/orttraining/core/graph/gradient_builder_registry.cc
@@ -3,11 +3,13 @@
 
 #include "orttraining/core/graph/gradient_builder_registry.h"
 #include "orttraining/core/graph/gradient_builder.h"
+#include "orttraining/core/graph/gradient_config.h"
 
 namespace onnxruntime {
 namespace training {
 
-GradientDef GetGradientForOp(const Node* node,
+GradientDef GetGradientForOp(const GradientGraphConfiguration& gradient_graph_config,
+                             const Node* node,
                              const std::unordered_set<std::string>& output_args_need_grad,
                              const std::unordered_set<std::string>& input_args_need_grad) {
                                
@@ -16,6 +18,7 @@ GradientDef GetGradientForOp(const Node* node,
   // less than 9 is not supported and for Slice we have Slice-1, Slice-10 and Slice-11.
 
   auto gradient_builder = GradientBuilderRegistry::GetInstance().MakeUnique(node->OpType(),
+                                                                            gradient_graph_config,
                                                                             node,
                                                                             output_args_need_grad,
                                                                             input_args_need_grad);
diff --git a/orttraining/orttraining/core/graph/gradient_builder_registry.h b/orttraining/orttraining/core/graph/gradient_builder_registry.h
index 9568aff6bd..7acec7e7f4 100644
--- a/orttraining/orttraining/core/graph/gradient_builder_registry.h
+++ b/orttraining/orttraining/core/graph/gradient_builder_registry.h
@@ -12,6 +12,7 @@ namespace onnxruntime {
 namespace training {
 
 typedef GenericRegistry<GradientBuilderBase,
+                        const GradientGraphConfiguration&,
                         const Node*&,                            //node
                         const std::unordered_set<std::string>&,  // gradient_inputs
                         const std::unordered_set<std::string>&>  // gradient_outputs
@@ -31,7 +32,8 @@ class GradientBuilderRegistry : public GradientRegistryType {
   ORT_DISALLOW_COPY_ASSIGNMENT_AND_MOVE(GradientBuilderRegistry);
 };
 
-GradientDef GetGradientForOp(const Node* node,
+GradientDef GetGradientForOp(const GradientGraphConfiguration& gradient_graph_config,
+                             const Node* node,
                              const std::unordered_set<std::string>& output_args_need_grad,
                              const std::unordered_set<std::string>& input_args_need_grad);
 
diff --git a/orttraining/orttraining/core/graph/gradient_config.h b/orttraining/orttraining/core/graph/gradient_config.h
new file mode 100644
index 0000000000..bee896965e
--- /dev/null
+++ b/orttraining/orttraining/core/graph/gradient_config.h
@@ -0,0 +1,18 @@
+// Copyright (c) Microsoft Corporation. All rights reserved.
+// Licensed under the MIT License.
+
+#pragma once
+
+namespace onnxruntime {
+namespace training {
+
+struct GradientGraphConfiguration {
+  // Layernorm gradient can be computed based on either input or output of layernorm.
+  // That is to say, either input or output needs to be stashed for layernorm gradient.
+  // To save memory, ideally, only one(input vs output) should be stashed rather than both.
+  // By default, the input based algorithm is used. This flag is to enable the output based algorithm.
+  bool use_invertible_layernorm_grad{false};
+};
+
+}  // namespace training
+}  // namespace onnxruntime
diff --git a/orttraining/orttraining/core/graph/training_op_defs.cc b/orttraining/orttraining/core/graph/training_op_defs.cc
index 17c816268c..23d99cf071 100644
--- a/orttraining/orttraining/core/graph/training_op_defs.cc
+++ b/orttraining/orttraining/core/graph/training_op_defs.cc
@@ -1432,6 +1432,32 @@ Example 4:
           {"tensor(float)"},
           "Constrain mean and inv_std_var to float tensors.");
 
+  ONNX_CONTRIB_OPERATOR_SCHEMA(InvertibleLayerNormalizationGrad)
+      .SetDomain(kMSDomain)
+      .SinceVersion(1)
+      .SetSupportLevel(OpSchema::SupportType::EXPERIMENTAL)
+      .SetDoc("LayerNormalizationGrad")
+      .Attr("axis",
+            "The first normalization dimension: normalization will be performed along dimensions axis : rank(inputs).",
+            AttributeProto::INT, static_cast<int64_t>(-1))
+      .AllowUncheckedAttributes()
+      .Input(0, "Y_grad", "The gradient tensor from output.", "T")
+      .Input(1, "Y", "Output data tensor from the forward path", "T")
+      .Input(2, "scale", "Scale tensor.", "T")
+      .Input(3, "bias", "Bias tensor.", "T")
+      .Input(4, "inv_std_var", "inverse std variance of X.", "U")
+      .Output(0, "X_grad", "Gradient of the input.", "T")
+      .Output(1, "scale_grad", "Gradient of the scale.", "T")
+      .Output(2, "bias_grad", "Gradient of the bias.", "T")
+      .TypeConstraint(
+          "T",
+          {"tensor(float16)", "tensor(float)", "tensor(double)"},
+          "Constrain input and output types (except mean and inv_std_var) to float tensors.")
+      .TypeConstraint(
+          "U",
+          {"tensor(float)"},
+          "Constrain mean and inv_std_var to float tensors.");
+
   ONNX_CONTRIB_OPERATOR_SCHEMA(BatchNormalizationGrad)
       .SetDomain(kMSDomain)
       .SinceVersion(1)
diff --git a/orttraining/orttraining/core/session/training_session.cc b/orttraining/orttraining/core/session/training_session.cc
index 6b650eed47..1898639f12 100644
--- a/orttraining/orttraining/core/session/training_session.cc
+++ b/orttraining/orttraining/core/session/training_session.cc
@@ -219,7 +219,7 @@ Status TrainingSession::ConfigureForTraining(
   }
 
   ORT_RETURN_IF_ERROR(BuildGradientGraph(
-      weight_names_to_train, loss_name, config.set_gradients_as_graph_outputs));
+      weight_names_to_train, loss_name, config.gradient_graph_config, config.set_gradients_as_graph_outputs));
 
   // transform for mixed precision
   std::unordered_map<std::string, NodeArg*> fp32_weight_name_to_fp16_node_arg{};
@@ -425,12 +425,14 @@ static Status ConfigureLossFunctionInternal(
 static Status BuildGradientGraphInternal(Graph& graph,
                                          const std::string& loss_function_output_name,
                                          const std::unordered_set<std::string>& node_arg_names_to_train,
+                                         const GradientGraphConfiguration& gradient_graph_config,
                                          const bool set_gradient_as_graph_output = false) {
   // Compute the gradient graph def.
   GradientGraphBuilder grad_graph_builder(&graph,
                                           {loss_function_output_name},
                                           node_arg_names_to_train,
                                           loss_function_output_name,
+                                          gradient_graph_config,
                                           set_gradient_as_graph_output);
   return grad_graph_builder.Build();
 }
@@ -638,13 +640,16 @@ Status TrainingSession::EnableMixedPrecision(const std::unordered_set<std::strin
 
 Status TrainingSession::BuildGradientGraph(const std::unordered_set<std::string>& weights_to_train,
                                            const std::string& loss_function_output_name,
+                                           const GradientGraphConfiguration& gradient_graph_config,
                                            const bool set_gradient_as_graph_output) {
   // Fill weights_to_train_ according to weights_to_train
   weights_to_train_ = weights_to_train;
+  gradient_graph_config_ = gradient_graph_config;
 
   ORT_RETURN_IF_ERROR(BuildGradientGraphInternal(model_->MainGraph(),
                                                  loss_function_output_name,
                                                  weights_to_train_,
+                                                 gradient_graph_config_,
                                                  set_gradient_as_graph_output));
 
   return DoPostLoadProcessing(*model_);
@@ -762,6 +767,7 @@ Status TrainingSession::Save(const PathString& model_uri, TrainingSession::SaveO
     ORT_RETURN_IF_ERROR(BuildGradientGraphInternal(new_model->MainGraph(),
                                                    actual_loss_name,
                                                    weights_to_train_,
+                                                   gradient_graph_config_,
                                                    false));
 
     OptimizerOutputKeyMap<std::string> opt_graph_outputs;
diff --git a/orttraining/orttraining/core/session/training_session.h b/orttraining/orttraining/core/session/training_session.h
index 9ede468f50..5453b54273 100644
--- a/orttraining/orttraining/core/session/training_session.h
+++ b/orttraining/orttraining/core/session/training_session.h
@@ -10,6 +10,7 @@
 #include "orttraining/core/graph/loss_function_registry.h"
 #include "orttraining/core/graph/optimizer_graph_output_key.h"
 #include "orttraining/core/graph/optimizer_config.h"
+#include "orttraining/core/graph/gradient_config.h"
 
 namespace onnxruntime {
 namespace training {
@@ -42,6 +43,9 @@ class TrainingSession : public InferenceSession {
     // The immutable weights specification.
     ImmutableWeights immutable_weights;
 
+    // Gradient graph configuration
+    GradientGraphConfiguration gradient_graph_config{};
+
     // Whether to set the gradients as graph outputs.
     bool set_gradients_as_graph_outputs{false};
 
@@ -409,6 +413,7 @@ class TrainingSession : public InferenceSession {
   */
   common::Status BuildGradientGraph(const std::unordered_set<std::string>& weights_to_train,
                                     const std::string& loss_function_output_name,
+                                    const GradientGraphConfiguration& gradient_graph_config,
                                     const bool set_gradient_as_graph_output = false);
 
   common::Status BuildAccumulationNode(const std::unordered_set<std::string>& weights_to_train);
@@ -469,6 +474,8 @@ class TrainingSession : public InferenceSession {
   std::unordered_set<std::string> dropout_eval_feeds_;
   OptimizerGraphConfig opt_graph_config_;
   std::unordered_map<std::string, OptimizerNodeConfig> opt_configs_;
+
+  GradientGraphConfiguration gradient_graph_config_;
 };
 }  // namespace training
 }  // namespace onnxruntime
diff --git a/orttraining/orttraining/models/bert/main.cc b/orttraining/orttraining/models/bert/main.cc
index effa43b7ab..89067c9269 100644
--- a/orttraining/orttraining/models/bert/main.cc
+++ b/orttraining/orttraining/models/bert/main.cc
@@ -165,7 +165,9 @@ Status ParseArguments(int argc, char* argv[], BertParameters& params, OrtParamet
       ("enable_grad_norm_clip", "Specify whether to enable gradient clipping for optimizers.",
         cxxopts::value<bool>()->default_value("true"))
       ("enable_gelu_approximation", "Specify whether to enable GELU approximation.",
-        cxxopts::value<bool>()->default_value("true"));
+        cxxopts::value<bool>()->default_value("true"))
+      ("use_invertible_layernorm_grad", "Specify whether to use invertible laynorm(dropping the input activation)",
+        cxxopts::value<bool>()->default_value("false"));
   options
     .add_options("ORT configuration")
       ("ort_log_severity", "ORT minimum logging severity (see onnxruntime::logging::Severity values)",
@@ -458,12 +460,15 @@ Status ParseArguments(int argc, char* argv[], BertParameters& params, OrtParamet
         "Log severity must be in the range [", static_cast<int>(logging::Severity::kVERBOSE),
         ", ", static_cast<int>(logging::Severity::kFATAL), "].");
     ort_params.vlog_level = flags["ort_vlog_level"].as<int>();
+
+    params.use_invertible_layernorm_grad = flags["use_invertible_layernorm_grad"].as<bool>();
   } catch (const exception& e) {
     const std::string msg = "Failed to parse the command line arguments";
     cerr << msg << ": " << e.what() << "\n"
          << options.help() << "\n";
     return Status(ONNXRUNTIME, INVALID_ARGUMENT, msg);
   }
+
   return Status::OK();
 }
 
diff --git a/orttraining/orttraining/models/runner/training_runner.cc b/orttraining/orttraining/models/runner/training_runner.cc
index 226dbe2d27..e94dc86977 100644
--- a/orttraining/orttraining/models/runner/training_runner.cc
+++ b/orttraining/orttraining/models/runner/training_runner.cc
@@ -91,6 +91,7 @@ Status TrainingRunner::Initialize() {
   config.weight_names_to_not_train = params_.weights_not_to_train;
   config.immutable_weights = params_.immutable_weights;
 
+  config.gradient_graph_config.use_invertible_layernorm_grad = params_.use_invertible_layernorm_grad;
   config.set_gradients_as_graph_outputs = false;
 
   config.gradient_accumulation_steps = params_.gradient_accumulation_steps;
diff --git a/orttraining/orttraining/models/runner/training_runner.h b/orttraining/orttraining/models/runner/training_runner.h
index 015d21b470..4b42a56168 100644
--- a/orttraining/orttraining/models/runner/training_runner.h
+++ b/orttraining/orttraining/models/runner/training_runner.h
@@ -169,6 +169,9 @@ class TrainingRunner {
 
     // Enable GELU approximation
     bool enable_gelu_approximation = false;
+  
+    // Use invertible layernorm grad
+    bool use_invertible_layernorm_grad = false;
   };
 
   TrainingRunner(Parameters params, const Environment& env);
diff --git a/orttraining/orttraining/python/ort_trainer.py b/orttraining/orttraining/python/ort_trainer.py
index c58580902b..33e00252e9 100644
--- a/orttraining/orttraining/python/ort_trainer.py
+++ b/orttraining/orttraining/python/ort_trainer.py
@@ -376,7 +376,8 @@ def create_ort_training_session_with_optimizer(model, device, training_optimizer
                                                deepspeed_zero_stage=0,
                                                enable_grad_norm_clip=True,
                                                frozen_weights=[], opset_version=DEFAULT_OPSET_VERSION,
-                                               use_deterministic_compute=False):
+                                               use_deterministic_compute=False,
+                                               use_invertible_layernorm_grad=False):
     output_name = model.graph.output[0].name
     ort_parameters = ort.TrainingParameters()
     ort_parameters.loss_output_name = output_name
@@ -384,11 +385,11 @@ def create_ort_training_session_with_optimizer(model, device, training_optimizer
     ort_parameters.world_rank = world_rank
     ort_parameters.world_size = world_size
     ort_parameters.gradient_accumulation_steps = gradient_accumulation_steps
-    ort_parameters.use_mixed_precision = use_mixed_precision
     ort_parameters.allreduce_post_accumulation = allreduce_post_accumulation
     ort_parameters.deepspeed_zero_stage = deepspeed_zero_stage
     ort_parameters.enable_grad_norm_clip = enable_grad_norm_clip
     ort_parameters.set_gradients_as_graph_outputs = False
+    ort_parameters.use_invertible_layernorm_grad = use_invertible_layernorm_grad
 
     output_types = {}
     for output in model.graph.output:
@@ -530,7 +531,8 @@ class ORTTrainer():
                  world_rank=0, world_size=1, use_mixed_precision=False, allreduce_post_accumulation=False,
                  global_step=0, get_lr_this_step=None, loss_scaler=None, deepspeed_zero_stage=0,
                  enable_grad_norm_clip=True, frozen_weights=[], _opset_version=DEFAULT_OPSET_VERSION,
-                 _enable_internal_postprocess=True, _extra_postprocess=None, _use_deterministic_compute=False):
+                 _enable_internal_postprocess=True, _extra_postprocess=None, _use_deterministic_compute=False,
+                 use_invertible_layernorm_grad=False):
         super(ORTTrainer, self).__init__()
         """
         Initialize ORTTrainer.
@@ -599,6 +601,8 @@ class ORTTrainer():
                Defaults to True
             _extra_postprocess: a callable to postprocess the ONNX model that is converted from PyTorch.
                Defaults to None
+            use_invertible_layernorm_grad: use invertible layernorm grad
+               Defaults to False
         """
         warnings.warn('DISCLAIMER: This is an early version of an experimental training API and it is subject to change. DO NOT create production applications with it')
         self.is_train = True
@@ -651,6 +655,7 @@ class ORTTrainer():
         self.state_dict_ = None
         self._enable_internal_postprocess = _enable_internal_postprocess
         self._use_deterministic_compute = _use_deterministic_compute
+        self.use_invertible_layernorm_grad = use_invertible_layernorm_grad
 
         # use this special string to workaround a corner case that external loss_scale is passed into train_step as kwargs.
         # see prepare_input_and_fetches for more details.
@@ -679,7 +684,8 @@ class ORTTrainer():
                 deepspeed_zero_stage=self.deepspeed_zero_stage_,
                 enable_grad_norm_clip=self.enable_grad_norm_clip_,
                 frozen_weights=self.frozen_weights_, opset_version=self.opset_version_,
-                use_deterministic_compute=self._use_deterministic_compute)
+                use_deterministic_compute=self._use_deterministic_compute,
+                use_invertible_layernorm_grad=self.use_invertible_layernorm_grad)
 
         self.loss_scale_input_name = self.session.loss_scale_input_name
 
diff --git a/orttraining/orttraining/python/orttraining_pybind_state.cc b/orttraining/orttraining/python/orttraining_pybind_state.cc
index a9d52c7a80..415e1c2c0e 100644
--- a/orttraining/orttraining/python/orttraining_pybind_state.cc
+++ b/orttraining/orttraining/python/orttraining_pybind_state.cc
@@ -47,6 +47,7 @@ struct TrainingParameters {
   int deepspeed_zero_stage = 0;
   bool enable_grad_norm_clip = true;
   bool set_gradients_as_graph_outputs = false;
+  bool use_invertible_layernorm_grad = false;
 };
 
 struct TrainingConfigurationResult {
@@ -144,6 +145,8 @@ TrainingConfigurationResult ConfigureSessionForTraining(
     config.optimizer_config = opt;
   }
 
+  config.gradient_graph_config.use_invertible_layernorm_grad = parameters.use_invertible_layernorm_grad;
+
   training::TrainingSession::TrainingConfigurationResult config_result{};
 
   OrtPybindThrowIfError(sess->ConfigureForTraining(config, config_result));
@@ -177,7 +180,8 @@ void addObjectMethodsForTraining(py::module& m) {
       .def_readwrite("gradient_accumulation_steps", &TrainingParameters::gradient_accumulation_steps)
       .def_readwrite("deepspeed_zero_stage", &TrainingParameters::deepspeed_zero_stage)
       .def_readwrite("enable_grad_norm_clip", &TrainingParameters::enable_grad_norm_clip)
-      .def_readwrite("set_gradients_as_graph_outputs", &TrainingParameters::set_gradients_as_graph_outputs);
+      .def_readwrite("set_gradients_as_graph_outputs", &TrainingParameters::set_gradients_as_graph_outputs)
+      .def_readwrite("use_invertible_layernorm_grad", &TrainingParameters::use_invertible_layernorm_grad);
 
   py::class_<TrainingConfigurationResult> config_result(m, "TrainingConfigurationResult", "pbdoc(Configuration result for training.)pbdoc");
   config_result.def(py::init())
diff --git a/orttraining/orttraining/test/gradient/gradient_checker.cc b/orttraining/orttraining/test/gradient/gradient_checker.cc
index e923b81926..92892bff21 100644
--- a/orttraining/orttraining/test/gradient/gradient_checker.cc
+++ b/orttraining/orttraining/test/gradient/gradient_checker.cc
@@ -18,6 +18,7 @@ limitations under the License.
 #include "gradient_checker.h"
 #include "gradient_op_test_utils.h"
 #include "orttraining/core/framework/gradient_graph_builder.h"
+#include "orttraining/core/graph/gradient_config.h"
 #include "test/util/include/test_random_seed.h"
 #include <random>
 
@@ -305,10 +306,12 @@ inline Status GradientChecker<X_T, Y_T, JAC_T>::InitOpTesterWithGradGraph(
     }
   }
 
+  training::GradientGraphConfiguration gradient_graph_config;
   training::GradientGraphBuilder grad_graph_builder(&graph,
                                                     dy_values,
                                                     weights_to_train,
                                                     "",
+                                                    gradient_graph_config,
                                                     true);
   Status status = grad_graph_builder.Build();
   EXPECT_TRUE(status.IsOK()) << status.ErrorMessage();
diff --git a/orttraining/orttraining/test/gradient/gradient_op_test_utils.cc b/orttraining/orttraining/test/gradient/gradient_op_test_utils.cc
index c8d546dba3..048efc6078 100644
--- a/orttraining/orttraining/test/gradient/gradient_op_test_utils.cc
+++ b/orttraining/orttraining/test/gradient/gradient_op_test_utils.cc
@@ -5,6 +5,7 @@
 #include "core/session/inference_session.h"
 #include "orttraining/core/session/training_session.h"
 #include "orttraining/core/framework/gradient_graph_builder.h"
+#include "orttraining/core/graph/gradient_config.h"
 #include "default_providers.h"
 
 namespace onnxruntime {
@@ -69,10 +70,12 @@ void GradientOpTester::Run(
         }
       }
 
+      training::GradientGraphConfiguration gradient_graph_config;
       training::GradientGraphBuilder grad_graph_builder(&graph,
                                                         dy_values,
                                                         weights_to_train,
                                                         "",
+                                                        gradient_graph_config,
                                                         true);
       status = grad_graph_builder.Build();
       EXPECT_TRUE(status.IsOK()) << status.ErrorMessage();
diff --git a/orttraining/orttraining/test/training_ops/cuda/layer_norm_test.cc b/orttraining/orttraining/test/training_ops/cuda/layer_norm_test.cc
index 8fb8f543e7..cbd23c43f6 100644
--- a/orttraining/orttraining/test/training_ops/cuda/layer_norm_test.cc
+++ b/orttraining/orttraining/test/training_ops/cuda/layer_norm_test.cc
@@ -97,5 +97,143 @@ TEST(CudaKernelTest, LayerNormGrad_LargeSizeTensor) {
   TestLayerNormGrad(X_dims, -1, 5e-3);
 }
 
+static void TestInvertibleLayerNormGrad(
+    const std::vector<int64_t>& x_dims,
+    int64_t axis = -1,
+    double error_tolerance = 1e-4,
+    bool test_fp16=false) {
+  const std::vector<int64_t>& n_x_m_dims = x_dims;
+  std::vector<int64_t> n_dims, m_dims;
+  ASSERT_TRUE(SplitDims(n_x_m_dims, axis, n_dims, m_dims).IsOK());
+
+  const auto N = std::accumulate(n_dims.begin(), n_dims.end(), static_cast<int64_t>(1), std::multiplies<>{});
+  const auto M = std::accumulate(m_dims.begin(), m_dims.end(), static_cast<int64_t>(1), std::multiplies<>{});
+
+  CompareOpTester test{"InvertibleLayerNormalizationGrad", 1, kMSDomain};
+
+  test.AddAttribute("axis", axis);
+
+  RandomValueGenerator random{};
+  const auto Y_grad_data = random.Uniform<float>(n_x_m_dims, k_random_data_min, k_random_data_max);
+  const auto X_data = random.Uniform<float>(n_x_m_dims, k_random_data_min, k_random_data_max);
+  const auto scale_data = random.Uniform<float>(m_dims, k_random_data_min, k_random_data_max);
+  const auto bias_data = random.Uniform<float>(m_dims, k_random_data_min, k_random_data_max);
+
+  // these inputs are dependent on X_data
+  std::vector<float> mean_data(N);         // mean(X)
+  std::vector<float> inv_std_var_data(N);  // 1 / sqrt(mean(X^2) - mean(X)^2 + epsilon)
+  std::vector<float> Y_data(N*M);
+  {
+    using ConstEigenArrayMap = Eigen::Map<const Eigen::ArrayXX<float>>;
+    using EigenArrayMap = Eigen::Map<Eigen::ArrayXX<float>>;
+
+    ConstEigenArrayMap X{X_data.data(), M, N};
+
+    for (int i = 0; i < N; ++i) {
+      mean_data[i] = X.col(i).mean();
+      inv_std_var_data[i] = X.col(i).square().mean() - mean_data[i] * mean_data[i];
+    }
+
+    // Compute Y = ((x - mean) * (inv_var) * scale + bias
+    EigenArrayMap Y(Y_data.data(), M, N);
+
+    using EigenVectorArrayMap = Eigen::Map<Eigen::Array<float, Eigen::Dynamic, 1>>;
+    using ConstEigenVectorArrayMap = Eigen::Map<const Eigen::Array<float, Eigen::Dynamic, 1>>;
+    ConstEigenVectorArrayMap mean(mean_data.data(), N);
+    EigenVectorArrayMap inv_std_var(inv_std_var_data.data(), N);
+    inv_std_var = (inv_std_var + k_epsilon_default).sqrt().inverse();
+
+    Y = (X.rowwise() - mean.transpose()).rowwise() * inv_std_var.transpose();
+
+    ConstEigenVectorArrayMap scale(scale_data.data(), M);
+    ConstEigenVectorArrayMap bias(bias_data.data(), M);
+    Y = (Y.colwise() * scale).colwise() + bias;
+  }
+
+  if (test_fp16) {
+    std::vector<MLFloat16> Y_grad_data_half(Y_grad_data.size());
+    std::vector<MLFloat16> Y_data_half(Y_data.size());
+    std::vector<MLFloat16> scale_data_half(scale_data.size());
+    std::vector<MLFloat16> bias_data_half(bias_data.size());
+    ConvertFloatToMLFloat16(Y_grad_data.data(),Y_grad_data_half.data(), int(Y_grad_data.size()));
+    ConvertFloatToMLFloat16(Y_data.data(),Y_data_half.data(), int(Y_data.size()));
+    ConvertFloatToMLFloat16(scale_data.data(), scale_data_half.data(), int(scale_data.size()));
+    ConvertFloatToMLFloat16(bias_data.data(), bias_data_half.data(), int(bias_data.size()));
+
+    test.AddInput<MLFloat16>("Y_grad", n_x_m_dims, Y_grad_data_half);
+    test.AddInput<MLFloat16>("Y", n_x_m_dims, Y_data_half);
+    test.AddInput<MLFloat16>("scale", m_dims, scale_data_half, true);
+    test.AddInput<MLFloat16>("bias", m_dims, bias_data_half);
+
+    const auto X_grad_data = FillZeros<MLFloat16>(n_x_m_dims);
+    const auto scale_grad_data = FillZeros<MLFloat16>(m_dims);
+    const auto bias_grad_data = FillZeros<MLFloat16>(m_dims);
+    test.AddOutput("X_grad", n_x_m_dims, X_grad_data);
+    test.AddOutput("scale_grad_data", m_dims, scale_grad_data);
+    test.AddOutput("bias_grad_data", m_dims, bias_grad_data);
+  } else {
+    test.AddInput("Y_grad", n_x_m_dims, Y_grad_data);
+    test.AddInput("Y", n_x_m_dims, Y_data);
+    test.AddInput("scale", m_dims, scale_data, true);
+    test.AddInput("bias", m_dims, bias_data);
+
+    const auto X_grad_data = FillZeros<float>(n_x_m_dims);
+    const auto scale_grad_data = FillZeros<float>(m_dims);
+    const auto bias_grad_data = FillZeros<float>(m_dims);
+    test.AddOutput("X_grad", n_x_m_dims, X_grad_data);
+    test.AddOutput("scale_grad_data", m_dims, scale_grad_data);
+    test.AddOutput("bias_grad_data", m_dims, bias_grad_data);
+  }
+  test.AddInput<float>("inv_std_var", n_dims, inv_std_var_data);
+
+  if (test_fp16) {
+    test.CompareWithCPU(kCudaExecutionProvider, error_tolerance, error_tolerance);
+  } else {
+    test.CompareWithCPU(kCudaExecutionProvider, error_tolerance);
+  }
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_SmallSizeTensor) {
+  const std::vector<int64_t> X_dims{4, 20, 128};
+  TestInvertibleLayerNormGrad(X_dims);
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_SmallSizeTensor_IntermediateAxis) {
+  const std::vector<int64_t> X_dims{4, 20, 16, 8};
+  const int64_t axis = -2;
+  TestInvertibleLayerNormGrad(X_dims, axis);
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_MidSizeTensor) {
+  const std::vector<int64_t> X_dims{8, 80, 768};
+  TestInvertibleLayerNormGrad(X_dims);
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_LargeSizeTensor) {
+  const std::vector<int64_t> X_dims{16, 512, 1024};
+  TestInvertibleLayerNormGrad(X_dims, -1, 5e-3);
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_SmallSizeTensor_FP16) {
+  const std::vector<int64_t> X_dims{4, 20, 128};
+  TestInvertibleLayerNormGrad(X_dims, -1, 2e-3, true);
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_SmallSizeTensor_IntermediateAxis_FP16) {
+  const std::vector<int64_t> X_dims{4, 20, 16, 8};
+  const int64_t axis = -2;
+  TestInvertibleLayerNormGrad(X_dims, axis, 2e-3, true);
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_MidSizeTensor_FP16) {
+  const std::vector<int64_t> X_dims{8, 80, 768};
+  TestInvertibleLayerNormGrad(X_dims, -1, 2e-3, true);
+}
+
+TEST(CudaKernelTest, InvertibleLayerNormGrad_LargeSizeTensor_FP16) {
+  const std::vector<int64_t> X_dims{16, 512, 1024};
+  TestInvertibleLayerNormGrad(X_dims, -1, 2e-3, true);
+}
+
 }  // namespace test
 }  // namespace onnxruntime
diff --git a/orttraining/orttraining/training_ops/cpu/cpu_training_kernels.cc b/orttraining/orttraining/training_ops/cpu/cpu_training_kernels.cc
index 1ae886545c..a302ad0f52 100644
--- a/orttraining/orttraining/training_ops/cpu/cpu_training_kernels.cc
+++ b/orttraining/orttraining/training_ops/cpu/cpu_training_kernels.cc
@@ -77,6 +77,8 @@ class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, GistB
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, GistBinarizeDecoder);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, float, LayerNormalizationGrad);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, double, LayerNormalizationGrad);
+class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, float, InvertibleLayerNormalizationGrad);
+class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, double, InvertibleLayerNormalizationGrad);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, SliceGrad);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, FastGeluGrad);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, BiasGeluGrad_dX);
@@ -155,6 +157,8 @@ Status RegisterCpuTrainingKernels(KernelRegistry& kernel_registry) {
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, SummaryText)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, float, LayerNormalizationGrad)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, double, LayerNormalizationGrad)>,
+      BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, float, InvertibleLayerNormalizationGrad)>,
+      BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, double, InvertibleLayerNormalizationGrad)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, GistBinarizeEncoder)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, GistBinarizeDecoder)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCpuExecutionProvider, kMSDomain, 1, SliceGrad)>,
diff --git a/orttraining/orttraining/training_ops/cpu/nn/layer_norm.cc b/orttraining/orttraining/training_ops/cpu/nn/layer_norm.cc
index fc2128b05b..e55fe5e411 100644
--- a/orttraining/orttraining/training_ops/cpu/nn/layer_norm.cc
+++ b/orttraining/orttraining/training_ops/cpu/nn/layer_norm.cc
@@ -20,7 +20,16 @@ namespace contrib {
       kCpuExecutionProvider,                                      \
       KernelDefBuilder()                                          \
           .TypeConstraint("T", DataTypeImpl::GetTensorType<T>()), \
-      LayerNormGrad<T>);
+      LayerNormGrad<T>);                                          \
+  ONNX_OPERATOR_TYPED_KERNEL_EX(                                  \
+      InvertibleLayerNormalizationGrad,                               \
+      kMSDomain,                                                  \
+      1,                                                          \
+      T,                                                          \
+      kCpuExecutionProvider,                                      \
+      KernelDefBuilder()                                          \
+          .TypeConstraint("T", DataTypeImpl::GetTensorType<T>()), \
+      InvertibleLayerNormGrad<T>);
 
 REGISTER_KERNEL_TYPED(float)
 REGISTER_KERNEL_TYPED(double)
@@ -99,5 +108,76 @@ Status LayerNormGrad<T>::Compute(OpKernelContext* op_kernel_context) const {
   return Status::OK();
 }
 
+template <typename T>
+InvertibleLayerNormGrad<T>::InvertibleLayerNormGrad(const OpKernelInfo& op_kernel_info)
+    : OpKernel{op_kernel_info} {
+  ORT_ENFORCE(op_kernel_info.GetAttr("axis", &axis_).IsOK());
+}
+
+template <typename T>
+Status InvertibleLayerNormGrad<T>::Compute(OpKernelContext* op_kernel_context) const {
+  const Tensor* Y_grad = op_kernel_context->Input<Tensor>(0);
+  const Tensor* Y = op_kernel_context->Input<Tensor>(1);
+  const Tensor* scale = op_kernel_context->Input<Tensor>(2);
+  const Tensor* bias = op_kernel_context->Input<Tensor>(3);
+  const Tensor* inv_std_var = op_kernel_context->Input<Tensor>(4);
+
+  const auto& Y_shape = Y_grad->Shape();
+  const auto& X_shape = Y_shape;
+  const auto axis = HandleNegativeAxis(axis_, X_shape.NumDimensions());
+  const auto N = X_shape.SizeToDimension(axis);
+  const auto M = X_shape.SizeFromDimension(axis);
+  ORT_ENFORCE(M != 1);
+  const auto& scale_shape = scale->Shape();
+
+  Tensor* X_grad = op_kernel_context->Output(0, X_shape);
+  Tensor* scale_grad = op_kernel_context->Output(1, scale_shape);
+  Tensor* bias_grad = op_kernel_context->Output(2, scale_shape);
+
+  // Note: Eigen has column-major storage order by default
+  ConstEigenArrayMap<T> Y_grad_arr{Y_grad->Data<T>(), M, N};
+  ConstEigenArrayMap<T> Y_arr{Y->Data<T>(), M, N};
+  ConstEigenVectorArrayMap<T> scale_vec{scale->Data<T>(), M};
+  ConstEigenVectorArrayMap<T> bias_vec{bias->Data<T>(), M};
+  ConstEigenVectorArrayMap<float> inv_std_var_vec{inv_std_var->Data<float>(), N};
+
+  EigenArrayMap<T> X_grad_arr{X_grad->MutableData<T>(), M, N};
+  EigenVectorArrayMap<T> scale_grad_vec{scale_grad->MutableData<T>(), M};
+  EigenVectorArrayMap<T> bias_grad_vec{bias_grad->MutableData<T>(), M};
+
+  using Array = Eigen::ArrayXX<T>;
+  using RowVector = Eigen::Array<T, 1, Eigen::Dynamic>;
+
+  // A, B, C are calculated as below:
+  // A = Y_grad * (X - mean(X)) * inv_std_var
+  // B = Y_grad * scale * inv_std_var
+  // C = Y_grad * scale * inv_std_var * (X - mean(X)) * inv_std_var
+
+  // A, B, and C are M x N
+  Array X_mean_difference_over_std_var = (Y_arr.colwise() - bias_vec).colwise() / scale_vec;
+  Array A = Y_grad_arr * X_mean_difference_over_std_var;
+  Array B = (Y_grad_arr.colwise() * scale_vec).rowwise() * inv_std_var_vec.cast<T>().transpose();
+  Array C = B * X_mean_difference_over_std_var;
+
+  // mean_B = mean(Y_grad * scale * inv_std_var)
+  RowVector mean_B = B.colwise().mean();  // 1 x N
+
+  // mean_C = mean(Y_grad * scale * inv_std_var * (X - mean(X)) * inv_std_var)
+  RowVector mean_C = C.colwise().mean();  // 1 x N
+
+  // X_grad = Y_grad * scale * inv_std_var - mean_B - (X - mean(X)) * inv_std_var * mean_C
+  //        = B - mean_B - (X - mean(X)) * inv_std_var * mean_c
+  X_grad_arr = B.rowwise() - mean_B - X_mean_difference_over_std_var.rowwise() * mean_C;
+
+  // bias_grad = sum(Y_grad)
+  bias_grad_vec = Y_grad_arr.rowwise().sum();
+
+  // scale_grad = sum(Y_grad * (X - mean(X)) * inv_std_var)
+  //            = sum(A)
+  scale_grad_vec = A.rowwise().sum();
+
+  return Status::OK();
+}
+
 }  // namespace contrib
 }  // namespace onnxruntime
diff --git a/orttraining/orttraining/training_ops/cpu/nn/layer_norm.h b/orttraining/orttraining/training_ops/cpu/nn/layer_norm.h
index 14024c6068..4cd6207c26 100644
--- a/orttraining/orttraining/training_ops/cpu/nn/layer_norm.h
+++ b/orttraining/orttraining/training_ops/cpu/nn/layer_norm.h
@@ -18,5 +18,15 @@ class LayerNormGrad final : public OpKernel {
   int64_t axis_;
 };
 
+template <typename T>
+class InvertibleLayerNormGrad final : public OpKernel {
+ public:
+  InvertibleLayerNormGrad(const OpKernelInfo& op_kernel_info);
+  Status Compute(OpKernelContext* op_kernel_context) const override;
+
+ private:
+  int64_t axis_;
+};
+
 }  // namespace contrib
 }  // namespace onnxruntime
diff --git a/orttraining/orttraining/training_ops/cuda/cuda_training_kernels.cc b/orttraining/orttraining/training_ops/cuda/cuda_training_kernels.cc
index e648e6fb14..e3a3e87662 100644
--- a/orttraining/orttraining/training_ops/cuda/cuda_training_kernels.cc
+++ b/orttraining/orttraining/training_ops/cuda/cuda_training_kernels.cc
@@ -89,8 +89,11 @@ class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, float_MLFloat16, ReduceAllL2);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, MLFloat16_MLFloat16, ReduceAllL2);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, float_float, LayerNormalizationGrad);
-class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, double_float, LayerNormalizationGrad);
+class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, double_double, LayerNormalizationGrad);
 class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, MLFloat16_float, LayerNormalizationGrad);
+class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, float_float, InvertibleLayerNormalizationGrad);
+class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, double_double, InvertibleLayerNormalizationGrad);
+class ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, MLFloat16_float, InvertibleLayerNormalizationGrad);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, SliceGrad);
 class ONNX_OPERATOR_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, GatherElementsGrad);
 
@@ -198,8 +201,11 @@ Status RegisterCudaTrainingKernels(KernelRegistry& kernel_registry) {
     BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, float_MLFloat16, ReduceAllL2)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, MLFloat16_MLFloat16, ReduceAllL2)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, float_float, LayerNormalizationGrad)>,
-    BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, double_float, LayerNormalizationGrad)>,
+    BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, double_double, LayerNormalizationGrad)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, MLFloat16_float, LayerNormalizationGrad)>,
+    BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, float_float, InvertibleLayerNormalizationGrad)>,
+    BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, double_double, InvertibleLayerNormalizationGrad)>,
+    BuildKernelCreateInfo<ONNX_OPERATOR_TYPED_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, MLFloat16_float, InvertibleLayerNormalizationGrad)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, SliceGrad)>,
     BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kCudaExecutionProvider, kMSDomain, 1, GatherElementsGrad)>,
 
diff --git a/orttraining/orttraining/training_ops/cuda/nn/layer_norm.cc b/orttraining/orttraining/training_ops/cuda/nn/layer_norm.cc
index f2e3b0e026..d7f8acfc8c 100644
--- a/orttraining/orttraining/training_ops/cuda/nn/layer_norm.cc
+++ b/orttraining/orttraining/training_ops/cuda/nn/layer_norm.cc
@@ -19,9 +19,19 @@ namespace cuda {
       KernelDefBuilder()                                          \
           .TypeConstraint("T", DataTypeImpl::GetTensorType<T>())  \
           .TypeConstraint("U", DataTypeImpl::GetTensorType<U>()), \
-      LayerNormGrad<T, U>);
+      LayerNormGrad<T, U>);                                       \
+  ONNX_OPERATOR_TYPED_KERNEL_EX(                                  \
+      InvertibleLayerNormalizationGrad,                           \
+      kMSDomain,                                                  \
+      1,                                                          \
+      T##_##U,                                                    \
+      kCudaExecutionProvider,                                     \
+      KernelDefBuilder()                                          \
+          .TypeConstraint("T", DataTypeImpl::GetTensorType<T>())  \
+          .TypeConstraint("U", DataTypeImpl::GetTensorType<U>()), \
+      InvertibleLayerNormGrad<T, U>);
 REGISTER_GRADIENT_KERNEL_TYPED(float, float)
-REGISTER_GRADIENT_KERNEL_TYPED(double, float)
+REGISTER_GRADIENT_KERNEL_TYPED(double, double)
 REGISTER_GRADIENT_KERNEL_TYPED(MLFloat16, float)
 
 template <typename T, typename U>
@@ -65,7 +75,58 @@ Status LayerNormGrad<T, U>::ComputeInternal(OpKernelContext* p_op_kernel_context
   auto part_grad_gamma = GetScratchBuffer<CudaU>(part_size * n2);
   auto part_grad_beta = GetScratchBuffer<CudaU>(part_size * n2);
 
-  HostLayerNormGradient(GetDeviceProp(), Y_grad_data, mean_data, inv_std_var_data, X_data, n1, n2, scale_data, X_grad_data, scale_grad_data, bias_grad_data,
+  HostLayerNormGradient(GetDeviceProp(), Y_grad_data, X_data, reinterpret_cast<const CudaT*>(NULL),
+                        scale_data, reinterpret_cast<const CudaT*>(NULL), mean_data, inv_std_var_data, n1, n2,
+                        X_grad_data, scale_grad_data, bias_grad_data,
+                        part_grad_gamma.get(), part_grad_beta.get(), part_size);
+  return Status::OK();
+}
+
+template <typename T, typename U>
+InvertibleLayerNormGrad<T, U>::InvertibleLayerNormGrad(const OpKernelInfo& op_kernel_info) : CudaKernel(op_kernel_info) {
+  ORT_ENFORCE(op_kernel_info.GetAttr("axis", &axis_).IsOK());
+}
+
+template <typename T, typename U>
+Status InvertibleLayerNormGrad<T, U>::ComputeInternal(OpKernelContext* p_op_kernel_context) const {
+  typedef typename ToCudaType<T>::MappedType CudaT;
+  typedef typename ToCudaType<U>::MappedType CudaU;
+  // Inputs
+  const Tensor* Y_grad = p_op_kernel_context->Input<Tensor>(0);
+  const Tensor* Y = p_op_kernel_context->Input<Tensor>(1);
+  const Tensor* scale = p_op_kernel_context->Input<Tensor>(2);
+  const Tensor* bias = p_op_kernel_context->Input<Tensor>(3);
+  const Tensor* inv_std_var = p_op_kernel_context->Input<Tensor>(4);
+
+  auto Y_grad_data = reinterpret_cast<const CudaT*>(Y_grad->template Data<T>());
+  auto Y_data = reinterpret_cast<const CudaT*>(Y->template Data<T>());
+  auto scale_data = reinterpret_cast<const CudaT*>(scale->template Data<T>());
+  auto bias_data = reinterpret_cast<const CudaT*>(bias->template Data<T>());
+  auto inv_std_var_data = reinterpret_cast<const CudaU*>(inv_std_var->template Data<U>());
+
+  const TensorShape& y_shape = Y->Shape();
+  const TensorShape& x_shape = y_shape;
+  const int64_t axis = HandleNegativeAxis(axis_, x_shape.NumDimensions());
+  auto n1 = x_shape.SizeToDimension(axis);
+  auto n2 = x_shape.SizeFromDimension(axis);
+  ORT_ENFORCE(n2 != 1, "n2 should not be 1");
+
+  // Outputs
+  Tensor* X_grad = p_op_kernel_context->Output(0, x_shape);
+  auto X_grad_data = reinterpret_cast<CudaT*>(X_grad->template MutableData<T>());
+
+  Tensor* scale_grad = p_op_kernel_context->Output(1, scale->Shape());
+  Tensor* bias_grad = p_op_kernel_context->Output(2, scale->Shape());
+  auto scale_grad_data = reinterpret_cast<CudaT*>(scale_grad->template MutableData<T>());
+  auto bias_grad_data = reinterpret_cast<CudaT*>(bias_grad->template MutableData<T>());
+
+  const int part_size = 16;
+  auto part_grad_gamma = GetScratchBuffer<CudaU>(part_size * n2);
+  auto part_grad_beta = GetScratchBuffer<CudaU>(part_size * n2);
+
+  HostLayerNormGradient(GetDeviceProp(), Y_grad_data, reinterpret_cast<const CudaT*>(NULL), Y_data,
+                        scale_data, bias_data, reinterpret_cast<const CudaU*>(NULL), inv_std_var_data, n1, n2,
+                        X_grad_data, scale_grad_data, bias_grad_data,
                         part_grad_gamma.get(), part_grad_beta.get(), part_size);
   return Status::OK();
 }
diff --git a/orttraining/orttraining/training_ops/cuda/nn/layer_norm.h b/orttraining/orttraining/training_ops/cuda/nn/layer_norm.h
index fd21b09ba4..ab092ed12a 100644
--- a/orttraining/orttraining/training_ops/cuda/nn/layer_norm.h
+++ b/orttraining/orttraining/training_ops/cuda/nn/layer_norm.h
@@ -25,5 +25,15 @@ class LayerNormGrad final : public CudaKernel {
   int64_t axis_;
 };
 
+template <typename T, typename U>
+class InvertibleLayerNormGrad final : public CudaKernel {
+ public:
+  InvertibleLayerNormGrad(const OpKernelInfo& op_kernel_info);
+  Status ComputeInternal(OpKernelContext* ctx) const override;
+
+ private:
+  int64_t axis_;
+};
+
 }  // namespace cuda
 }  // namespace onnxruntime
\ No newline at end of file
diff --git a/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.cu b/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.cu
index 7f85c5676f..11753e080b 100644
--- a/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.cu
+++ b/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.cu
@@ -372,10 +372,10 @@ void HostApplyLayerNorm(
 
 LAYERNORM_LINEAR_IMPL(float, float)
 LAYERNORM_LINEAR_IMPL(half, float)
-LAYERNORM_LINEAR_IMPL(double, float)
+LAYERNORM_LINEAR_IMPL(double, double)
 //LAYERNORM_LINEAR_IMPL(half, half)
 
-template <typename T, typename U>
+template <typename T, typename U, bool use_mean>
 __device__ void cuLoadWriteStridedInputs(
     const int i1_block,
     const int thr_load_row_off,
@@ -385,24 +385,34 @@ __device__ void cuLoadWriteStridedInputs(
     U* warp_buf1,
     U* warp_buf2,
     const T* input,
+    const T* output,
     const T* dout,
     const int i1_end,
     const int n2,
+    const T* __restrict__ gamma,
+    const T* __restrict__ beta,
     const U* __restrict__ mean,
     const U* __restrict__ invvar) {
   int i1 = i1_block + thr_load_row_off;
   if (i1 < i1_end) {
-    U curr_mean = mean[i1];
-    U curr_invvar = invvar[i1];
+    U curr_mean = use_mean ? mean[i1] : U(0);
+    U curr_invvar = use_mean ? invvar[i1] : U(0);
     for (int k = 0; k < blockDim.y; ++k) {
       int i2 = i2_off + k;
       int load_idx = i1 * n2 + i2;
       int write_idx = thr_load_row_off * row_stride + thr_load_col_off + k;
       if (i2 < n2) {
-        U curr_input = static_cast<U>(input[load_idx]);
         U curr_dout = static_cast<U>(dout[load_idx]);
         warp_buf1[write_idx] = curr_dout;
-        warp_buf2[write_idx] = curr_dout * (curr_input - curr_mean) * curr_invvar;
+        if (use_mean) {
+          U curr_input = static_cast<U>(input[load_idx]);
+          warp_buf2[write_idx] = curr_dout * (curr_input - curr_mean) * curr_invvar;
+        } else {
+          U curr_gamma = static_cast<U>(gamma[i2]);
+          U curr_beta = static_cast<U>(beta[i2]);
+          U curr_output = static_cast<U>(output[load_idx]);
+          warp_buf2[write_idx] = curr_dout * (curr_output - curr_beta) / curr_gamma;
+        }
       } else {
         warp_buf1[write_idx] = U(0);
         warp_buf2[write_idx] = U(0);
@@ -417,7 +427,7 @@ __device__ void cuLoadWriteStridedInputs(
   }
 }
 
-template <typename T, typename U>
+template <typename T, typename U, bool use_mean>
 __device__ void cuLoadAddStridedInputs(
     const int i1_block,
     const int thr_load_row_off,
@@ -427,37 +437,50 @@ __device__ void cuLoadAddStridedInputs(
     U* warp_buf1,
     U* warp_buf2,
     const T* input,
+    const T* output,
     const T* dout,
     const int i1_end,
     const int n2,
+    const T* __restrict__ gamma,
+    const T* __restrict__ beta,
     const U* __restrict__ mean,
     const U* __restrict__ invvar) {
   int i1 = i1_block + thr_load_row_off;
   if (i1 < i1_end) {
-    U curr_mean = mean[i1];
-    U curr_invvar = invvar[i1];
+    U curr_mean = use_mean ? mean[i1] : U(0);
+    U curr_invvar = use_mean ? invvar[i1] : U(0);
     for (int k = 0; k < blockDim.y; ++k) {
       int i2 = i2_off + k;
       int load_idx = i1 * n2 + i2;
       int write_idx = thr_load_row_off * row_stride + thr_load_col_off + k;
       if (i2 < n2) {
-        U curr_input = static_cast<U>(input[load_idx]);
         U curr_dout = static_cast<U>(dout[load_idx]);
         warp_buf1[write_idx] += curr_dout;
-        warp_buf2[write_idx] += curr_dout * (curr_input - curr_mean) * curr_invvar;
+        if (use_mean) {
+          U curr_input = static_cast<U>(input[load_idx]);
+          warp_buf2[write_idx] += curr_dout * (curr_input - curr_mean) * curr_invvar;
+        } else {
+          U curr_gamma = static_cast<U>(gamma[i2]);
+          U curr_beta = static_cast<U>(beta[i2]);
+          U curr_output = static_cast<U>(output[load_idx]);
+          warp_buf2[write_idx] += curr_dout * (curr_output - curr_beta) / curr_gamma;
+        }
       }
     }
   }
 }
 
-template <typename T, typename U>
+template <typename T, typename U, bool use_mean>
 __global__ void cuComputePartGradGammaBeta(
     const T* __restrict__ dout,
     const T* __restrict__ input,
-    const int n1,
-    const int n2,
+    const T* __restrict__ output,
+    const T* __restrict__ gamma,
+    const T* __restrict__ beta,
     const U* __restrict__ mean,
     const U* __restrict__ invvar,
+    const int n1,
+    const int n2,
     U* part_grad_gamma,
     U* part_grad_beta) {
   const int numsegs_n1 = (n1 + blockDim.y * blockDim.y - 1) / (blockDim.y * blockDim.y);
@@ -475,9 +498,9 @@ __global__ void cuComputePartGradGammaBeta(
   U* warp_buf2 = warp_buf1 + blockDim.y * blockDim.y * row_stride;
   // compute partial sums from strided inputs
   // do this to increase number of loads in flight
-  cuLoadWriteStridedInputs(i1_beg, thr_load_row_off, thr_load_col_off, i2_off, row_stride, warp_buf1, warp_buf2, input, dout, i1_end, n2, mean, invvar);
+  cuLoadWriteStridedInputs<T, U, use_mean>(i1_beg, thr_load_row_off, thr_load_col_off, i2_off, row_stride, warp_buf1, warp_buf2, input, output, dout, i1_end, n2, gamma, beta, mean, invvar);
   for (int i1_block = i1_beg + blockDim.y * blockDim.y; i1_block < i1_end; i1_block += blockDim.y * blockDim.y) {
-    cuLoadAddStridedInputs(i1_block, thr_load_row_off, thr_load_col_off, i2_off, row_stride, warp_buf1, warp_buf2, input, dout, i1_end, n2, mean, invvar);
+    cuLoadAddStridedInputs<T, U, use_mean>(i1_block, thr_load_row_off, thr_load_col_off, i2_off, row_stride, warp_buf1, warp_buf2, input, output, dout, i1_end, n2, gamma, beta, mean, invvar);
   }
   __syncthreads();
   // inter-warp reductions
@@ -566,22 +589,25 @@ __global__ void cuComputeGradGammaBeta(
   }
 }
 
-template <typename T, typename U>
+template <typename T, typename U, bool use_mean>
 __global__ void cuComputeGradInput(
     const T* __restrict__ dout,
     const T* __restrict__ input,
-    const int n1,
-    const int n2,
+    const T* __restrict__ output,
+    const T* gamma,
+    const T* beta,
     const U* __restrict__ mean,
     const U* __restrict__ invvar,
-    const T* gamma,
+    const int n1,
+    const int n2,
     T* grad_input) {
   for (int i1 = blockIdx.y; i1 < n1; i1 += gridDim.y) {
     U sum_loss1 = U(0);
     U sum_loss2 = U(0);
-    const U c_mean = mean[i1];
+    const U c_mean = use_mean ? mean[i1] : U(0);
     const U c_invvar = invvar[i1];
-    const T* k_input = input + i1 * n2;
+    const T* k_input = use_mean ? input + i1 * n2 : nullptr;
+    const T* k_output = use_mean ? nullptr: output + i1 * n2;
     const T* k_dout = dout + i1 * n2;
     const int numx = blockDim.x * blockDim.y;
     const int thrx = threadIdx.x + threadIdx.y * blockDim.x;
@@ -589,33 +615,53 @@ __global__ void cuComputeGradInput(
       int l = 4 * thrx;
       for (; l + 3 < n2; l += 4 * numx) {
         for (int k = 0; k < 4; ++k) {
-          const U c_h = static_cast<U>(k_input[l + k]);
           const U c_loss = static_cast<U>(k_dout[l + k]);
           sum_loss1 += c_loss * U(gamma[l + k]);
-          sum_loss2 += c_loss * U(gamma[l + k]) * (c_h - c_mean) * c_invvar;
+          if (use_mean) {
+            const U c_h = static_cast<U>(k_input[l + k]);
+            sum_loss2 += c_loss * U(gamma[l + k]) * (c_h - c_mean) * c_invvar;
+          } else {
+            const U c_output = static_cast<U>(k_output[l + k]);
+            sum_loss2 += c_loss * (c_output - U(beta[l + k]));
+          }
         }
       }
       for (; l < n2; ++l) {
-        const U c_h = static_cast<U>(k_input[l]);
         const U c_loss = static_cast<U>(k_dout[l]);
         sum_loss1 += c_loss * U(gamma[l]);
-        sum_loss2 += c_loss * U(gamma[l]) * (c_h - c_mean) * c_invvar;
+        if (use_mean) {
+          const U c_h = static_cast<U>(k_input[l]);
+          sum_loss2 += c_loss * U(gamma[l]) * (c_h - c_mean) * c_invvar;
+        } else {
+          const U c_output = static_cast<U>(k_output[l]);
+          sum_loss2 += c_loss * (c_output - U(beta[l]));
+        }
       }
     } else {
       int l = 4 * thrx;
       for (; l + 3 < n2; l += 4 * numx) {
         for (int k = 0; k < 4; ++k) {
-          const U c_h = static_cast<U>(k_input[l + k]);
           const U c_loss = static_cast<U>(k_dout[l + k]);
           sum_loss1 += c_loss;
-          sum_loss2 += c_loss * (c_h - c_mean) * c_invvar;
+          if (use_mean) {
+            const U c_h = static_cast<U>(k_input[l + k]);
+            sum_loss2 += c_loss * (c_h - c_mean) * c_invvar;
+          } else {
+            const U c_output = static_cast<U>(k_output[l + k]);
+            sum_loss2 += c_loss * c_output;
+          }
         }
       }
       for (; l < n2; ++l) {
-        const U c_h = static_cast<U>(k_input[l]);
         const U c_loss = static_cast<U>(k_dout[l]);
         sum_loss1 += c_loss;
-        sum_loss2 += c_loss * (c_h - c_mean) * c_invvar;
+        if (use_mean) {
+          const U c_h = static_cast<U>(k_input[l]);
+          sum_loss2 += c_loss * (c_h - c_mean) * c_invvar;
+        } else {
+          const U c_output = static_cast<U>(k_output[l]);
+          sum_loss2 += c_loss * c_output;
+        }
       }
     }
     // intra-warp reductions
@@ -659,21 +705,31 @@ __global__ void cuComputeGradInput(
     T* k_grad_input = grad_input + i1 * n2;
     if (gamma != NULL) {
       for (int l = thrx; l < n2; l += numx) {
-        const U c_h = static_cast<U>(k_input[l]);
         const U c_loss = static_cast<U>(k_dout[l]);
         U f_grad_input = fH * c_loss * U(gamma[l]);
         f_grad_input -= sum_loss1;
-        f_grad_input -= (c_h - c_mean) * c_invvar * sum_loss2;
+        if (use_mean) {
+          const U c_h = static_cast<U>(k_input[l]);
+          f_grad_input -= (c_h - c_mean) * c_invvar * sum_loss2;
+        } else {
+          const U c_output = static_cast<U>(k_output[l]);
+          f_grad_input -= (c_output - U(beta[l])) / U(gamma[l]) * sum_loss2;
+        }
         f_grad_input *= term1;
         k_grad_input[l] = static_cast<T>(f_grad_input);
       }
     } else {
       for (int l = thrx; l < n2; l += numx) {
-        const U c_h = static_cast<U>(k_input[l]);
         const U c_loss = static_cast<U>(k_dout[l]);
         U f_grad_input = fH * c_loss;
         f_grad_input -= sum_loss1;
-        f_grad_input -= (c_h - c_mean) * c_invvar * sum_loss2;
+        if (use_mean) {
+          const U c_h = static_cast<U>(k_input[l]);
+          f_grad_input -= (c_h - c_mean) * c_invvar * sum_loss2;
+        } else {
+          const U c_output = static_cast<U>(k_output[l]);
+          f_grad_input -= c_output * sum_loss2;
+        }
         f_grad_input *= term1;
         k_grad_input[l] = static_cast<T>(f_grad_input);
       }
@@ -683,20 +739,22 @@ __global__ void cuComputeGradInput(
 
 template <typename T, typename U>
 void HostLayerNormGradient(
-    const cudaDeviceProp& prop,
-    const T* dout,
-    const U* mean,
-    const U* invvar,
-    const T* input,
-    int64_t n1,
-    int64_t n2,
-    const T* gamma,
-    T* grad_input,
-    T* grad_gamma,
-    T* grad_beta,
-    U* part_grad_gamma,
-    U* part_grad_beta,
-    const int part_size) {
+  const cudaDeviceProp& prop,
+  const T* dout,
+  const T* input,
+  const T* output,
+  const T* gamma,
+  const T* beta,
+  const U* mean,
+  const U* invvar,
+  int64_t n1,
+  int64_t n2,
+  T* grad_input,
+  T* grad_gamma,
+  T* grad_beta,
+  U* part_grad_gamma,
+  U* part_grad_beta,
+  const int part_size) {
   const int warp_size = prop.warpSize;
   ORT_ENFORCE(warp_size == GPU_WARP_SIZE);
 
@@ -706,14 +764,31 @@ void HostLayerNormGradient(
   const int nshared2_b = threads2.x * threads2.y * sizeof(U);
   const int nshared2 = nshared2_a > nshared2_b ? nshared2_a : nshared2_b;
 
-  cuComputePartGradGammaBeta<<<blocks2, threads2, nshared2, 0>>>(
+  if (mean == nullptr) {
+    cuComputePartGradGammaBeta<T, U, false><<<blocks2, threads2, nshared2, 0>>>(
       dout,
       input,
-      n1, n2,
+      output,
+      gamma,
+      beta,
       mean,
       invvar,
+      n1, n2,
       part_grad_gamma,
       part_grad_beta);
+  } else {
+    cuComputePartGradGammaBeta<T, U, true><<<blocks2, threads2, nshared2, 0>>>(
+      dout,
+      input,
+      output,
+      gamma,
+      beta,
+      mean,
+      invvar,
+      n1, n2,
+      part_grad_gamma,
+      part_grad_beta);
+  }
 
   const dim3 threads3(warp_size, 8, 1);
   const dim3 blocks3((n2 + threads2.x - 1) / threads2.x, 1, 1);
@@ -732,22 +807,38 @@ void HostLayerNormGradient(
   const dim3 threads1(warp_size, 4, 1);
   int nshared =
       threads1.y > 1 ? threads1.y * threads1.x * sizeof(U) : 0;
-  cuComputeGradInput<<<blocks1, threads1, nshared, 0>>>(
+  if (mean == nullptr) {
+    cuComputeGradInput<T, U, false><<<blocks1, threads1, nshared, 0>>>(
       dout,
       input,
-      n1, n2,
+      output,
+      gamma,
+      beta,
       mean,
       invvar,
-      gamma,
+      n1, n2,
       grad_input);
+  } else {
+    cuComputeGradInput<T, U, true><<<blocks1, threads1, nshared, 0>>>(
+        dout,
+        input,
+        output,
+        gamma,
+        beta,
+        mean,
+        invvar,
+        n1, n2,
+        grad_input);
+  }
 }
 
-#define LAYERNORMGRAD_IMPL(T, U)                                                                                                             \
-  template void HostLayerNormGradient(const cudaDeviceProp& prop, const T* dout, const U* mean, const U* invvar, const T* input, int64_t n1, int64_t n2, const T* gamma, \
+#define LAYERNORMGRAD_IMPL(T, U)                                                                                                              \
+  template void HostLayerNormGradient(const cudaDeviceProp& prop, const T* dout, const T* input, const T* output,                             \
+                                      const T* gamma, const T* beta, const U* mean, const U* invvar, int64_t n1, int64_t n2,                  \
                                       T* grad_input, T* grad_gamma, T* grad_beta, U* part_grad_gamma, U* part_grad_beta, const int part_size);
 
 LAYERNORMGRAD_IMPL(float, float)
-LAYERNORMGRAD_IMPL(double, float)
+LAYERNORMGRAD_IMPL(double, double)
 LAYERNORMGRAD_IMPL(half, float)
 
 }  // namespace cuda
diff --git a/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.h b/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.h
index 285d36e94e..ea61ff71ab 100644
--- a/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.h
+++ b/orttraining/orttraining/training_ops/cuda/nn/layer_norm_impl.h
@@ -45,12 +45,14 @@ template <typename T, typename U>
 void HostLayerNormGradient(
     const cudaDeviceProp& prop,
     const T* dout,
+    const T* input,
+    const T* output,
+    const T* gamma,
+    const T* beta,
     const U* mean,
     const U* invvar,
-    const T* input,
     int64_t n1,
     int64_t n2,
-    const T* gamma,
     T* grad_input,
     T* grad_gamma,
     T* grad_beta,