openvinotoolkit · sbalandi · Nov 20, 2024 · ilya-lavrenov · Nov 27, 2024 · ilya-lavrenov
diff --git a/src/cpp/src/visual_language/inputs_embedder.cpp b/src/cpp/src/visual_language/inputs_embedder.cpp
@@ -36,6 +36,8 @@ class InputsEmbedder::IInputsEmbedder {
     ChatHistory m_history;
     // Templated chat history
     std::string m_templated_chat_history;
+    // Tokenized chat history
+    ov::Tensor m_tokenized_chat_history = ov::Tensor(ov::element::i64, {0, 0});
     // Whether we have computed some inputs already
     bool m_is_cache_empty = true;
 
@@ -50,12 +52,17 @@ class InputsEmbedder::IInputsEmbedder {
         return m_tokenizer;
     }
 
+    ov::Tensor get_tokenized_chat_history() const {
+        return m_tokenized_chat_history;
+    }
+
     virtual void start_chat(const std::string& system_message) {
         m_is_chat_conversation = true;
         if (!m_is_cache_empty) {
             m_history.clear();
             m_templated_chat_history.clear();
             m_is_cache_empty = true;
+            m_tokenized_chat_history = ov::Tensor(ov::element::i64, {0, 0});
         }
         if (system_message.empty()) {
             return;
@@ -78,6 +85,7 @@ class InputsEmbedder::IInputsEmbedder {
 
         m_history.clear();
         m_templated_chat_history.clear();
+        m_tokenized_chat_history = ov::Tensor(ov::element::i64, {0, 0});
     }
 
 protected:
@@ -125,6 +133,7 @@ class InputsEmbedder::IInputsEmbedder {
                 ).input_ids;
             }
             m_templated_chat_history = std::move(new_templated_chat_history);
+            m_tokenized_chat_history = new_chat_tokens;
         } else {
             encoded_input_ids = m_tokenizer.encode(prompt).input_ids;
         }
@@ -1031,6 +1040,10 @@ EmbeddingsModel InputsEmbedder::get_embedding_model() const {
     return m_impl->get_embedding_model();
 }
 
+ov::Tensor InputsEmbedder::get_tokenized_chat_history() const {
+    return m_impl->get_tokenized_chat_history();
+}
+
 Tokenizer InputsEmbedder::get_tokenizer() const {
     return m_impl->get_tokenizer();
 }

diff --git a/src/cpp/src/visual_language/inputs_embedder.hpp b/src/cpp/src/visual_language/inputs_embedder.hpp
@@ -28,6 +28,9 @@ class InputsEmbedder {
     // returns embedding model which converts token_id(s) to embedding vectors
     EmbeddingsModel get_embedding_model() const;
 
+    // returns tokenized text part of chat history
+    ov::Tensor get_tokenized_chat_history() const;
+
     // returns tokenizer
     Tokenizer get_tokenizer() const;
 

diff --git a/src/cpp/src/visual_language/pipeline.cpp b/src/cpp/src/visual_language/pipeline.cpp
@@ -93,16 +93,19 @@ class ov::genai::VLMPipeline::VLMPipelineImpl {
 
         ov::Tensor inputs_embeds = m_inputs_embedder->get_inputs_embeds(prompt, rgbs);
 
-        Sampler sampler = Sampler(m_tokenizer);
-
         std::vector<SequenceGroup::Ptr> requests;
         size_t request_id = 0;
         size_t block_size = 1; // not used
         bool enable_prefix_caching = false;
         size_t history_size = m_language.get_tensor("attention_mask").get_shape().at(1);
         size_t inputs_embeds_size = inputs_embeds.get_shape().at(1);
-        ov::Tensor prompt_ids(ov::element::i64, { history_size + inputs_embeds_size });
-        std::fill_n(prompt_ids.data<int64_t>(), prompt_ids.get_size(), 0);
+
+        auto chat_history = m_inputs_embedder->get_tokenized_chat_history();
+        size_t chat_history_size = std::max(chat_history.get_shape().at(1), history_size + inputs_embeds_size);
+        ov::Tensor prompt_ids(ov::element::i64, { chat_history_size });
+        std::fill_n(prompt_ids.data<int64_t>(), prompt_ids.get_size(), 1);
+        auto chat_history_data = chat_history.data<int64_t>();
+        std::copy(chat_history_data, chat_history_data + chat_history.get_size(), prompt_ids.data<int64_t>());
 
         SequenceGroup::Ptr sequence_group = std::make_shared<SequenceGroup>(request_id, prompt_ids, generation_config, block_size, enable_prefix_caching);
         sequence_group->set_sequence_group_ptr(sequence_group);
@@ -131,6 +134,8 @@ class ov::genai::VLMPipeline::VLMPipelineImpl {
         ov::Tensor position_ids = ov::Tensor{ov::element::i64, { 1, inputs_embeds.get_shape()[1] }};
         std::iota(position_ids.data<int64_t>(), position_ids.data<int64_t>() + position_ids.get_size(), history_size);
 
+        Sampler sampler = Sampler(m_tokenizer);
+
         ov::genai::EncodedResults encoded_result;
         int32_t m_selected_beam = 0;
         std::tie(encoded_result, m_selected_beam) = ov::genai::get_lm_encoded_results(m_language, inputs_embeds, new_atten_mask, streamer_ptr, sampler, requests,