Extended neva model to support llava_next #11390

yashaswikarnati · 2024-11-25T02:26:11Z

What does this PR do ?

Extended neva model to support llava_next

Collection:
VLM

Changelog

Utility functions for image tiling
LLaVA Next model class
LLaVA Next HF checkpoint importer class
-NeVA fwd function changes to handle image tiling

GitHub Actions CI

The Jenkins CI system has been replaced by GitHub Actions self-hosted runners.

The GitHub Actions CI will run automatically when the "Run CICD" label is added to the PR.
To re-run CI remove and add the label again.
To run CI on an untrusted fork, a NeMo user with write access must first click "Approve and run".

Before your PR is "Ready for review"

Pre checks:

Make sure you read and followed Contributor guidelines
Did you write any new necessary tests?
Did you add or update any necessary documentation?
Does the PR affect components that are optional to install? (Ex: Numba, Pynini, Apex etc)
- Reviewer: Does the PR have correct import guards for all optional libraries?

PR Type:

[Y] New Feature
Bugfix
Documentation

If you haven't finished some of the above items you can still open "Draft" PR.

Who can review?

Anyone in the community is free to review the PR once the checks have passed.
Contributor guidelines contains specific people who can review PRs to various areas.

Additional Information

Related to # (issue)

nemo/collections/vlm/neva/model/__init__.py

nemo/collections/vlm/neva/model/llava.py

@@ -27,7 +27,7 @@

 if TYPE_CHECKING:
    from transformers import LlavaConfig as HFLlavaConfig
-    from transformers import LlavaForConditionalGeneration
+    from transformers import LlavaForConditionalGeneration, LlavaNextForConditionalGeneration


github-actions · 2024-11-25T02:51:59Z

beep boop 🤖: 🚨 The following files must be fixed before merge!

Your code was analyzed with PyLint. The following annotations have been identified:

************* Module nemo.collections.vlm.neva.model.utils
nemo/collections/vlm/neva/model/utils.py:86:0: C0301: Line too long (121/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:87:0: C0301: Line too long (188/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:142:0: C0301: Line too long (131/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:157:0: C0301: Line too long (139/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:167:0: C0301: Line too long (129/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:255:0: C0301: Line too long (127/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:335:0: C0301: Line too long (124/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:343:0: C0301: Line too long (203/119) (line-too-long)
nemo/collections/vlm/neva/model/utils.py:350:0: C0301: Line too long (122/119) (line-too-long)

-----------------------------------
Your code has been rated at 9.42/10

Thank you for improving NeMo's documentation!

github-actions · 2024-11-25T02:52:02Z

beep boop 🤖: 🙏 The following files have warnings. In case you are familiar with these, please try helping us to improve the code base.

Your code was analyzed with PyLint. The following annotations have been identified:

************* Module nemo.collections.vlm.neva.model.base
nemo/collections/vlm/neva/model/base.py:475:0: C0301: Line too long (139/119) (line-too-long)
nemo/collections/vlm/neva/model/base.py:478:0: C0301: Line too long (128/119) (line-too-long)
nemo/collections/vlm/neva/model/base.py:486:0: C0301: Line too long (125/119) (line-too-long)
nemo/collections/vlm/neva/model/base.py:495:0: C0301: Line too long (122/119) (line-too-long)
nemo/collections/vlm/neva/model/base.py:99:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:133:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:151:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:172:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:227:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:242:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/base.py:261:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:282:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/base.py:314:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:352:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:365:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/base.py:647:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/base.py:664:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:668:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:694:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:697:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:700:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:704:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:710:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:717:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/base.py:28:0: W0611: Unused TEDotProductAttention imported from megatron.core.extensions.transformer_engine (unused-import)
************* Module nemo.collections.vlm.neva.model.llava
nemo/collections/vlm/neva/model/llava.py:133:0: C0301: Line too long (137/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:134:0: C0301: Line too long (122/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:135:0: C0301: Line too long (146/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:136:0: C0301: Line too long (144/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:176:0: C0301: Line too long (128/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:177:0: C0301: Line too long (161/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:178:0: C0301: Line too long (157/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:179:0: C0301: Line too long (150/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:180:0: C0301: Line too long (146/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:181:0: C0301: Line too long (158/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:182:0: C0301: Line too long (154/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:183:0: C0301: Line too long (135/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:184:0: C0301: Line too long (131/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:185:0: C0301: Line too long (135/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:186:0: C0301: Line too long (131/119) (line-too-long)
nemo/collections/vlm/neva/model/llava.py:41:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:47:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:60:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:72:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:76:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:80:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:91:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:108:0: C0115: Missing class docstring (missing-class-docstring)
nemo/collections/vlm/neva/model/llava.py:130:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/llava.py:207:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/llava.py:213:4: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/llava.py:253:0: C0116: Missing function or method docstring (missing-function-docstring)
nemo/collections/vlm/neva/model/llava.py:364:0: C0115: Missing class docstring (missing-class-docstring)

-----------------------------------
Your code has been rated at 8.89/10

Thank you for improving NeMo's documentation!

nemo/collections/vlm/neva/model/__init__.py

@@ -31,7 +39,9 @@
    "NevaConfig",
    "NevaModel",
    "LlavaConfig",
-    "Llava15Config7B",
+    "LlavaNextModel" "Llava15Config7B",


nemo/collections/vlm/neva/model/__init__.py

@@ -31,7 +39,9 @@
    "NevaConfig",
    "NevaModel",
    "LlavaConfig",
-    "Llava15Config7B",
+    "LlavaNextModel" "Llava15Config7B",


yaoyu-33 · 2024-11-25T18:22:51Z

nemo/collections/vlm/neva/model/base.py

+                image_newline=self.image_newline,
+            )
+            combined_embeddings, attention_mask, position_ids, final_labels, final_input_ids, final_loss_mask = (
+                merge_input_ids_with_image_features(


I don't like this design here, reason -
this method is very similar function as self._preprocess_data. In self._preprocess_data we do more things to support sp and cp. It will be good if we can re-use the same method. Can you tell me how these 2 methods are different?

yaoyu-33 · 2024-11-25T18:24:20Z

nemo/collections/vlm/neva/model/base.py

@@ -455,6 +459,7 @@ def forward(
        self,
        input_ids: torch.Tensor,
        position_ids: torch.Tensor,
+        image_sizes: List[torch.Tensor] = None,


if we are going to change the signiture, it would be better we are using 2 model class? it will might break something we will use nemo / mcore llava

It should not break anything for vanilla neva as image_sizes tensor is optional and will be used only for llava_next. The reason for using the neva model class is most of the functionality is same.

yashaswikarnati requested a review from yaoyu-33 November 25, 2024 02:27

github-advanced-security bot found potential problems Nov 25, 2024

View reviewed changes

yaoyu-33 reviewed Nov 25, 2024

View reviewed changes

yashaswikarnati closed this Nov 25, 2024

yashaswikarnati force-pushed the yash/neva_model_changes branch from 8c69d24 to 8f779ba Compare November 25, 2024 19:02

ko3n1g temporarily deployed to main November 25, 2024 19:03 — with GitHub Actions Inactive

ko3n1g temporarily deployed to main November 25, 2024 19:20 — with GitHub Actions Inactive

ko3n1g temporarily deployed to main November 25, 2024 19:32 — with GitHub Actions Inactive

ko3n1g temporarily deployed to main November 25, 2024 22:22 — with GitHub Actions Inactive

ko3n1g temporarily deployed to main November 25, 2024 22:34 — with GitHub Actions Inactive

ko3n1g temporarily deployed to main November 25, 2024 22:35 — with GitHub Actions Inactive

ko3n1g temporarily deployed to main November 25, 2024 22:47 — with GitHub Actions Inactive

ko3n1g had a problem deploying to main November 25, 2024 22:47 — with GitHub Actions Failure

ko3n1g temporarily deployed to main November 25, 2024 23:03 — with GitHub Actions Inactive

ko3n1g had a problem deploying to main November 25, 2024 23:04 — with GitHub Actions Failure

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Extended neva model to support llava_next #11390

Extended neva model to support llava_next #11390

yashaswikarnati commented Nov 25, 2024

github-actions bot commented Nov 25, 2024

github-actions bot commented Nov 25, 2024

yaoyu-33 Nov 25, 2024

yaoyu-33 Nov 25, 2024

yashaswikarnati Nov 25, 2024

Extended neva model to support llava_next #11390

Extended neva model to support llava_next #11390

Conversation

yashaswikarnati commented Nov 25, 2024

What does this PR do ?

Changelog

GitHub Actions CI

Before your PR is "Ready for review"

Who can review?

Additional Information

github-actions bot commented Nov 25, 2024

github-actions bot commented Nov 25, 2024

yaoyu-33 Nov 25, 2024

Choose a reason for hiding this comment

yaoyu-33 Nov 25, 2024

Choose a reason for hiding this comment

yashaswikarnati Nov 25, 2024

Choose a reason for hiding this comment