Skip to content

Clip model for multimodal model based on WSI image and report

Notifications You must be signed in to change notification settings

NLP-Final-Projects/CLIPath

Repository files navigation

CLIPath

CLIP for Whole Slide Image & Report

مدل یادگیری ماشین کلیپ برای آموزش توام متن گزارش و تصویر WSI


view - Documentation

Site


تصویر 1 - مدل ارائه شده

تصویر 2 - پایپلاین پردازشی


پایپلاین پردازشی زمان آزمایش به این صورت می‌باشد که دو پایپلاین موازی فعالیت می‌کنند که به ترتیب عبارت اند از پایپلاین پردازشی تصویر و پایپلاین پردازشی متن. (تصویر ۲) در ابتدا می‌بایست یک تصویر WSI انتخاب شده و گزارش مربوط به آن نیز مشخص شود. سپس تصویر و گزارش به پایپلاین ها وارد می‌شوند.
پایپلاین پردازش تصویر ابتدا تصویر WSI را به قطعات کوچکی می‌شکند که حاوی اطلاعات مفید باشند و قطعاتی که اطلاعات مفیدی نداشته باشند حذف می‌شوند. (توضیحات بیشتر در بخش قطعه‌بندی تصویر) سپس قطعات وارد بخش نرمال سازی می‌شود که متناسب با یک تصویر مرجع نرمال سازی رنگی برای آن‌ها انجام می‌شود. (توضیحات بیشتر در بخش نرمال‌سازی تصویر) پس از آن تصاویر نرمال شده را به مدل DINO می‌دهیم و براساس یک ترشلد بر روی نقشه توجه، تصاویری که نقشه توجه با مقادیر بالاتری داشته باشند به عنوان تصاویر مهم انتخاب می‌شوند. تصاویر انتخاب شده به عنوان ورودی در کنار متن انتخاب شده در پایپلاین متنی به مدل کلیپ داده می‌شوند. (توضیحات بیشتر در بخش مدل)
پایپلاین پردازش متن ابتدا گزارش مربوط به تصویر WSI را پردازش کرده و بخش Final Diagnosis را به متخصص نشان داده و متخصص بخش ارزشمند آن را در حد ۲ تا ۳ جمله انتخاب می‌کند. (یا خلاصه می‌کند.) و به عنوان متن انتخابی به مدل کلیپ داده می‌شود. (توضیحات بیشتر در بخش پردازش متن)

تصویر 3 - مدل پایه


در مدل پایه از مدل اصلی کلیپ استفاده شده است که در تصویر ۳ قابل شماهده است. اما در مدل اصلی از مدل کلیپ با جایگزینی مدل زبانی (تصویر ۱) استفاده شده است. برای مدل زبانی از pathology BERT استفاده شده که به صورت خاص روی گزارش‌های پاتولوژی آموزش دیده است و نتایج مناسبی را در این بخش ارائه کرده است. همچنین به عنوان تصاویر ورودی همان طور که در پایپلاین پردازشی توضیح داده شده است، به عنوان تصاویری ورودی، تصاویری که از ترشلد مشخص شده توجه بیشتری داشته باشند (در خروجی مدل DINO) به عنوان تصاویر ورودی انتخاب می شوند که در کنار بخش انتخاب شده از متن گزارش، به عنوان ورودی های مدل کلیپ به شبکه داده می شوند.

جزئیات هر بخش داخل دایرکتوری آن بخش توضیح داده شده است.


اعضای گروه (Team members):
محمدحسین موثقی‌نیا (Mohammad Hosein Movasaghinia)
رضا عباسی (Reza Abbasi)
حسین جعفری‌نیا (Hossein Jafarinia)
محمد‌حسن علیخانی (Mohammad Hassan Alikhani)
مهدی شادروی (Mahdi Shadrooy)
علی سلمانی (Ali Salmani)

About

Clip model for multimodal model based on WSI image and report

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published