هوش مصنوعی زبان بیماری‌ها را می‌فهمد!

پژوهشگران «دانشگاه پرینستون»، یک مدل زبانی را آموزش داده‌اند و از آن برای بررسی توالی‌های ژنوم استفاده کرده‌اند تا بیماری‌ها را رمزگشایی کنند.

۱۹ فروردین ۱۴۰۳

به گزارش چابک آنلاین به نقل از ایسنا، هوش مصنوعی از یک دستاورد دیگر رونمایی کرده است.

همان هوش مصنوعی که موفقیت آن در به کار بردن نرم‌افزار کدنویسی و قبولی در آزمون وکالت سرفصل خبرها شد، یاد گرفته است که نوع دیگری از متن را بخواند. این متن جدید حاوی کد ژنتیکی است.

کد ژنتیکی حاوی دستورالعمل‌هایی برای همه عملکردهای زندگی است و از قوانینی پیروی می‌کند که بی‌شباهت به زبان‌های انسانی نیستند. هر توالی در ژنوم به یک دستور زبان پیچیده و ساختارهایی پای‌بند است که معنا را ایجاد می‌کنند. همان طور که تغییر کردن چند کلمه می‌تواند تاثیر یک جمله را به شدت تغییر دهد، تغییرات کوچک در یک دنباله بیولوژیکی نیز می‌توانند تفاوت بزرگی را در عناصر رمزگذاری‌کننده دنباله ایجاد کنند.

اکنون پژوهشگران «دانشگاه پرینستون»(Princeton University) به سرپرستی «منگدی وانگ»(Mengdi Wang) کارشناس یادگیری ماشینی این دانشگاه، از مدل‌های زبانی برای بررسی توالی‌های ژنوم جزئی استفاده کرده‌اند و آنها را برای مطالعه زیست‌شناسی و بهبود پزشکی به کار برده‌اند.

پژوهشگران در مقاله خود، یک مدل زبانی را شرح داده‌اند که از قدرت بازنمایی معنایی خود برای طراحی واکسن آران‌ای پیام‌رسان مؤثرتری مانند واکسن‌های کووید-۱۹ استفاده می‌کند.

دانشمندان یک راه ساده را برای خلاصه کردن جریان اطلاعات ژنتیکی دارند. آنها آن را «دگم مرکزی زیست‌شناسی»(central dogma of biology) می‌نامند. اطلاعات از DNA به RNA و سپس به پروتئین‌ها حرکت می‌کنند. پروتئین‌ها ساختار و عملکرد سلول‌های زنده را ایجاد می‌کنند.

آران‌ای پیام‌رسان، اطلاعات را در مرحله نهایی که مرحله تبدیل است، به پروتئین تبدیل می‌کند اما فقط بخشی از آران‌ای پیام‌رسان حاوی کد پروتئین است. بقیه اطلاعات تبدیل نمی‌شوند اما جنبه‌های حیاتی فرآیند تبدیل را کنترل می‌کنند.

نظارت بر کارآیی تولید پروتئین، یک مکانیسم کلیدی است که واکسن‌های مبتنی بر آران‌ای پیام‌رسان توسط آن کار می‌کنند. پژوهشگران دانشگاه پرینستون، مدل زبانی خود را روی منطقه تبدیل‌نشده متمرکز کردند تا ببینند چگونه می‌توانند کارآیی واکسن‌ها را بهبود ببخشند.

پژوهشگران پس از آموزش دادن مدل روی انواع کوچکی از گونه‌ها، صدها توالی بهینه‌سازی‌شده جدید تولید کردند و آنها را از طریق بررسی‌های آزمایشگاهی مورد تایید قرار دادند. بهترین توالی‌ها توانستند بهتر از چندین معیار پیشرو برای توسعه واکسن عمل کنند؛ از جمله افزایش ۳۳ درصدی که در بازدهی کلی تولید پروتئین به همراه آوردند.

به گفته پژوهشگران، افزایش راندمان تولید پروتئین حتی به مقدار کم، یک تقویت عمده برای درمان‌های نوظهور است. واکسن‌های آران‌ای پیام‌رسان فراتر از کووید-۱۹، وعده محافظت در برابر بسیاری از بیماری‌های عفونی و سرطان را نیز نوید می‌دهند.

وانگ گفت که موفقیت این مدل به احتمال اساسی‌تری نیز اشاره دارد. این مدل زبانی پس از آموزش دیدن با آران‌ای پیام‌رسان گونه‌های انگشت شماری توانست توالی‌های نوکلئوتیدی را رمزگشایی کند و اطلاعات جدیدی را در مورد تنظیم ژن آشکار سازد. دانشمندان بر این باورند که تنظیم ژن، یکی از اساسی‌ترین عملکردهای زندگی است و می‌تواند کلید کشف منشاء بیماری و اختلال باشد. مدل‌های زبانی از این دست می‌توانند راه جدیدی را برای بررسی تنظیم ژن ارائه دهند.

زبان بیماری

مدل زبانی جدید به جای آموزش دیدن روی میلیاردها صفحه متن از اینترنت، روی چند صد هزار توالی آموزش داده شد. همچنین، این مدل با اطلاعات بیشتری درباره تولید پروتئین‌ها، از جمله اطلاعات ساختاری و مرتبط با انرژی آموزش دید.

پژوهشگران از مدل آموزش‌دیده برای ایجاد مجموعه‌ای از ۲۱۱ توالی جدید استفاده کردند. پروتئین‌های مورد استفاده مانند پروتئین خوشه‌ای که توسط واکسن‌های کووید-۱۹ هدف قرار می‌گیرد، واکنش ایمنی را به سوی بیماری‌های عفونی هدایت می‌کنند.

پژوهش‌های پیشین، مدل‌های زبانی را برای رمزگشایی توالی‌های بیولوژیکی گوناگون از جمله پروتئین‌ها و DNA ایجاد کرده‌اند اما این اولین مدل زبانی است که بر ناحیه تبدیل‌نشده آران‌ای پیام‌رسان تمرکز دارد. علاوه بر افزایش کارآیی کلی، این مدل ‌توانست پیش‌بینی کند که عملکرد یک توالی در انواع وظایف مرتبط چقدر خوب است.

وانگ خاطرنشان کرد که بررسی یک مجموعه داده محدود و ایجاد مدلی براساس آن برای دانشمندان جویای حیات کافی نیست و باید یک کار جدید انجام شود.

وی افزود: آموزش دادن یک مدل فقط کنار هم قرار دادن همه توالی‌ها نیست، بلکه کنار هم قرار دادن همه بخش‌هایی است که تاکنون جمع آوری شده‌اند. این کار پیشتر انجام نشده بود.