ИИ ищет лекарства там, где фарма годами прятала данные

Новый препринт HARVEST показывает, что будущее drug discovery может зависеть не только от моделей, но и от доступа к «темным» данным патентов

HARVEST — это не новое лекарство и не новая молекула. Это AI-инфраструктура, которая пытается автоматически извлекать из фармацевтических патентов скрытые данные о биоактивности соединений. Если подход подтвердит точность и масштабируемость, он может изменить один из главных узких участков drug discovery: превратить огромные массивы разрозненной химической информации в машинно-читаемые данные для поиска новых препаратов.

Фармацевтические патенты и молекулярные схемы в исследовательском архиве, визуализация извлечения данных для AI drug discovery и анализа биоактивности
Патенты содержат огромные массивы данных о биоактивности, которые десятилетиями оставались практически недоступными для ИИ.

Почему самые ценные данные могут лежать не в статьях, а в патентах

Когда мы говорим об искусственном интеллекте в разработке лекарств, обычно вспоминают генеративные модели, предсказание структуры белков, виртуальный скрининг и дизайн молекул.

Но у любой модели есть простой предел: она не может качественно учиться на данных, которых у нее нет.

В открытых научных базах хранится много информации о молекулах и мишенях. Но фармацевтические патенты содержат другой тип знания: результаты реальных программ медицинской химии.

Там можно найти:

  • какие соединения синтезировали;
  • с какими белками они связывались;
  • какие значения активности показывали;
  • какие химические модификации усиливали или ослабляли эффект;
  • какие направления оптимизации, возможно, оказались тупиковыми.

Для medicinal chemistry это не просто архив. Это карта уже пройденных дорог.

Проблема в том, что патенты написаны не для машинного анализа. Они юридические, длинные, неоднородные, часто перегруженные таблицами и химическими обозначениями. Поэтому большая часть информации остается «темной»: она есть, но ее трудно использовать как структурированный датасет.

Что делает HARVEST

HARVEST описан авторами как multi-agent large language model pipeline — система на базе нескольких AI-агентов, которые совместно извлекают структурированные данные из фармацевтических патентов.

Если упростить, система пытается делать то, что раньше требовало долгой ручной работы экспертов:

  • понять, о чем патент;
  • найти химические соединения;
  • связать их с биологическими мишенями;
  • распознать данные по активности;
  • сохранить контекст эксперимента;
  • привести результат к структурированной форме.

Главная идея не в том, чтобы сразу придумать новую молекулу.

Главная идея — достать из хаоса уже существующее знание.

Именно здесь находится ключевой поворот: HARVEST атакует не этап генерации гипотезы, а этап формирования базы знаний. Для AI-drug discovery это может быть не менее важно, чем новая архитектура модели.

Почему это может быть стратегически важнее, чем кажется

В фарме данные имеют особую ценность.

Одна и та же молекула может быть бесполезной в одном контексте и важной в другом. Одно значение IC50 само по себе мало что значит, если неизвестно, в каком assay оно получено. Одна химическая серия может рассказать гораздо больше, чем отдельное соединение.

Поэтому drug discovery зависит не просто от количества данных, а от их структуры, контекста и надежности.

HARVEST пытается извлекать именно такие связи: молекула — белок — активность — экспериментальный контекст.

Если это работает достаточно точно, появляется возможность расширить обучающие наборы для моделей, усилить knowledge graphs, лучше оценивать мишени и видеть химические пространства, которые раньше были почти невидимы.

Именно здесь находится ключевой поворот: когда все используют одни и те же открытые базы, преимущество начинает смещаться туда, где есть уникальные данные.

Момент осознания: патенты могут содержать не только успехи, но и ошибки

Самая недооцененная часть патентных данных — это не только сильные молекулы.

Не менее важны слабые, промежуточные и неудачные варианты.

Для AI это критично. Модели учатся не только на том, что сработало, но и на том, что не сработало. Отрицательные примеры, слабые SAR-сигналы, неудачные модификации и пограничные активности помогают понять форму химического пространства.

Проще говоря, патенты могут хранить не только список «хороших» соединений, но и карту того, где разработчики уже пробовали идти.

Для человека это архив.

Для модели — потенциальная обучающая среда.

Какие данные заявлены в препринте

В препринте HARVEST авторы сообщают, что система была применена к большому корпусу патентов USPTO.

Согласно описанию работы, HARVEST извлек миллионы записей биоактивности, включая данные о взаимодействии белков и лигандов. Авторы также указывают на восстановление большого числа химических scaffold-структур и белковых мишеней, отсутствующих в BindingDB.

Отдельно заявлено, что автоматическая экстракция достигала высокого согласия с ручной экспертной разметкой.

Это сильная заявка.

Но важно помнить: это препринт. Его выводы еще требуют независимой проверки, воспроизводимости и оценки в реальных discovery-процессах.

Где главный риск

Главный риск HARVEST — не в идее.

Идея очень сильная.

Главный риск — в точности.

Для обычного текстового поиска ошибка может быть неприятной. Для medicinal chemistry ошибка может быть опасной для всего датасетa.

Если система неправильно сопоставит соединение с мишенью, перепутает единицы измерения, потеряет assay-контекст или неверно извлечет значение активности, модель будет учиться на загрязненных данных.

А загрязненные данные в drug discovery могут давать уверенные, но ложные выводы.

Поэтому ключевые вопросы к HARVEST такие:

  • насколько надежно система распознает химические структуры;
  • как часто ошибается в значениях активности;
  • сохраняет ли assay-контекст;
  • умеет ли различать близкие, но неэквивалентные биологические измерения;
  • масштабируется ли качество при переходе к разным форматам патентов;
  • можно ли независимо воспроизвести результаты.

Без ответов на эти вопросы HARVEST остается многообещающей демонстрацией.

С ответами — может стать важным инфраструктурным слоем.

Почему инвесторам стоит смотреть именно на инфраструктуру данных

AI-drug discovery долго продавал рынку идею «лучших моделей».

Но постепенно становится ясно: модель без сильного датасета быстро теряет преимущество.

Если у нескольких компаний похожие архитектуры, похожие вычислительные мощности и доступ к похожим публичным базам, конкурентное преимущество смещается к данным.

Кто видит больше качественной биологии и химии — тот может раньше заметить перспективную мишень, лучше оценить риск и точнее построить гипотезу.

HARVEST интересен именно поэтому.

Это не терапевтический актив. Не препарат. Не клиническая программа.

Это попытка создать слой, который может питать другие системы: модели генерации молекул, knowledge graphs, платформы target prioritization, ADMET-прогнозы и инструменты lead optimization.

Чем HARVEST отличается от классических AI-drug-discovery компаний

Многие известные игроки в AI-drug discovery концентрируются на генерации молекул, биологических экспериментах, вычислительной физике или knowledge graph.

HARVEST находится ближе к другой зоне: научная разведка данных.

Он не столько предлагает новую молекулу, сколько расширяет карту уже существующего химико-биологического знания.

Это делает его ближе к инфраструктурным решениям, чем к платформам «мы создаем лекарство с нуля».

И именно поэтому его значение может быть недооценено.

В drug discovery выигрывает не тот, кто просто генерирует больше молекул. Выигрывает тот, кто лучше понимает, какие молекулы уже проверялись, где были сигналы, где были провалы и какие закономерности повторяются.

Что должно произойти дальше

Чтобы HARVEST стал не просто интересным препринтом, авторам и независимым группам нужно показать несколько вещей.

Во-первых, точность экстракции на разных типах патентов.

Во-вторых, надежность химического парсинга.

В-третьих, качество assay-контекста.

В-четвертых, воспроизводимость результатов.

В-пятых, самое важное: улучшает ли такой датасет реальные downstream-модели.

То есть не просто «мы извлекли много данных», а «модели, обученные с этими данными, лучше предсказывают, лучше ранжируют, лучше помогают принимать решения».

Именно это отделит инфраструктурный прорыв от красивой автоматизации.

Почему это касается не только фармкомпаний

На первый взгляд тема узкая: патенты, белки, лиганды, SAR-таблицы.

Но за ней стоит большой сдвиг.

Медицина все больше становится информационной системой. Новые лекарства появляются не только из новых экспериментов, но и из лучшего использования уже накопленного знания.

Если индустрия научится извлекать скрытые данные из патентов, публикаций, supplementary tables и внутренних архивов, это может ускорить не один проект, а целые классы исследований.

Для пациента это не означает быстрый новый препарат завтра.

Но это может означать более эффективную систему поиска лекарств в будущем.

Не потому, что ИИ «заменит ученых».

А потому, что он может помочь ученым увидеть то, что уже было создано, но осталось buried in plain sight — спрятанным на виду.

Синтез от АПТЕКИУМ: HARVEST важен не как новое лекарство, а как напоминание: в фарме ценность часто спрятана не в следующей громкой модели, а в данных, которые никто не смог нормально прочитать. Если AI drug discovery станет data-constrained, такие системы могут оказаться одним из самых важных слоев будущей лекарственной разработки.
18+ Для профессионального сообщества:

Данная публикация предназначена для специалистов здравоохранения и участников фармрынка. Аналитические выводы редакции носят информационный характер и не являются призывом к самолечению или заменой очной консультации врача. При работе с лекарственными препаратами необходимо руководствоваться официальной инструкцией и мнением профильного специалиста. Полный текст дисклеймера.

Новые Старые
Следите за обновлениями в ВКонтакте — коротко о самом важном в фарме.
Будьте в курсе событий
Подпишитесь на Аптекиум в удобной соцсети
Выбирайте любую площадку. Мы пишем только по делу.

نموذج الاتصال