Новый препринт HARVEST показывает, что будущее drug discovery может зависеть не только от моделей, но и от доступа к «темным» данным патентов
HARVEST — это не новое лекарство и не новая молекула. Это AI-инфраструктура, которая пытается автоматически извлекать из фармацевтических патентов скрытые данные о биоактивности соединений. Если подход подтвердит точность и масштабируемость, он может изменить один из главных узких участков drug discovery: превратить огромные массивы разрозненной химической информации в машинно-читаемые данные для поиска новых препаратов.
![]() |
| Патенты содержат огромные массивы данных о биоактивности, которые десятилетиями оставались практически недоступными для ИИ. |
Почему самые ценные данные могут лежать не в статьях, а в патентах
Когда мы говорим об искусственном интеллекте в разработке лекарств, обычно вспоминают генеративные модели, предсказание структуры белков, виртуальный скрининг и дизайн молекул.
Но у любой модели есть простой предел: она не может качественно учиться на данных, которых у нее нет.
В открытых научных базах хранится много информации о молекулах и мишенях. Но фармацевтические патенты содержат другой тип знания: результаты реальных программ медицинской химии.
Там можно найти:
- какие соединения синтезировали;
- с какими белками они связывались;
- какие значения активности показывали;
- какие химические модификации усиливали или ослабляли эффект;
- какие направления оптимизации, возможно, оказались тупиковыми.
Для medicinal chemistry это не просто архив. Это карта уже пройденных дорог.
Проблема в том, что патенты написаны не для машинного анализа. Они юридические, длинные, неоднородные, часто перегруженные таблицами и химическими обозначениями. Поэтому большая часть информации остается «темной»: она есть, но ее трудно использовать как структурированный датасет.
Что делает HARVEST
HARVEST описан авторами как multi-agent large language model pipeline — система на базе нескольких AI-агентов, которые совместно извлекают структурированные данные из фармацевтических патентов.
Если упростить, система пытается делать то, что раньше требовало долгой ручной работы экспертов:
- понять, о чем патент;
- найти химические соединения;
- связать их с биологическими мишенями;
- распознать данные по активности;
- сохранить контекст эксперимента;
- привести результат к структурированной форме.
Главная идея не в том, чтобы сразу придумать новую молекулу.
Главная идея — достать из хаоса уже существующее знание.
Именно здесь находится ключевой поворот: HARVEST атакует не этап генерации гипотезы, а этап формирования базы знаний. Для AI-drug discovery это может быть не менее важно, чем новая архитектура модели.
Почему это может быть стратегически важнее, чем кажется
В фарме данные имеют особую ценность.
Одна и та же молекула может быть бесполезной в одном контексте и важной в другом. Одно значение IC50 само по себе мало что значит, если неизвестно, в каком assay оно получено. Одна химическая серия может рассказать гораздо больше, чем отдельное соединение.
Поэтому drug discovery зависит не просто от количества данных, а от их структуры, контекста и надежности.
HARVEST пытается извлекать именно такие связи: молекула — белок — активность — экспериментальный контекст.
Если это работает достаточно точно, появляется возможность расширить обучающие наборы для моделей, усилить knowledge graphs, лучше оценивать мишени и видеть химические пространства, которые раньше были почти невидимы.
Именно здесь находится ключевой поворот: когда все используют одни и те же открытые базы, преимущество начинает смещаться туда, где есть уникальные данные.
Момент осознания: патенты могут содержать не только успехи, но и ошибки
Самая недооцененная часть патентных данных — это не только сильные молекулы.
Не менее важны слабые, промежуточные и неудачные варианты.
Для AI это критично. Модели учатся не только на том, что сработало, но и на том, что не сработало. Отрицательные примеры, слабые SAR-сигналы, неудачные модификации и пограничные активности помогают понять форму химического пространства.
Проще говоря, патенты могут хранить не только список «хороших» соединений, но и карту того, где разработчики уже пробовали идти.
Для человека это архив.
Для модели — потенциальная обучающая среда.
Какие данные заявлены в препринте
В препринте HARVEST авторы сообщают, что система была применена к большому корпусу патентов USPTO.
Согласно описанию работы, HARVEST извлек миллионы записей биоактивности, включая данные о взаимодействии белков и лигандов. Авторы также указывают на восстановление большого числа химических scaffold-структур и белковых мишеней, отсутствующих в BindingDB.
Отдельно заявлено, что автоматическая экстракция достигала высокого согласия с ручной экспертной разметкой.
Это сильная заявка.
Но важно помнить: это препринт. Его выводы еще требуют независимой проверки, воспроизводимости и оценки в реальных discovery-процессах.
Где главный риск
Главный риск HARVEST — не в идее.
Идея очень сильная.
Главный риск — в точности.
Для обычного текстового поиска ошибка может быть неприятной. Для medicinal chemistry ошибка может быть опасной для всего датасетa.
Если система неправильно сопоставит соединение с мишенью, перепутает единицы измерения, потеряет assay-контекст или неверно извлечет значение активности, модель будет учиться на загрязненных данных.
А загрязненные данные в drug discovery могут давать уверенные, но ложные выводы.
Поэтому ключевые вопросы к HARVEST такие:
- насколько надежно система распознает химические структуры;
- как часто ошибается в значениях активности;
- сохраняет ли assay-контекст;
- умеет ли различать близкие, но неэквивалентные биологические измерения;
- масштабируется ли качество при переходе к разным форматам патентов;
- можно ли независимо воспроизвести результаты.
Без ответов на эти вопросы HARVEST остается многообещающей демонстрацией.
С ответами — может стать важным инфраструктурным слоем.
Почему инвесторам стоит смотреть именно на инфраструктуру данных
AI-drug discovery долго продавал рынку идею «лучших моделей».
Но постепенно становится ясно: модель без сильного датасета быстро теряет преимущество.
Если у нескольких компаний похожие архитектуры, похожие вычислительные мощности и доступ к похожим публичным базам, конкурентное преимущество смещается к данным.
Кто видит больше качественной биологии и химии — тот может раньше заметить перспективную мишень, лучше оценить риск и точнее построить гипотезу.
HARVEST интересен именно поэтому.
Это не терапевтический актив. Не препарат. Не клиническая программа.
Это попытка создать слой, который может питать другие системы: модели генерации молекул, knowledge graphs, платформы target prioritization, ADMET-прогнозы и инструменты lead optimization.
Чем HARVEST отличается от классических AI-drug-discovery компаний
Многие известные игроки в AI-drug discovery концентрируются на генерации молекул, биологических экспериментах, вычислительной физике или knowledge graph.
HARVEST находится ближе к другой зоне: научная разведка данных.
Он не столько предлагает новую молекулу, сколько расширяет карту уже существующего химико-биологического знания.
Это делает его ближе к инфраструктурным решениям, чем к платформам «мы создаем лекарство с нуля».
И именно поэтому его значение может быть недооценено.
В drug discovery выигрывает не тот, кто просто генерирует больше молекул. Выигрывает тот, кто лучше понимает, какие молекулы уже проверялись, где были сигналы, где были провалы и какие закономерности повторяются.
Что должно произойти дальше
Чтобы HARVEST стал не просто интересным препринтом, авторам и независимым группам нужно показать несколько вещей.
Во-первых, точность экстракции на разных типах патентов.
Во-вторых, надежность химического парсинга.
В-третьих, качество assay-контекста.
В-четвертых, воспроизводимость результатов.
В-пятых, самое важное: улучшает ли такой датасет реальные downstream-модели.
То есть не просто «мы извлекли много данных», а «модели, обученные с этими данными, лучше предсказывают, лучше ранжируют, лучше помогают принимать решения».
Именно это отделит инфраструктурный прорыв от красивой автоматизации.
Почему это касается не только фармкомпаний
На первый взгляд тема узкая: патенты, белки, лиганды, SAR-таблицы.
Но за ней стоит большой сдвиг.
Медицина все больше становится информационной системой. Новые лекарства появляются не только из новых экспериментов, но и из лучшего использования уже накопленного знания.
Если индустрия научится извлекать скрытые данные из патентов, публикаций, supplementary tables и внутренних архивов, это может ускорить не один проект, а целые классы исследований.
Для пациента это не означает быстрый новый препарат завтра.
Но это может означать более эффективную систему поиска лекарств в будущем.
Не потому, что ИИ «заменит ученых».
А потому, что он может помочь ученым увидеть то, что уже было создано, но осталось buried in plain sight — спрятанным на виду.
Данная публикация предназначена для специалистов здравоохранения и участников фармрынка. Аналитические выводы редакции носят информационный характер и не являются призывом к самолечению или заменой очной консультации врача. При работе с лекарственными препаратами необходимо руководствоваться официальной инструкцией и мнением профильного специалиста. Полный текст дисклеймера.
