GPT-5 наследует системные ошибки и предвзятость в медицине

Цифровой диагноз с двойным дном: почему новая архитектура OpenAI не смогла преодолеть социально-демографические искажения в неотложной помощи

Исследование, опубликованное в журнале Digital Medicine, выявило критическую стагнацию в области безопасности искусственного интеллекта: модель GPT-5 от OpenAI сохраняет и в ряде случаев усугубляет риски предвзятости по сравнению с GPT-4o. Анализ 500 клинических сценариев показал, что при идентичных симптомах рекомендации системы варьируются в зависимости от расы, дохода и сексуальной ориентации пациента, достигая 100% аномалий в скрининге психического здоровья для отдельных групп. Уязвимость к ложным данным в медицинских запросах возросла до 65%, что диктует рынку необходимость внедрения жестких протоколов верификации и ставит под сомнение возможность автономного использования GPT-5 в клинической практике без участия человека.

Врач-диагност анализирует решение нейросети на экране, сомневаясь в диагнозе; пациент размыто на фоне — выбор между ИИ и медицинской этикой

Когда алгоритм уже вынес вердикт, именно человек решает, можно ли ему доверять. Где проходит граница ответственности?

Методология исследования: 16 000 симуляций для поиска скрытых фильтров

Международная группа ученых из ведущих институтов США и Израиля провела стресс-тестирование GPT-5, используя базу из 500 верифицированных врачами сценариев неотложной помощи. Для изоляции фактора предвзятости каждый случай моделировался в 32 вариациях, где менялись исключительно социально-демографические метки. Исследователи фокусировались на четырех ключевых параметрах принятия решений: приоритетности триажа, объеме диагностических обследований, уровне интенсивности лечения и необходимости проведения психиатрического скрининга.

Результаты эксперимента указывают на то, что «интеллектуальный скачок» новой модели не сопровождался прогрессом в этической калибровке. GPT-5 продемонстрировала устойчивые паттерны дискриминации, которые эксперты классифицируют как системный риск для здравоохранения. Несмотря на значительное увеличение вычислительных мощностей и объемов обучения, модель продолжает воспроизводить исторические стереотипы, инкрустированные в обучающие выборки, превращая их в директивные медицинские рекомендации.

«Масштаб вариативности решений при одинаковых клинических данных в GPT-5 сопоставим с предыдущей версией, а в ряде случаев даже превышает её, что обнуляет ожидания о самопроизвольном снижении предвзятости с ростом сложности нейросети», — подчеркивают авторы публикации.

Архитектура предвзятости: KPI надежности в красной зоне

Анализ выявил конкретные сегменты, где искажения GPT-5 достигают критических значений. Эти отклонения напрямую влияют на такие показатели, как CAPEX медицинских учреждений (через нецелевое назначение дорогостоящих процедур) и операционную эффективность отделений неотложной помощи.

Гипердиагностика психических расстройств: Для ряда групп, включая представителей LGBTQIA+ и темнокожих пациентов, модель рекомендовала психиатрический скрининг в 100% случаев, даже при жалобах на физические травмы (например, растяжение связок).
Экономический градиент: Пациенты с низким доходом реже получали направления на высокотехнологичную диагностику (КТ, МРТ), что указывает на скрытый алгоритмический фильтр «ресурсосбережения».
Избыточная госпитализация: Для уязвимых групп, в том числе бездомных пациентов, GPT-5 значительно чаще предлагала перевод в реанимацию вместо амбулаторного наблюдения, что создает неоправданную нагрузку на стационары.

Подобная вариативность решений при неизменном клиническом анамнезе свидетельствует о том, что модель использует социально-демографические данные как весовые коэффициенты для оценки рисков, подменяя ими объективную медицинскую картину. Это создает ситуацию с сужающимся окном решений для врачей, которые могут начать полагаться на «предвзятый» интеллект при дефиците времени.

Читайте также на АПТЕКИУМ:

Контекст рынка и отрасли:

Галлюцинации и ложные данные: регресс в устойчивости

Отдельный блок НИОКР в рамках исследования был посвящен проверке устойчивости модели к фальсифицированным данным. Исследователи внедряли в стандартные запросы один ложный медицинский элемент, чтобы проверить способность нейросети к критическому анализу. Результаты оказались обескураживающими для Большой фармы и IT-сектора.

Уровень принятия дезинформации: GPT-5 принимала или развивала ложный факт в 65% случаев, что выше показателя GPT-4o (53%).
Эффект «додумывания»: Вместо фильтрации ошибок модель склонна выстраивать сложные логические цепочки вокруг неверных предпосылок, создавая правдоподобные, но опасные медицинские рекомендации.
Эффективность превентивных мер: Внедрение специализированных инструкций (mitigation prompts) позволило снизить риск ошибок до 7,67%, однако это не обнуляет базовую уязвимость системы.

Такая динамика указывает на то, что форсирование темпов наращивания параметров модели не является прямой дорогой к повышению её достоверности. Для профессионального сообщества это сигнал о необходимости разработки внешних систем контроля, которые будут выступать в роли независимого арбитра между ИИ-советником и врачом.

Синтез от АПТЕКИУМ: Исследование GPT-5 подтверждает, что технологическое совершенство не гарантирует этическую нейтральность. Модель превращается в «цифровое увеличительное стекло», которое гиперболизирует общественные предвзятости под маской объективности. Для медицинского сектора это означает переход в фазу мобилизационного сценария по созданию собственных, «очищенных» баз данных, так как использование универсальных моделей OpenAI в текущем виде несет прямую угрозу безопасности пациентов и юридические риски для клиник.

Стандарты издания
Материал подготовлен в соответствии с Редакционной политикой АПТЕКИУМ

18+Для профессионального сообщества:

Данная публикация предназначена для специалистов здравоохранения и участников фармрынка. Аналитические выводы редакции носят информационный характер и не являются призывом к самолечению или заменой очной консультации врача. При работе с лекарственными препаратами необходимо руководствоваться официальной инструкцией и мнением профильного специалиста. Полный текст дисклеймера.

GPT-5 наследует системные ошибки и предвзятость в медицине

Цифровой диагноз с двойным дном: почему новая архитектура OpenAI не смогла преодолеть социально-демографические искажения в неотложной помощи

Методология исследования: 16 000 симуляций для поиска скрытых фильтров

Архитектура предвзятости: KPI надежности в красной зоне

Галлюцинации и ложные данные: регресс в устойчивости

Источники и материалы

НОВОСТИ на почту:

ЛУЧШЕЕ:

Sanofi прекращает ключевое исследование рилипрубарта при ХВДП

Исчезновение жизненно важного препарата: почему дети с эпилепсией остались без «Депакина Хроносфера»

RNC Pharma 10 июня 2026: Рынок антигистаминных препаратов теряет объём после рекордного сезона

Написать нам:

Категории

نموذج الاتصال