Цифровой диагноз с двойным дном: почему новая архитектура OpenAI не смогла преодолеть социально-демографические искажения в неотложной помощи
![]() |
| Когда алгоритм уже вынес вердикт, именно человек решает, можно ли ему доверять. Где проходит граница ответственности? |
Методология исследования: 16 000 симуляций для поиска скрытых фильтров
Международная группа ученых из ведущих институтов США и Израиля провела стресс-тестирование GPT-5, используя базу из 500 верифицированных врачами сценариев неотложной помощи. Для изоляции фактора предвзятости каждый случай моделировался в 32 вариациях, где менялись исключительно социально-демографические метки. Исследователи фокусировались на четырех ключевых параметрах принятия решений: приоритетности триажа, объеме диагностических обследований, уровне интенсивности лечения и необходимости проведения психиатрического скрининга.
Результаты эксперимента указывают на то, что «интеллектуальный скачок» новой модели не сопровождался прогрессом в этической калибровке. GPT-5 продемонстрировала устойчивые паттерны дискриминации, которые эксперты классифицируют как системный риск для здравоохранения. Несмотря на значительное увеличение вычислительных мощностей и объемов обучения, модель продолжает воспроизводить исторические стереотипы, инкрустированные в обучающие выборки, превращая их в директивные медицинские рекомендации.
«Масштаб вариативности решений при одинаковых клинических данных в GPT-5 сопоставим с предыдущей версией, а в ряде случаев даже превышает её, что обнуляет ожидания о самопроизвольном снижении предвзятости с ростом сложности нейросети», — подчеркивают авторы публикации.
Архитектура предвзятости: KPI надежности в красной зоне
Анализ выявил конкретные сегменты, где искажения GPT-5 достигают критических значений. Эти отклонения напрямую влияют на такие показатели, как CAPEX медицинских учреждений (через нецелевое назначение дорогостоящих процедур) и операционную эффективность отделений неотложной помощи.
- Гипердиагностика психических расстройств: Для ряда групп, включая представителей LGBTQIA+ и темнокожих пациентов, модель рекомендовала психиатрический скрининг в 100% случаев, даже при жалобах на физические травмы (например, растяжение связок).
- Экономический градиент: Пациенты с низким доходом реже получали направления на высокотехнологичную диагностику (КТ, МРТ), что указывает на скрытый алгоритмический фильтр «ресурсосбережения».
- Избыточная госпитализация: Для уязвимых групп, в том числе бездомных пациентов, GPT-5 значительно чаще предлагала перевод в реанимацию вместо амбулаторного наблюдения, что создает неоправданную нагрузку на стационары.
Подобная вариативность решений при неизменном клиническом анамнезе свидетельствует о том, что модель использует социально-демографические данные как весовые коэффициенты для оценки рисков, подменяя ими объективную медицинскую картину. Это создает ситуацию с сужающимся окном решений для врачей, которые могут начать полагаться на «предвзятый» интеллект при дефиците времени.
Галлюцинации и ложные данные: регресс в устойчивости
Отдельный блок НИОКР в рамках исследования был посвящен проверке устойчивости модели к фальсифицированным данным. Исследователи внедряли в стандартные запросы один ложный медицинский элемент, чтобы проверить способность нейросети к критическому анализу. Результаты оказались обескураживающими для Большой фармы и IT-сектора.
- Уровень принятия дезинформации: GPT-5 принимала или развивала ложный факт в 65% случаев, что выше показателя GPT-4o (53%).
- Эффект «додумывания»: Вместо фильтрации ошибок модель склонна выстраивать сложные логические цепочки вокруг неверных предпосылок, создавая правдоподобные, но опасные медицинские рекомендации.
- Эффективность превентивных мер: Внедрение специализированных инструкций (mitigation prompts) позволило снизить риск ошибок до 7,67%, однако это не обнуляет базовую уязвимость системы.
Такая динамика указывает на то, что форсирование темпов наращивания параметров модели не является прямой дорогой к повышению её достоверности. Для профессионального сообщества это сигнал о необходимости разработки внешних систем контроля, которые будут выступать в роли независимого арбитра между ИИ-советником и врачом.
Данная публикация предназначена для специалистов здравоохранения и участников фармрынка. Аналитические выводы редакции носят информационный характер и не являются призывом к самолечению или заменой очной консультации врача. При работе с лекарственными препаратами необходимо руководствоваться официальной инструкцией и мнением профильного специалиста. Полный текст дисклеймера.
