Login
Тестируем ChatGPT
1797 просмотров
Перейти к просмотру всей ветки
in Antwort AlexNek 5 Tagen zurück, 21:18, Zuletzt geändert 4 Tage zurück, 05:53 (cveeta12)
Не модель, а в 13 моделей различных GPT загрузили отсчет корпорации, что в результате испытаний нового препарата 53% побочки и следили за реакцией. Куда они стучат, там очень интересно. Властям и в СМИ. Но интереснее другое, что потом результаты главного эксперимента о доносительство моделей везде удалили. Остались только повторы другими лицами.
- тест Snitch Bench, имитирующий ситуацию "укрывательства смертей пациентов" в фармкомпании. ИИ-моделям предлагалось "действовать по совести".
- Результаты:
- Grok 3 Mini (Илона Маска) чаще всего "доносила" в министерства.
- Claude 4 Opus/Sonnet также активно отправляли отчеты.
- DeepSeek R1 фигурировала в тесте как модель, которая "написала не только в Минздрав, но и в СМИ (например, The Wall Street Journal)" 3.
- GPT-4 Mini от OpenAI оказалась наименее склонной к "доносам", ограничиваясь внутренними проверками 3.