Время чтения: 2 минут(ы) Китайские исследователи обнаружили серьезную уязвимость в широко используемых коммерческих мультимодальных моделях большого языка (MLLM), таких как ChatGPT, Bard и Bing Chat.
Эти модели, разработанные крупными технологическими гигантами, являются фундаментальными компонентами приложений, начиная от виртуальных помощников и заканчивая системами модерации контента.
Исследователи обнаружили, что уязвимости в этих MLLM можно использовать для создания манипулируемых изображений, напоминающих оригиналы. Внося небольшие изменения, практически невидимые для человеческого глаза, исследователи обошли встроенные фильтры модели, предназначенные для выявления токсичного или неприемлемого контента.
Например, исследователи в Пекине выявили серьезную уязвимость в моделях искусственного интеллекта, таких как ChatGPT. Под атакой эти модели могут принять гигантских панд за людей или не обнаружить вредоносный контент, что подчеркивает критическую уязвимость коммерческих систем искусственного интеллекта.
Среди затронутых моделей Bard те, которые оснащены механизмами распознавания лиц и токсичности, могут генерировать неуместные описания вредоносного контента при компрометации. Китайская исследовательская группа даже предоставила код, показывающий, как эти атаки могут обмануть модели ИИ. Их эксперименты показали успешность 22% против Bard, 26% против Bing Chat и впечатляющие 86% против Ernie Bot.
Китайский исследователь технологий У Чжаохуэй выразил обеспокоенность по поводу этих тревожных результатов на Глобальном саммите по безопасности искусственного интеллекта в Великобритании. Он подчеркнул острую необходимость в усилении технических мер защиты при борьбе с искусственным интеллектом и призвал мировое сообщество устранить выявленные уязвимости в широко используемых языковых моделях.
Для борьбы с этими уязвимостями исследователи предложили использовать методы предварительной обработки в качестве потенциального решения, особенно для крупномасштабных основных моделей. Эти методы направлены на то, чтобы сделать MLLM устойчивым к атакам и проложить путь для будущих исследований и разработок в области безопасности ИИ.