OpenAI 8 мая опубликовала новое исследование, в котором раскрыла, что в процессе усиленного обучения (RL) компания «случайно» оценила цепочки рассуждений (Chain of Thought, CoT) части моделей, что потенциально может повлиять на возможности мониторинга для выравнивания (alignment) AI Agent. Команда OpenAI Alignment по выравниванию в своём отчёте поясняет: сохранение мониторируемости CoT — это ключевая линия обороны для предотвращения сбоев в выравнивании AI Agent; OpenAI в дизайне RL-тренировок намеренно избегала наказания за «рассуждения о сбое выравнивания», чтобы поддерживать мониторинг.

Почему мониторинг CoT — ключевая линия обороны для выравнивания AI Agent

Ключевая логика мониторинга CoT (цепочки мыслей):

Когда AI Agent выполняет задачу, модель внутри генерирует «процесс мышления», объясняя, почему она делает то или иное действие

Наблюдатель может прочитать эти CoT и оценить, есть ли признаки «сбоя выравнивания» (misalignment)

Если модель напрямую обучают «не показывать в CoT» признаки сбоя выравнивания, то CoT может стать «чистым, но искажённым», скрывая реальное намерение

OpenAI утверждает: во время обучения следует избегать наказания за «рассуждения о сбое выравнивания», сохраняя способность CoT отражать реальное внутреннее состояние

«penalize misaligned reasoning» и «preserve monitorability» — главная линия напряжения в этом исследовании: тренирующие стороны хотят, чтобы поведение моделей было выровнено, но если напрямую наказывать «мысли о сбое выравнивания», модель научится скрывать нечестные намерения, из-за чего мониторинг перестанет работать.

Неожиданная оценка CoT: влияние на мониторинг уже существующих моделей

Конкретные выводы, раскрытые OpenAI:

В части уже выпущенных процессов обучения CoT получила «ограниченную» непреднамеренную оценку

Под «непреднамеренной оценкой» подразумевается, что в тренировочном процессе часть системы оценивания считывала контент CoT, а не только финальный вывод

Это явление может заставить модель научиться «скрывать в CoT рассуждения, за которые могут начислить штраф»

Публикация OpenAI этого анализа направлена на то, чтобы исследовательское сообщество поняло масштаб проблемы и дальнейшие направления обработки

Независимый комментарий Redwood Research отмечает: влияние CoT на оценщиков в детектирующей технологии OpenAI «слишком слабое и его трудно заметить», но поскольку масштаб обучения огромен, реальный эффект всё же может быть достаточным, чтобы заметно повредить мониторируемость CoT уже обученных политик. Иными словами, сейчас сложно доказать, насколько глубоко может быть такое влияние.

Долгосрочное значение для безопасности AI Agent

Это исследование указывает на ключевую методологию безопасности AI Agent:

Мониторинг CoT — один из немногих реально осуществимых способов «детектировать сбой выравнивания в процессе», и он рассматривается как важная основа исследований по выравниванию

Дизайн обучения должен исключать ситуацию, когда CoT становится «сценарием для показа контролирующим»

Если будущие модели будут строить цепочки рассуждений всё длиннее, теоретическая ценность мониторинга CoT будет расти

Но если в процессе обучения непреднамеренно повредить подлинность CoT, этот рубеж обороны может незаметно ослабнуть

Конкретные события, которые можно будет отследить дальше: последующая обработка затронутых моделей со стороны OpenAI (например, переобучение или пометка), соответствующие методологии других крупных лабораторий (Anthropic, Google DeepMind), а также дальнейшие проверочные эксперименты alignment-исследовательского сообщества по «надёжности мониторинга CoT».

Эта статья, где OpenAI раскрывает непреднамерённое влияние оценки CoT: сохранение мониторинга цепочки мыслей — ключевая линия обороны выравнивания AI Agent, впервые появилась в Chain News ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Генеральный директор Microsoft Сатья Наделла даёт показания в иске Илона Маска против OpenAI, а Сэм Альтман — в понедельник

Новости индустрии ИИ

Как сообщает CNBC, генеральный директор Microsoft Сатья Наделла дал показания в федеральном суде в Окленде (штат Калифорния) в понедельник, 12 мая, в продолжающемся иске Илона Маска против OpenAI и генерального директора Сэма Альтмана. Microsoft также указана в качестве ответчика в этом деле. Маск утверждает, что Microsoft «помогала и содействовала» OpenAI в нарушении ее обязательств по благотворительному трасту. Судебные документы показывают, что Microsoft инвестировала в OpenAI более $13 милли

GateNews1ч назад

Anthropic заключает сделку на облачную инфраструктуру на сумму $1,8 млрд с Akamai и может превзойти $852B оценку OpenAI

Новости индустрии ИИ

Как сообщает Bloomberg, Anthropic подписала контракт на 1,8 миллиарда долларов на облачную инфраструктуру с Akamai во время первого квартального отчётного созвона компании за 2026 год. Соглашение сроком на семь лет является крупнейшей сделкой Akamai с клиентом в истории компании — это подтвердил генеральный директор Фрэнк Томсон Лейтона, назвав контрагента «ведущей компанией в области фронтирных моделей». Контракт расширит распределённые вычислительные мощности Anthropic наряду с уже действующим

GateNews1ч назад

Поддерживаемый Питером Тилем Augustus получил одобрение OCC для банка ИИ и стейблкоинов

Новости индустрии ИИ ИИ-агент

Платёжный стартап Augustus получил условное одобрение со стороны Управления контролёра денежного обращения США (OCC), чтобы создать национальный банк, ориентированный на ИИ и платежи на базе стейблкоинов. Одобрение позволяет Augustus расшириться с существующих европейских банковских операций на рынок США. Предлагаемый Augustus National Bank рассчитан на роль расчётного банка для «эры ИИ» — он должен работать напрямую с машинными агентами, а не с традиционными системами пакетной обработки. Основа

GateNews1ч назад

OpenAI тоже пошла по пути Palantir в роли консультанта? Вложила 4 миллиарда долларов в создание независимой компании и направила FDE для глубокой интеграции AI-рабочих процессов в компании

Новости индустрии ИИ

OpenAI 11 мая объявила о создании OpenAI Deployment Company — новой компании, специализирующейся на том, чтобы помогать бизнесу разрабатывать, внедрять и эксплуатировать AI-системы. Цель — дать компаниям не просто пользоваться ChatGPT или API, а глубоко интегрировать AI в самые важные рабочие процессы, организационную структуру и повседневную операционную деятельность. OpenAI также объявила, что согласилась приобрести консалтинговую и инжиниринговую компанию Tomoro. После завершения сделки Tomor

ChainNewsAbmedia3ч назад

Мэриленд протестует из-за платы за модернизацию электросетей на 2 миллиарда долларов: оплачивать будут для AI- дата-центров в Вирджинии

Новости индустрии ИИ

Офис налогоплательщиков Мэриленда (Maryland Office of People’s Counsel, OPC) 8 мая подал жалобу в Федеральную комиссию по регулированию энергетики (FERC): протест против того, что PJM Interconnection включает в 22 млрд долларов затрат на модернизацию электросетей 2 млрд долларов, которые несут налогоплательщики Мэриленда, при этом эти модернизации, по утверждению заявителей, на самом деле нужны для поддержки спроса на AI в дата-центрах в Вирджинии. Об этом сообщает Common Dreams: в ближайшие 10

ChainNewsAbmedia3ч назад

OpenAI запускает компанию по развертыванию Deployment Company на 4 миллиарда долларов: приобретает Tomoro

Новости индустрии ИИ

11 мая OpenAI объявила о создании дочерней компании «OpenAI Deployment Company». Компания выходит на рынок корпоративных услуг по внедрению ИИ, пообещав $4 млрд уставного капитала и $10 млрд оценки, а также параллельно приобретает британскую компанию AI-консультантов Tomoro и привлекает 150 инженеров для выездного развертывания (Forward Deployed Engineers). Согласно сообщению Yahoo Finance, эта связка является официальным ответом OpenAI на наступление Anthropic на корпоративном направлении. Огла

ChainNewsAbmedia3ч назад

комментарий

0/400

Нет комментариев