OpenAI раскрывает причину крупнейшего сбоя в своей истории

OpenAI заявила, что основной сбой в работе в среду был вызван ее новой службой телеметрии.

В OpenAI заявили, что крупный сбой в работе в среду, один из самых продолжительных в истории компании, был вызван недавно запущенным сервисом телеметрии. Этот сбой привел к серьезным сбоям в работе ChatGPT, Sora и API-сервисов, ориентированных на разработчиков.

В своем последнем отчете о состоянии компания заявила, что сбой был вызван не инцидентом безопасности или запуском нового продукта, а скорее службой телеметрии, которая собирает показатели Kubernetes и была запущена в среду.

OpenAI извинился перед всеми

Kubernetes — это программа с открытым исходным кодом, которая помогает управлять пакетами приложений и связанными файлами в изолированных средах. Служба телеметрии непреднамеренно вызвала ресурсоемкие операции API Kubernetes, что привело к отключению плоскости управления Kubernetes. Сообщается, что новая служба телеметрии влияет на работу Kubernetes, от которого зависят многие службы OpenAI для разрешения DNS.

Кэширование DNS OpenAI привело к тому, что распространение продолжилось до того, как были изучены все масштабы, что задержало обнаружение. В компании OpenAI заявили, что обнаружили проблему за несколько минут до того, как она затронула клиентов, но не смогли быстро устранить ее из-за перегруженности серверов Kubernetes. Компания заявила, что этот инцидент стал результатом одновременного сбоя многих систем и процессов, которые начали взаимодействовать неожиданным образом.

Компания OpenAI объявила, что примет ряд мер для предотвращения подобных инцидентов в будущем, включая более эффективный мониторинг изменений инфраструктуры, усовершенствование поэтапного развертывания и новые механизмы, гарантирующие инженерам доступ к серверам API Kubernetes при любых обстоятельствах. Компания OpenAI извинилась перед пользователями ChatGPT за этот сбой и признала, что он не оправдал их ожиданий.