По словам Илона Маска, реальных данных для обучения искусственного интеллекта осталось очень мало. Известный архитектор считает, что теперь процессы разработки изменятся, а использование синтетических данных возрастет.
Модели искусственного интеллекта, обученные практически на всем, что только можно себе представить, становились все лучше и лучше. Однако новое заявление Илона Маска, который начал выделяться в этой области с xAI, показало, что в развитии искусственного интеллекта могут произойти радикальные изменения.
Выступая в прямом эфире на канале X, самый богатый человек в мире заявил, что, по его мнению, осталось очень мало реальных данных, которые можно было бы использовать для обучения моделей ИИ, согласившись с тем, что в последнее время говорят большинство экспертов по ИИ.
Наступит новая эра в развитии «синтетических данных», создаваемых самими моделями искусственного интеллекта.
«Мы фактически исчерпали совокупный объем человеческих знаний в области обучения ИИ», — заявил Маск. То же самое произошло и в прошлом году». выражения были использованы. Он добавил, что отрасль сейчас достигает так называемого «пика данных», повторив слова бывшего руководителя OpenAI Ильи Суцкевера.
По словам известного миллиардера, такое сокращение данных изменит способ разработки моделей. Маск заявил, что данные, полученные с помощью моделей искусственного интеллекта, называемые «синтетическими данными», откроют новую эру в развитии этих инструментов. Таким образом, ИИ начнет процесс самообучения.
Многие компании, от Microsoft до Meta, от OpenAI до Anthropic, уже используют синтетические данные для обучения своих моделей. Фактически, по оценкам, к 2024 году 60% данных, используемых в образовании, будут созданы искусственно. Например, недавно представленная Microsoft модель Phi-4 была разработана с использованием как синтетических, так и реальных данных.
Отметим, что синтетические данные гораздо более экономичны. Например, компания Writer, использующая этот метод, потратила всего 700 тысяч долларов на модель Palmyra X 004, которую она разработала полностью с использованием искусственных ресурсов. Если учесть, что обычная сумма расходов составляет более 4,5 миллионов долларов, то разница существенная.
Конечно, следует отметить, что синтетические данные имеют некоторые недостатки. Многие эксперты утверждают, что этот метод может привести к тому, что модели утратят свою креативность и станут более предвзятыми.