Обучение продвинутых моделей ИИ, таких как ChatGPT от OpenAI и Gemini Ultra от Google, обходится в миллионы долларов, причем затраты стремительно растут.
По мере ужесточения требований к вычислительным системам резко увеличиваются расходы на компьютерные мощности. В ответ на это компании, занимающиеся разработкой ИИ, стали пересматривать методы обучения генеративных систем искусственного интеллекта. Во многих случаях речь идет о стратегиях снижения затрат с учетом текущих траекторий роста.
На этой инфографике проиллюстрирован резкий рост стоимости обучения продвинутых моделей ИИ. В качестве основы для анализа использовались данные из доклада «Индекс искусственного интеллекта за 2024 год», подготовленного Стэнфордским университетом.
Как определяется стоимость обучения?
Для оценки стоимости обучения моделей ИИ авторы доклада сотрудничали с исследовательской компанией Epoch AI. Были проанализированы такие ключевые факторы, как продолжительность обучения модели, коэффициент использования оборудования и стоимость оборудования для обучения.
Хотя многие предполагают, что обучение моделей искусственного интеллекта становится все более дорогостоящим, пока еще нет полных данных, которые могли бы подтвердить это заявление. Индекс ИИ - один из немногих источников таких оценок.
Увеличение расходов на обучение
Ниже мы приводим данные о стоимости обучения основных моделей ИИ с поправкой на инфляцию за период с 2017 по 2023 год:
В прошлом году обучение GPT-4 обошлось компании OpenAI примерно в 78,4 миллиона долларов, что значительно превышает стоимость обучения модели Google PaLM (540B), которое стоило 12,4 миллиона долларов лишь годом ранее.
Для сравнения, стоимость обучения Transformer, одной из первых моделей ИИ, разработанной в 2017 году, составляла всего 930 долларов. Эта модель сыграла основополагающую роль в формировании архитектуры многих крупных языковых моделей, используемых сегодня.
Обучение модели ИИ от Google Gemini Ultra стоит еще дороже - 191 миллион долларов. По состоянию на начало 2024 года эта модель превзошла GPT-4 по нескольким показателям, в первую очередь в бенчмарке "Измерение понимания языка в условиях массовой многозадачности" (MMLU). Этот бенчмарк служит важнейшим критерием для оценки возможностей больших языковых моделей. Например, он известен тем, что позволяет оценить знания и навыки решения задач в 57 предметных областях.
Обучение моделей ИИ будущего
Принимая во внимание эти проблемы, компании, занимающиеся разработкой ИИ, находят новые решения для обучения языковых моделей, чтобы бороться с ростом затрат.
К ним относятся различные подходы, например, создание небольших моделей, предназначенных для выполнения конкретных задач. Другие компании экспериментируют с созданием собственных синтетических данных для использования в системах ИИ. Однако явного прорыва пока не произошло.
Как показывает практика, сегодня модели ИИ, использующие синтетические данные, выдают бессмыслицу при ответе на определенные вопросы, что приводит к так называемому «коллапсу модели».