В интервью Сэм Альтман, генеральный директор OpenAI, подчеркнул важность высококачественных данных для обучения моделей ИИ. Альтман сказал, что в настоящее время у компании достаточно данных для следующей версии после GPT-4.
В интервью на Глобальном саммите AI for Good Альтман упомянул о необходимости высококачественных данных в системах искусственного интеллекта, независимо от того, поступают ли они от людей или создаются синтетическим путем. Возможность того, что слишком много данных, сгенерированных ИИ, может нанести вред системе ИИ, похоже, не беспокоит Альтмана как такового. Он сказал, что данные низкого качества из любого источника являются проблемой.
На данный момент у OpenAI достаточно данных для обучения следующей модели после GPT-4, сказал Альтман.
Генеральный директор OpenAI также сказал, что компания тестирует генерацию больших объемов синтетических данных, чтобы опробовать различные способы обучения ИИ.
Но главный вопрос заключается в том, как системы искусственного интеллекта могут извлекать больше информации из меньшего количества данных, а не просто генерировать огромные объемы синтетических данных для обучения. Альтман говорит, что было бы «очень странно», если бы лучшим способом обучения модели было «сгенерировать примерно квадриллион токенов синтетических данных и ввести их обратно».
Для Альтмана ключевым является способность эффективно извлекать уроки из данных, и он описывает основной вопрос следующим образом: «Как узнать больше, используя меньшее количество данных?» Он предупреждает, что OpenAI и другим компаниям все еще необходимо выяснить, какие данные и методы лучше всего подходят для обучения все более мощных систем искусственного интеллекта.
Наука подтверждает комментарии Альтмана, показывая, что чем лучше данные, тем выше производительность искусственного интеллекта. Это также соответствует стратегии OpenAI, которая недавно потратила сотни миллионов на лицензирование обучающих данных у крупных издателей.
Кратко
- В интервью генеральный директор OpenAI Сэм Альтман подчеркивает важность использования высококачественных данных для обучения моделей ИИ, будь то созданных человеком или синтетических.
- OpenAI экспериментирует с генерацией больших объемов синтетических данных для изучения различных методов обучения ИИ, но видит ключевой вопрос в том, как системы ИИ могут обучаться большему с меньшим количеством данных.
- По словам Альтмана, OpenAI в настоящее время располагает достаточным количеством данных для обучения следующей итерации после GPT-4, но признает, что все еще необходим значительный научный прогресс, чтобы найти наиболее подходящие данные и методы для все более мощных систем искусственного интеллекта.
ps. Комментируйте и лайкайте, пожалуйста! Это помогает продвижению статьи.
Ну и как положено, канал тг))) Канал и чатик
Там в закрепленном боты KolerskyAi для генерации видео в Stable Video, а так же для доступа в Chat GPT+4 и Dalle-3, Midjourney без VPN и другие нейросети.