Что такое генеративный ИИ - часть 3 Большие языковые модели
Что такое генеративный ИИ - часть 3 Большие языковые модели Содержание 00:06 Введение в большие языковые модели • Артем Рыжиков, преподаватель ВШЭ, рассказывает о больших языковых моделях, таких как трансформеры, BERT, LAMA и ChatGPT. • Чат-боты начали развиваться около 5-10 лет назад, но достигли значительного прогресса недавно. 00:57 Разнообразие языковых моделей • Существует множество языковых моделей, от маленьких до огромных, таких как ChatGPT-4.5. • Некоторые модели открыты, например, LAMA, другие закрыты, как решение от Google. • Все модели имеют огромное количество параметров, что требует значительных вычислительных ресурсов и денег для обучения. 01:57 Обучение на неразмеченных данных • Модели обучаются на огромных объемах данных, часто неразмеченных. • Обучение может занимать до 12 дней на мощных GPU, что стоит сотни тысяч долларов. • Количество GPU определяет время и качество обучения. 04:47 Преимущества обучения на неразмеченных данных • Возможность обучения на неразмеченных данных позволяет достичь высоких результатов. • Подход предсказания текста на основе всего остального не требует разметки и заставляет модель понимать контекст. 06:25 Проблемы и решения в обучении • Модели должны не только понимать контекст, но и уметь изъясняться по-человечески. • Для этого используется фан-тюнинг, который включает набор вопросов и ответов. • Процесс обучения состоит из двух этапов: при тренинг и фан-тюнинг. 09:38 Бенчмарки и их использование • Размеченные данные используются не только для фан-тюнинга, но и для измерения качества моделей. • Бенчмарки помогают выбрать подходящую модель для конкретной бизнес-задачи. 10:55 Внутреннее устройство больших языковых моделей • Текст анализируется сложнее, чем изображения, и требует разбиения на токены. • Существуют разные способы токенизации, включая разбиение на буквы и слова. • В трансформерах и ChatGPT используется байтовая токенизация, которая агрегирует часто встречаемые фрагменты слов. 14:07 Токенизация и эмбеддинги • Каждому токену сопоставляется вектор, называемый эмбеддингом. • Векторы имеют фиксированную размерность, но разные компоненты. • Специальные токены указывают начало и конец строки, а также разделители между предложениями. 16:08 Позиционный экоинг • Важно знать позицию токена в предложении для языковой модели. • Абсолютные номера токенов не всегда полезны. • Синусоида используется для нормализации позиций токенов. 19:07 Механизм внимания • Механизм внимания важен для анализа текста в контексте. • Эмбеддинги используются для вычисления близости между токенами. • В трансформерах используется более сложный подход с матрицами. 22:29 Процесс анализа предложения • Токенизация текста, сопоставление векторов токенам. • Умножение векторов на матрицы для вычисления релевантности. • Нормирование релевантностей для получения итогового вектора. 23:58 Нормировка и итерации • Нормировка под софтмакс для стабильности. • Возможность наложения слоев механизма внимания для улучшения модели. • В некоторых задачах механизм внимания должен смотреть только в прошлое. 24:51 Коушн и фула-теншин • Коушн смотрит только на предыдущие токены. • Фула-теншин учитывает внимание к будущим токенам. • В коушне элементы выше диагонали матрицы внимания зануляются. 27:43 Масштабирование и внимание • Масштабирование текста горизонтально и вертикально. • Разделение текста на блоки для упрощения вычислений. • Использование нескольких матриц весов для разных семантик. 29:59 Нормализация в языковых моделях • Использование лейер-нормализации в языковых моделях. • Преимущества лейер-нормализации для языковых моделей. • Обработка текста включает токенизацию, эмбединг и позиционный кодирование. 32:23 Архитектура трансформера • Трансформер для машинного перевода и его параллели с архитектурами для изображений. • Важность энкодера и декодера в различных задачах обработки текста. • Примеры использования трансформера в задачах классификации и генерации текста. 34:33 Обучение блоков самообучения • Маску при тренинг для предобучения модели. • Маскировка токенов и их предсказание на основе контекста. • Использование случайного зануления токенов для предотвращения утечки информации. 37:30 Непродикшн и его применение • Непродикшн как задача бинарной классификации. • Подача двух предложений и предсказание их последовательности. • Отказ от непродикшн в роберте из-за низкой полезности. 38:43 Структура предложения в языковой модели • Использование целого токина для начала предложения. • Агрегирование информации о предложении в целом токине. • Применение сеп токина для разделения предложений и сигнализирования о конце. 41:27 Финальная настройка языковых моделей • Методика файн-тюнинга языковых моделей. • Сравнение с механизмом трансформинга в задачах с изображениями. 42:03 Обучение нейросетей с предобученными слоями • Использование предобученных слоев для задач с изображениями. • Замораживание все
Что такое генеративный ИИ - часть 3 Большие языковые модели Содержание 00:06 Введение в большие языковые модели • Артем Рыжиков, преподаватель ВШЭ, рассказывает о больших языковых моделях, таких как трансформеры, BERT, LAMA и ChatGPT. • Чат-боты начали развиваться около 5-10 лет назад, но достигли значительного прогресса недавно. 00:57 Разнообразие языковых моделей • Существует множество языковых моделей, от маленьких до огромных, таких как ChatGPT-4.5. • Некоторые модели открыты, например, LAMA, другие закрыты, как решение от Google. • Все модели имеют огромное количество параметров, что требует значительных вычислительных ресурсов и денег для обучения. 01:57 Обучение на неразмеченных данных • Модели обучаются на огромных объемах данных, часто неразмеченных. • Обучение может занимать до 12 дней на мощных GPU, что стоит сотни тысяч долларов. • Количество GPU определяет время и качество обучения. 04:47 Преимущества обучения на неразмеченных данных • Возможность обучения на неразмеченных данных позволяет достичь высоких результатов. • Подход предсказания текста на основе всего остального не требует разметки и заставляет модель понимать контекст. 06:25 Проблемы и решения в обучении • Модели должны не только понимать контекст, но и уметь изъясняться по-человечески. • Для этого используется фан-тюнинг, который включает набор вопросов и ответов. • Процесс обучения состоит из двух этапов: при тренинг и фан-тюнинг. 09:38 Бенчмарки и их использование • Размеченные данные используются не только для фан-тюнинга, но и для измерения качества моделей. • Бенчмарки помогают выбрать подходящую модель для конкретной бизнес-задачи. 10:55 Внутреннее устройство больших языковых моделей • Текст анализируется сложнее, чем изображения, и требует разбиения на токены. • Существуют разные способы токенизации, включая разбиение на буквы и слова. • В трансформерах и ChatGPT используется байтовая токенизация, которая агрегирует часто встречаемые фрагменты слов. 14:07 Токенизация и эмбеддинги • Каждому токену сопоставляется вектор, называемый эмбеддингом. • Векторы имеют фиксированную размерность, но разные компоненты. • Специальные токены указывают начало и конец строки, а также разделители между предложениями. 16:08 Позиционный экоинг • Важно знать позицию токена в предложении для языковой модели. • Абсолютные номера токенов не всегда полезны. • Синусоида используется для нормализации позиций токенов. 19:07 Механизм внимания • Механизм внимания важен для анализа текста в контексте. • Эмбеддинги используются для вычисления близости между токенами. • В трансформерах используется более сложный подход с матрицами. 22:29 Процесс анализа предложения • Токенизация текста, сопоставление векторов токенам. • Умножение векторов на матрицы для вычисления релевантности. • Нормирование релевантностей для получения итогового вектора. 23:58 Нормировка и итерации • Нормировка под софтмакс для стабильности. • Возможность наложения слоев механизма внимания для улучшения модели. • В некоторых задачах механизм внимания должен смотреть только в прошлое. 24:51 Коушн и фула-теншин • Коушн смотрит только на предыдущие токены. • Фула-теншин учитывает внимание к будущим токенам. • В коушне элементы выше диагонали матрицы внимания зануляются. 27:43 Масштабирование и внимание • Масштабирование текста горизонтально и вертикально. • Разделение текста на блоки для упрощения вычислений. • Использование нескольких матриц весов для разных семантик. 29:59 Нормализация в языковых моделях • Использование лейер-нормализации в языковых моделях. • Преимущества лейер-нормализации для языковых моделей. • Обработка текста включает токенизацию, эмбединг и позиционный кодирование. 32:23 Архитектура трансформера • Трансформер для машинного перевода и его параллели с архитектурами для изображений. • Важность энкодера и декодера в различных задачах обработки текста. • Примеры использования трансформера в задачах классификации и генерации текста. 34:33 Обучение блоков самообучения • Маску при тренинг для предобучения модели. • Маскировка токенов и их предсказание на основе контекста. • Использование случайного зануления токенов для предотвращения утечки информации. 37:30 Непродикшн и его применение • Непродикшн как задача бинарной классификации. • Подача двух предложений и предсказание их последовательности. • Отказ от непродикшн в роберте из-за низкой полезности. 38:43 Структура предложения в языковой модели • Использование целого токина для начала предложения. • Агрегирование информации о предложении в целом токине. • Применение сеп токина для разделения предложений и сигнализирования о конце. 41:27 Финальная настройка языковых моделей • Методика файн-тюнинга языковых моделей. • Сравнение с механизмом трансформинга в задачах с изображениями. 42:03 Обучение нейросетей с предобученными слоями • Использование предобученных слоев для задач с изображениями. • Замораживание все
