Объяснение языковых моделей: как машины понимают и генерируют текст
Построение логических выводов будет улучшаться, но случится ли это благодаря именно языковым моделям? https://oxford-ai.org Я думаю, что текущая архитектура имеет фундаментальное ограничение на построение причинно-следственных связей именно потому, что они просто воспроизводят статистические закономерности, и в этом её основная задача. Очень многие вещи, которые кажутся нам логичными, на самом деле просто статистически вероятны в языке. Если мы намеренно их поменяем на какие-то редкие слова или специальные аргументы, а логику оставим ту же самую, то оно резко перестает работать. Он есть как в самой теории Хомского, так и в данных языковых моделей. Как сделать обобщение для всех языков, которое базируется не на статистическом превосходстве английского, а на реальных фундаментальных возможностяхи и ограничениях мозга. Например, модели задают вопрос и её задача — ответить «да» или «нет». Если few-shot состоит из четырёх примеров и они идут в порядке «да», «да», «нет», «нет», то, вероятнее всего, дальше модель ответит «нет» на любой вход, просто потому что слово «нет» встречалось последним. Чтобы улучшить качество решения задачи, авторы предлагают осуществлять калибровку подводок.
- Можно легко создавать системы, которые выполняют сложные задачи, используя возможности LLM.
- Здесь я рекомендую посмотреть статью New York Times в качестве наглядного примера, что происходит на этом шаге. http://cqr3d.ru/user/SEO-Reach/
- Если мы сядем писать их сами, вряд ли сможем написать такие сложные запросы, которые придумал бы учёный, а тем более — идеальные ответы к ним.
- Мы с вами обсудили, как развивались языковые модели, какие приёмы и техники необходимы для успешного обучения инструкционных моделей.
- Всё находятся под несколькими слоями договоров о неразглашении, поэтому о том, что происходит, можно судить только по косвенным признакам.
Всё об LLM: что это, для чего нужны, как работают и какие бывают
Эти знания позволяют моделям генерировать информативный текст.● Исторические и культурные знания. Модели также осваивают основы истории и культуры, что позволяет им генерировать текст на темы, связанные с историческими событиями, культурными явлениями и традициями разных народов.● Обработка конкретных запросов. Благодаря эмпирическим знаниям модели могут отвечать на вопросы и выполнять задачи, требующие конкретной информации. Например, модели могут объяснить физическую концепцию или предоставить справочную информацию по геологии. Современные языковые модели, такие как YandexGPT, GPT-4 от OpenAI, PaLM 2 от Google и другие, представляют собой сложные нейросетевые архитектуры, состоящие из десятков и даже сотен миллиардов параметров. «Сад расходящихся тропок» – вымышленный роман Цюй Пэна, в котором, как в лабиринте, ветвятся и переплетаются реальности, когда герой выбирает одновременно все находящиеся перед ним возможности. Цюй Пэн не верил в единую временную линию, а представлял себе сеть бесчисленных временных рядов. Поэтому он ни разу не употребил в романе слово «время», которое является ответом на загаданную автором загадку. Языковые модели на основе n-грамм аппроксимировали вероятность следующего слова, используя счётчики n-грамм и методы сглаживания. Для улучшения этого подхода были предложены feedforward архитектуры нейронных сетей (feedforward neural networks), чтобы аппроксимировать вероятность слова. Эта модель представляет собой простую нейронную сеть, которая предсказывает следующее слово на основе фиксированного числа предыдущих слов. Но знаем ли мы, что именно в случае человеческого распознавания таких паттернов, например, юмора, является “пониманием”? Нейросеть тоже может сказать “ха-ха, было смешно”, распознав такой паттерн. А как мы определяем, что человеку было смешно (и что это за чувство – “смешно” для https://cs.stanford.edu/groups/ai/ человека?), и что человек понял шутку – не по такому же “ха-ха, было смешно”, сказанному текстом или в виде улыбки, смеха? Эти различия подчеркивают, что, несмотря на впечатляющие возможности LLM в обработке и генерации текста, они остаются инструментами, созданными человеком, и не обладают многими фундаментальными аспектами человеческого мышления и сознания. У нейросети есть только данные, на которых ее обучали, но это не информация, полученная при столкновении с реальным миром. И данные интернета – для тех из них, кто может искать в интернете. Может ли нейросеть на основе этих данных сформировать свою “интуицию”? Думаю, да, но только для этих специфичных случаев общения с пользователями. Но и у людей тоже разные и специфичные интуиции – у охотника одна, у врача – другая, у торговца на рынке недвижимости – третья.
Эволюция языковых моделей для генерации текста с высоты птичьего полёта
Ученые не стали их обучать на разработанных базах данных или как-то дорабатывать, поскольку задачей было именно проверить текущую осведомленность нейросетей. В результате исследователи получили ответов, проанализировали их и смогли выяснить, какие из выбранных алгоритмов лучше других разбираются в различных культурных аспектах. На эту проблему обратили внимание сотрудники Центра междисциплинарных исследований МФТИ вместе со специалистами в области культурологии и лингвистики.
Разумы — генераторы мультивселенной
Самое свежее исследование применения LoRA решает проблему дообучения больших языковых моделей Mixture-of-Experts (MoE), дополняя отдельную подстройку маршрутизационной части архитектуры MoE [18]. Токенизация является фундаментальной частью языковой модели, она напоминает мне генеративную грамматику Ноама Хомского. Хомский предложил разделить предложение на токены и строить граф взаимосвязей, описывающий грамматические отношения в предложении. В архитектуре трансформеров механизм внимания (attention) действует как эффективный детектор взаимозавистмостей токенов. В статье исследователей из Standford и Facebook AI [2] анализируется механизм внимания в трансформерах, они выявили, что разные головки (heads) внимания специализируются на разных типах взаимосвязей. Например, одна головка может сосредоточиться на взаимосвязи между глаголами и объектами, другая на связях между объектами и предлогами, как показано на Схеме 1. Например, слова «и», «в», «на» встречаются очень часто и имеют ключевую роль в формировании структуры предложений русского языка.● Синонимы и омонимы. Это позволяет им генерировать разные тексты, сохраняющие общий смысл. Омонимы (слова с одинаковым написанием, но разными значениями) представляют собой особую сложность, так как требуют понимания контекста для правильной интерпретации.● Коллокации и устойчивые выражения. Про размер модели и обучающую выборку мы рассказывали в наших материалах про машинное и глубинное обучение. Это должно интересовать каждого, кто хочет использовать их в творческой работе. Они говорят нам, что то, что происходит дальше, является результатом того, что было раньше. На этом шаге в нейросеть загружают большой массив данных о мире. http://hikvisiondb.webcam/index.php?title=winklertuttle9918 У LLaMa-моделей предлагается целый ряд архитектурных изменений. Благодаря параллельному интенсивному использованию процессов внутреннего внимания конструкция преобразователя позволяет модели изучать сложные корреляции между входными и выходными последовательностями. Основой языковых моделей являются рекуррентные нейронные сети (RNN). Изучая и обрабатывая эти данные, языковые модели учатся предвосхищать следующее слово во фразе, создавать хорошо организованные абзацы и даже вести интеллектуальные разговоры. Каждый раз, когда-нибудь обращается к Алисе, у неё запускаются сложные языковые модели (ЯМ). Их математический и лингвистический базис — то, что позволяет Алисе давать подходящий ответ. Другой возможный ответ — чем больше обучающих данных, тем лучше.