Основы трансформатора

Основы трансформатора



Трансформатор — это модель глубокого обучения, которая принимает механизм самовнимания, дифференциально взвешивая значимость каждой части входных данных. Он используется в основном в области обработки естественного языка (NLP)[1] и компьютерного зрения (CV). [2]

Как и рекуррентные нейронные сети (RNN), трансформаторы предназначены для обработки последовательных входных данных, таких как естественный язык, с приложениями для таких задач, как перевод и обобщение текста. Однако, в отличие от RNN, трансформаторы обрабатывают весь вход сразу. Механизм внимания обеспечивает контекст для любой позиции во входной последовательности. Например, если входные данные представляют собой предложение на естественном языке, трансформеру не нужно обрабатывать по одному слову за раз. Это обеспечивает большее распараллеливание, чем RNN, и, следовательно, сокращает время обучения. [1]

Трансформаторы были представлены в 2017 году командой Google Brain[1] и все чаще становятся моделью выбора для проблем НЛП,[3] заменяя модели RNN, такие как долговременная кратковременная память (LSTM). Дополнительное обучение распараллеливанию позволяет обучаться на больших наборах данных. Это привело к разработке предварительно обученных систем, таких как BERT (Bidirectional Encoder Representations from Transformers) и GPT (Generative Pre-trained Transformer), которые были обучены с большими языковыми наборами данных, такими как Wikipedia Corpus и Common Crawl, и могут быть точно настроены для конкретных задач. [4] [5]

Свяжитесь с нами


Рекомендовать прочитать