NeoBERT: A Next-Generation BERT
NeoBERT: BERT нового поколения Документ представляет NeoBERT, двунаправленный кодировщик нового поколения, разработанный для обновления моделей типа BERT, которые отстают от прогресса в больших авторегрессионных языковых моделях, несмотря на их важность в НЛП. NeoBERT объединяет передовые архитектурные инновации, современные данные и оптимизированные методологии предварительного обучения для устранения этого пробела. Он служит заменой существующим базовым моделям по принципу "включай и работай", отличаясь оптимальным соотношением глубины к ширине и расширенной длиной контекста в 4096 токенов. Несмотря на компактный размер в 250 миллионов параметров, NeoBERT достигает передовых результатов в тесте MTEB, превосходя более крупные модели, такие как BERT large и RoBERTa large. Исследование тщательно оценивает влияние каждой модификации на GLUE и предлагает унифицированную структуру тонкой настройки и оценки для MTEB. NeoBERT обучен на более чем 2 триллионах токенов, с акцентом на тщательное обучение для надежной генерализации и доступности без больших вычислительных ресурсов. Он сохраняет тот же скрытый размер, что и базовые модели, для бесшовного внедрения. Весь код, данные, контрольные точки и обучающие скрипты выпускаются в открытый доступ для стимулирования исследований и внедрения. #NeoBERT #BERT #НЛП #МоделиКодировщики #ЯзыковыеМодели #ПредварительноеОбучение #ТонкаяНастройка #ИИ #МашинноеОбучение #ОткрытыйИсходныйКод документ - https://arxiv.org/pdf/2502.19587 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
NeoBERT: BERT нового поколения Документ представляет NeoBERT, двунаправленный кодировщик нового поколения, разработанный для обновления моделей типа BERT, которые отстают от прогресса в больших авторегрессионных языковых моделях, несмотря на их важность в НЛП. NeoBERT объединяет передовые архитектурные инновации, современные данные и оптимизированные методологии предварительного обучения для устранения этого пробела. Он служит заменой существующим базовым моделям по принципу "включай и работай", отличаясь оптимальным соотношением глубины к ширине и расширенной длиной контекста в 4096 токенов. Несмотря на компактный размер в 250 миллионов параметров, NeoBERT достигает передовых результатов в тесте MTEB, превосходя более крупные модели, такие как BERT large и RoBERTa large. Исследование тщательно оценивает влияние каждой модификации на GLUE и предлагает унифицированную структуру тонкой настройки и оценки для MTEB. NeoBERT обучен на более чем 2 триллионах токенов, с акцентом на тщательное обучение для надежной генерализации и доступности без больших вычислительных ресурсов. Он сохраняет тот же скрытый размер, что и базовые модели, для бесшовного внедрения. Весь код, данные, контрольные точки и обучающие скрипты выпускаются в открытый доступ для стимулирования исследований и внедрения. #NeoBERT #BERT #НЛП #МоделиКодировщики #ЯзыковыеМодели #ПредварительноеОбучение #ТонкаяНастройка #ИИ #МашинноеОбучение #ОткрытыйИсходныйКод документ - https://arxiv.org/pdf/2502.19587 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
