Meituan пуска LongCat-Flash-Thinking-2601, поставяйки нов стандарт за AI с отворен код, извикващ инструменти

Meituan пуска LongCat-Flash-Thinking-2601, поставяйки нов стандарт за AI с отворен код, извикващ инструменти

Днес екипът на LongCat на Meituan официално пусна и отвори своя най-нов модел AI, LongCat-Flash-Thinking-2601. Като подобрена версия на серията LongCat-Flash-Thinking, моделът е постигнал най-съвременна (SOTA) производителност сред моделите с отворен код в ключови бенчмаркове, включително търсене на агенти, извикване на инструменти и разсъждения.

Основната сила на модела се крие в неговата изключителна способност за извикване на инструменти, което му позволява да превъзхожда сложни задачи, зависими от инструмента, като същевременно значително намалява разходите за обучение, необходими за адаптиране към нови инструменти в реални приложения.

В допълнение, LongCat-Flash-Thinking-2601 въвежда своя “Deep Thinking Mode” като безплатно онлайн изживяване с отворен код за първи път, достъпно на https://longcat.ai. В този режим моделът симулира човешко обмисляне, като разделя разсъжденията на паралелно изследване и окончателен синтез, осигурявайки по-всеобхватно мислене и по-надеждно вземане на решения.

Строгите оценки показват силна производителност при програмиране, математически разсъждения, използване на агентски инструменти и задачи за търсене. В програмирането моделът отбеляза 82,8 на LCB бенчмарка, нареждайки се сред най-добрите в своята категория. В математическите разсъждения той постигна перфектен резултат от 100 на бенчмарка AIME-25, като допълнително затвърди лидерството си в тази област.

IMG_4798.jpeg

За да оцени генерализацията, екипът на LongCat предложи нова рамка за оценка, базирана на автоматизиран тръбопровод за синтез на задачи, позволяващ на потребителите да генерират сложни задачи произволно, като използват ключови думи и да оценяват ефективността на модела в различни среди. Резултатите показват, че LongCat-Flash-Thinking-2601 последователно води в множество произволно генерирани задачи, демонстрирайки силна способност за обобщение.

По време на обучението екипът прие стратегия за „разширяване на средата + обучение за укрепване на множество среди“, излагайки модела на разнообразни сценарии с висок интензитет, за да подобри адаптивността в сложни настройки. Екипът също така приложи инжектиране на шум към данните за обучение, за да подобри устойчивостта, позволявайки надеждна производителност дори при условия като повреди на API или липсващи данни.

За да намали бариерата за разработчиците, Meituan отвори теглата на модела, кода за изводи и онлайн демонстрацията, насърчавайки по-широко участие на общността. Разработчиците могат да получат достъп до ресурси чрез GitHub, Hugging Face и ModelScope и да изпробват модела онлайн на https://longcat.ai.

Източник: AIbase

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Scroll to Top