კვირა დღეს, Sina Weibo-ს — ჩინური სოციალური მედიის გიგანტის, რომელიც უფრო მეტად ცნობილია მისი მიკრობლოგინგის პლატფორმით, ვიდრე სიღრმისეული ხელოვნური ინტელექტით — ცხრა მკვლევარისგან შემდგარმა გუნდმა arXiv-ზე გამოაქვეყნა 14-გვერდიანი ტექნიკური ანგარიში, რომელმაც შოკი გამოიწვია ხელოვნური ინტელექტის კვლევით საზოგადოებაში. მათი მტკიცება შემდეგია: სულ 3 მილიარდი პარამეტრის მქონე ენობრივ მოდელს შეუძლია გაუტოლდეს ან გადააჭარბოს Google DeepMind-ის, OpenAI-ის, Anthropic-ისა და DeepSeek-ის წამყვანი სისტემების მსჯელობის შესაძლებლობებს, რომლებიც ასობით ჯერ უფრო დიდია.
VibeThinker-3B სახელწოდების მოდელმა AIME 2026-ზე — ამერიკის მოწვეული მათემატიკის გამოცდაზე — 94.3 ქულა დააგროვა, რაც განსაკუთრებით შთამბეჭდავი შედეგია ასეთი მცირე ზომის მოდელისთვის. ეს მიღწევა სპეციალისტებს შორის ცხარე დისკუსიას იწვევს: ნამდვილად შეიძლება თუ არა პატარა, ეფექტური მოდელი ასე მნიშვნელოვნად გადააჭარბოს გაცილებით დიდ სისტემებს, თუ საქმე ბენჩმარქების მანიპულაციას ეხება.
ეს სიახლე კიდევ ერთხელ ანთებს კამათს ხელოვნური ინტელექტის შეფასების სტანდარტებზე. მრავალი ექსპერტი მიუთითებს, რომ ბენჩმარქები შეიძლება მოდელის რეალური შესაძლებლობების ამსახველი არ იყოს, განსაკუთრებით მაშინ, როდესაც მცირე კომპანიები წარმოუდგენელ შედეგებს აცხადებენ. Weibo-ს გამოქვეყნება კი კიდევ ერთხელ ახსენებს ინდუსტრიას, რომ ხელოვნური ინტელექტის კვლევაში გამჭვირვალობა და შეფასების სანდო მეთოდები უმნიშვნელოვანეს საკითხად რჩება.
Photo: Timothy Dykes / Unsplash