Google ընկերությունը պաշտոնապես ներկայացրել է Gemini Embedding 2-ը՝ իր առաջին լիարժեք մուլտիմոդալ մոդելը, որը հասանելի է դարձել Gemini API-ի և Vertex AI-ի միջոցով: Այս նոր համակարգը հնարավորություն է տալիս տեքստը, պատկերները, տեսանյութերն ու աուդիոն քարտեզագրել մեկ միասնական թվային տարածքում, ինչը հեղափոխական քայլ է տեղեկատվության մշակման ոլորտում:
Նախկինում արհեստական բանականության մոդելները տեքստային և տեսողական տվյալները մշակում էին տարբեր համակարգերով, ինչը բարդացնում էր տեղեկատվության որոնումը: Gemini Embedding 2-ը լուծում է այս խնդիրը՝ օգտագործելով մեկ միասնական «պահոց» բոլոր տեսակի տվյալների համար: Մոդելը կարող է մշակել մինչև 8192 տոկեն տեքստային տվյալներ, մինչև վեց պատկեր կամ 120 վայրկյան տևողությամբ տեսանյութ, ինչպես նաև աուդիո ֆայլեր՝ առանց դրանք տեքստի վերածելու անհրաժեշտության: Այս հնարավորությունները հատկապես արդյունավետ են դարձնում տվյալների կլաստերավորումը, տրամադրության վերլուծությունը և խորը որոնողական համակարգերի կառուցումը:
Մշակողների համար նախատեսված այս գործիքը ներառում է նաև Matryoshka Representation Learning տեխնոլոգիան, որը թույլ է տալիս օպտիմալացնել հիշողության օգտագործումը՝ ընտրելով ելքային չափերի տարբերակներ: Մոդելը աջակցում է ավելի քան 100 լեզուների և հեշտությամբ ինտեգրվում է հանրահայտ գործիքների հետ՝ ապահովելով ավելի ճշգրիտ և համատեքստային արդյունքներ, ինչը նոր ստանդարտ է սահմանում մուլտիմոդալ արհեստական բանականության համար:

