ویژگی نمای کلی هوش مصنوعی گوگل علیرغم دقت کلی بالای خود می تواند تعداد قابل توجهی پاسخ نادرست ایجاد کند. روزنامه نگاران نیویورک تایمز پس از آزمایش مشترک با استارتاپ Oumi به این نتیجه رسیدند.

این ابزار با استفاده از هوش مصنوعی Gemini، دقت 90٪ را نشان می دهد. علاوه بر این، حتی یک میزان خطای نسبتاً کوچک، با توجه به حجم ترافیک جستجو، میتواند به دهها میلیون پاسخ نادرست در روز تبدیل شود.
برای ارزیابی کیفیت “حالت هوش مصنوعی”، از معیار SimpleQA از OpenAI استفاده شد که شامل بیش از 4 هزار سوال با پاسخ های قابل تایید و همچنین ابزارهای تحلیل خود Oumi است. طبق آزمایشات انجام شده، هنگام استفاده از مدل Gemini 2.5، دقت به حدود 85 درصد رسید، در حالی که پس از تغییر به مدل Gemini 3، این عدد به 91 درصد افزایش یافت.
تحقیقات مواردی از تجمیع اطلاعات نادرست از منابع را نشان می دهد. در یک مثال، این سیستم به اشتباه تاریخ تبدیل خانه باب مارلی را به موزه، علیرغم داده های دقیق در منابع اولیه، تعیین کرد که نشان دهنده مشکلاتی در تفسیر و انتخاب رویداد است.
گوگل نتایج تحقیق را به چالش می کشد. ند آدریانس، سخنگوی شرکت گفت که معیار SimpleQA مورد استفاده ممکن است حاوی خطا باشد و موقعیتهای واقعی کاربر را منعکس نکند. او میگوید یک معیار مرتبطتر، تست تایید شده SimpleQA است که دارای مجموعه سوالات کوچکتر اما با دقت بررسی شده است. علاوه بر این، این شرکت معتقد است که روش تحقیق، ویژگیهای جستجوی واقعی را در نظر نمیگیرد.

