CMU 연구 : Google의 Gemini는 Chatgpt에 미치지 못하고 Google에 대한 신호 작업
** Google Gemini vs. Chatgpt : 대형 언어 모델의 전투 **
Google의 최근 Gemini 릴리스는 다양한 작업에서 Openai의 Chatgpt와 경쟁하는 최초의 LLM (Lange Language Model)으로서 큰 관심을 끌었습니다. 보고서에 따르면 Gemini의 “Ultra”버전은 다양한 작업에서 GPT-4보다 성능이 우수한 반면 “Pro”버전은 GPT-3.5와 비교할 수 있습니다. CMU (Carnegie Mellon University)가 수행 한 새로운 연구는 이러한 저명한 언어 모델 사이의 지속적인 경쟁에 대해 밝히기 위해 Google Gemini의 언어 이해 및 세대 기능을 OpenAI의 GPT 시리즈와 비교합니다. 이 연구는 Google Gemini와 Chatgpt 사이의 성능 차이를 강조하는 흥미로운 결과를 보여줍니다.
**중요한 발견들:**
*** Gemini Pro와 GPT-3.5 터보와 일치합니다. ** 모델 크기 및 카테고리 측면에서 CMU의 연구는 Gmini Pro를 GPT 3.5 터보와 비슷한 것으로 배치합니다. Gemini Pro의 정확성은 일반적으로 GPT 3.5 터보의 정확도와 일치하지만 GPT 4 뒤에 큰 마진으로 약간 짧습니다. 특히, Gemini Pro의 평균 성능은 GPT 3.5 터보보다 약간 낮습니다. 특히 다중 선택 질문에 대한 답변 주문 편견, 다중 자리 수학적 추론, 에이전트 작업의 조기 종료 및 공격적인 컨텐츠 필터링으로 인한 답변 실패와 같은 영역에서. 그러나 Gemini는 영어가 아닌 언어를 생성하고 특히 길고 복잡한 추론 작업에서 더 길고 복잡한 추론 체인을 처리 할 때 이점을 보여줍니다. 또한 답변 필터링없이 Gemini는 다양한 언어를 활용하는 데 탁월합니다.
*** 중요한 대형 언어 모델 기능 : **이 연구는 큰 언어 모델의 몇 가지 중요한 기능을 탐구하여 다음과 같은 구체적인 결과를 보여줍니다.
*** 지식 그래프 질문 답변 : ** 모델의 질문 응답 능력 비교 Gemini Pro는 제공된 그래프에 표시된 것처럼 대부분의 작업에서 GPT 3.5를 저조합니다. 연구팀은 Gemini Pro가 GPT 3.5를 뒤처 지거나 능가하는 작업을 추가로 분석하여 Gemini Pro가 “Human_sexuality”(사회 과학), “Conmal_logic”(인문), “기본 _mathematics”(STEM) 및 “Professional_MateMaticin” 전문 도메인). 한편, Gemini Pro가 GPT 3.5 터보보다 성능이 우수한 두 가지 작업에서는 이점이 거의 없습니다.
*** 추론 능력 : ** 추론 작업에서 Gemini Pro의 전반적인 정확도는 약간의 트레일 GPT 3.5 터보 및 GPT 4 터보 아래로 떨어집니다. 그러나 Gemini Pro는 더 길고 복잡한 문제로 어려움을 겪고 있으며 GPT 모델은 그러한 도전을 처리하는 데 더 큰 견고성을 나타냅니다. 이 연구는 또한 GPT 3.5 Turbo의 성능이 Gemini Pro를 크게 능가하는 작업을 식별합니다.
*** 수학적 능력 : ** 전반적인 수학적 추론 결과에서 알 수 있듯이 다국어 프롬프트를 포함하는 GSM8K, SVAMP 및 ASDIV 작업에 대한 Gemini Pro의 정확도는 GPT 3.5 터보보다 약간 낮고 GPT 4 Turbo보다 훨씬 낮습니다. MAWPS 작업에서 모든 모델은 90% 이상의 정확도를 달성하지만 Gemini Pro는 여전히 GPT 모델보다 약간 뒤떨어져 있습니다.
*** 코드 생성 능력 : ** 코드 생성 측면에서 Gemini Pro는 영어 작업의 더 긴 입력 및 출력을 처리하는 데있어 강도를 보여줍니다. 분석에 따르면 Gemini Pro는 대부분의 경우 “Mock”, “Pandas”, “Numpy”및 “DateTime”과 같은 라이브러리와 관련된 대부분의 경우 GPT 3.5를 저조합니다. 그러나 “Matplotlib”과 관련된 작업에서 GPT 3.5 및 GPT 4를 능가하는데, 이는 코드 실행을 통해 데이터 시각화를 수행 할 때 Gemini의 향상된 기능을 나타냅니다.
*** 기계 번역 능력 : ** Gemini Pro는 GPT 3.5 Turbo 및 GPT 4 Turbo보다 8 개 언어로 번역 기능 측면에서 성능이 우수합니다. 이에 비해 Gemini Pro는 GPT 3.5 Turbo 및 GPT 4 Turbo에 대해 테스트 된 20 개 언어 중 8 개 언어에서 우수한 성능을 보여 주어 4 개 언어로 최상의 결과를 얻습니다. 그러나 Gemini Pro는 약 10 개의 언어 쌍에서 차단 된 응답에 대한 강한 경향을 보여줍니다.
CMU 연구는 Google Gemini의 기능에 대한 귀중한 통찰력을 제공하여 OpenAi의 ChatGpt에 비해 부족한 영역을 강조합니다. Gemini Pro는 특정 작업에 대한 숙련도를 보여 주지만 Chatgpt의 전반적인 성능에 맞는 문제에 직면 해 있습니다. 이번 연구 결과는보다 유능하고 다양한 AI 시스템을 개발하려는 추구가 계속됨에 따라 대형 언어 모델의 영역에 대한 지속적인 개선 및 추가 연구의 필요성을 강조합니다.