상세 컨텐츠

본문 제목

Google Bard 가 ChatGPT 4보다 나은 점 한가지

Keep Up WIth AI Revolution

by 달의 언어 2023. 5. 20. 22:49

본문

목차

 

최근에 여러 사용자들에 의해 Google Bard와 ChatGPT 4를 성능비교 평가하는 글을 접하면서, 과연 Google Bard가 모든 부문에서 ChatGPT보다 못한가 의문이 생겼습니다. 하나의 대규모 언어 모델(LLM)이 다른 언어 모델보다 우수하다고 간주할 때 기준은 무엇인가 생각해볼 필요가 있습니다. 

먼저 Bard에게 같은 LLM을 비교할 때, 기준(criteria)가 무엇이어야 하냐고 물어보았습니다. 

바드는 ChatGPT와는 다르게 "View other drafts" 탭을 통해서 3가지 버전의 응답을 받을 수 있습니다. 

Google Bard

Bard가 꼽은 기준은 다음과 같습니다. 

1. 학습 데이터 세트의 크기
2. 아키텍처(Architecture) 
3. 학습 방법론 
4. 평가 지표 
5. 정확성(Accuracy) 
6. 견고성(Robustness) 
7. 효율성 (Efficiency) 
8. 확장성 (Scalability) 
9. 공정성 (Fairness)

다음은 ChatGPT4의 응답을 받아보도록 하겠습니다. 

ChatGPT 4

ChatGPT 4의 플러그인 Web Browsing 기능을 통해 응답을 하는 것을 확인하실 수 있습니다. 

2021년까지의 데이터로 학습되었기 때문에 지피티에게 Google Bard는 존재하지 않는 가상의 대상이라는 메시지가 나옵니다. ChatGPT4의 장점은 여기에서 발휘됩니다. 가상이지만 Google Bard가 존재한다는 가정하에 기준을 제시합니다. 

1. 언어 이해 및 생성
2. 응답 정확도
3. 문맥 이해
4. 안전 및 공정성
5. 사용자 지정 및 제어 가능성
6. 효율성

데이터셋의 크기를 정확하게 알 수 없고, 내부 알고리즘을 들여다 볼 수 없으므로, 사용자 입장에서 같은 질문에 대한 결과값을 비교하고 평가하는 방법을 사용해야 할 것입니다.  한 가지만 실험해보도록 하겠습니다. 최신 정보에 대한 접근성과 정확성을 비교해 보는 실험입니다. 

이 실험은 당연히 Google Bard에게 유리해 보입니다. 최근 자료까지 학습하였기 때문이죠. 반면에 ChatGPT는 플러그인으로 이를 보완할 수 있을지가 궁금한 지점입니다. 

<접근성 실험>

공공데이터에 대한 접근성을 평가해보기 위해 한국통계정보원(KOSIS) 자료에 접근할 수 있는지 물어보았습니다. ChatGPT는 접근할 수 없다고 대답하였습니다.

ChatGPT 4

반면에, Bard에게 물어보니, 접근할 수 있다고 대답합니다. 

Google Bard

KOSIS API를 사용하면 인구, 경제, 환경 등 다양한 주제에 대한 통계 데이터를 검색하고 가져올 수 있을 뿐만 아니라 KOSIS API를 사용하여 통계 데이터의 시각화를 만들 수도 있다고 대답합니다. 하지만, 아직 그래프 자체를 보여주는 기능은 업데이트가 되지 않았습니다. 

Google Bard

반면에, ChatGPT 4의 플러그인을 Wolfram을 이용하면 어떨까요?

ChatGPT 플러그인 Wolfram

ChatGPT 4 자체는 2021년까지의 학습데이터으로 학습이 이루어진 이유 때문에 가질 수 밖에 없는 한계를 플러그인을 통해 극복하고 있습니다. 

Google Bard 통계자료 접근

반면에 Google Bard은 최신 통계자료에 직접 접근할 수 있었습니다.  한국의 1950년 부터 현재까지 조출생(인구 1천 명당 새로 태어난 아이의 비율)률 통계 테이터를 가져와서 보여주고 있습니다. 

정확성을 평가하기 위해서 한국의 조출생률 데이터를 찾아보았습니다. 

연합뉴스 인용

통계수치와 안맞는 부분도 있고 구간별로 비슷한 부분도 있는 것으로 보입니다만, 정확하게 확인하기 위해서는 통계에 대한 공부가 더 필요할 것 같네요. 아니면, 혹시 구글 바드의 할루시네이션을 현상을 또 보고 있는 걸까요? 그렇다면 큰 문제일 수 있겠습니다. 

그럼에도 불구하고, 구글 바드와 ChatGPT4 자체 만을 비교했을 때는 접근성 측면에서 Bard에게 더 높은 점수를 줄 수 밖에 없는 것 같습니다. 같은 기준으로 평가하기 위해선 구글 바드에게 Wolfram과 같은 플러그인을 연결하여 평가해야 하기 때문입니다. 

잠깐 관련이 없을 수 있지만 통계관련 자료를 찾다가 심각한 시각화 통계자료 하나를 소개드립니다. 

 

 

정말 대한민국의 미래가 걱정이 되는 군요. 초고령화 사회가 얼마 남지 않았습니다. 

 

 

 

 

관련글 더보기

댓글 영역