상세 컨텐츠

본문 제목

Self-Consistency prompt

카테고리 없음

by 달의 언어 2023. 4. 2. 09:00

본문

Self-Consistency prompt는 CoT(Chain of Thought)의 연장선으로, 하나의 답변이 아니라 여러 개의 사고 과정을 생성하고 그 중 다수결로 최종 답변을 결정하는 방식입니다.

<출처> Self-Consistency Improves Chain of Thought Reasoning in Language Models,

 

질문 그리디 디코드(Greedy Decode) 샘플 패스 1 샘플 패스 2
[상식 QA] 남자가 부드러운 이끼 위에 누워 나무를 올려다보고 있었다. 그 남자는 어디에 있었나요? (a) 나이아가라 폭포 (b) 숲 (c) 폭포 (d) 땅 (e) 나무 Greedy Decode: 답은 부드러운 이끼가 있는 곳이어야 합니다. 위의 선택지 중 땅만이 부드러운 이끼가 있는 곳입니다. 따라서 답은 (d)입니다. 이끼가 자라는 곳이어야 합니다. Sampled Path 1 위의 선택지 중에서는 숲만이 이끼가 자라는 곳입니다. 따라서 답은 (b)입니다. Sampled Path 2 남자가 누워 나무를 올려다보는 곳이어야 합니다. 위의 선택지 중에서는 사람들이 누워 나무를 올려다보는 곳은 숲뿐입니다. 따라서 답은 (b)입니다.
[전략 QA] Albany, Georgia가 미국에서 가장 인구가 많은 Albany인가요? Greedy Decode: Albany, Georgia가 미국에서 가장 인구가 많은 Albany입니다. 따라서 답은 예입니다. Sampled Path 1: 미국에서 가장 인구가 많은 Albany는 뉴욕주의 Albany입니다. 따라서 Albany, Georgia가 미국에서 가장 인구가 많은 Albany가 아닙니다. 따라서 답은 아니오입니다. Sampled Path 2: Albany, Georgia의 인구는 약 88,000명입니다. Albany, New York의 인구는 약 95,000명입니다. 따라서 Albany, Georgia가 미국에서 가장 인구가 많은 Albany가 아닙니다. 따라서 답은 아니오입니다.
       
[전략 QA] Albany, Georgia가 미국에서 가장 인구가 많은 Albany인가요? Greedy Decode: 나무 심는 것은 서식지를 해치지 않습니다. 따라서 답은 (a)입니다. Sampled Path 1:수질 오염인 (b)가 가장 확실하게 서식지를 해치게 만듭니다. 다른 선택지는 서식지를 해칠 가능성이 적습니다. Sampled Path 2: 따라서 답은 (b)입니다. 나무는 서식지에 좋으며, 강우는 서식지에서 필요합니다. 또한 햇볕 역시 서식지에서 필요합니다. 따라서 답은 (b)입니다.

Self-Consistency prompt는 복잡한 추론 작업에 효과적인 결과를 보여줍니다. 또한 잘못된 프롬프트에 대한 언어 모델의 강건성도 향상시킬 수 있습니다.

예시1: 수학 문제를 풀 때: "주차장에 이미 3대의 차가 있습니다. 그리고 또 2대가 들어옵니다. 이제 차는 총 몇 대가 있나요?"

예시2: 지리 문제를 풀 때: "프랑스의 수도는 무엇인가요? 파리. 독일의 수도는 무엇인가요? 베를린. 이탈리아의 수도는 무엇인가요?"

예시3: 물리 문제를 풀 때: "공이 초기 속도 20m/s로 위로 던져졌습니다. 2초 후에 속도는 얼마인가요? v = u - gt = 20 - 9.8 * 2 = 0.4 m/s."

이러한 예시들은 모두 Few-Shot-CoT 패러다임을 사용하여 작성된 프롬프트입니다. 이것을 사용하여 여러 개의 사고 과정을 생성하고 그 중 가장 일관성 있는 답변을 선택할 수 있습니다

Self-Consistency prompt는 다음과 같이 작동합니다.

  • 첫째, 프롬프트를 작성합니다. 프롬프트는 Few-Shot-CoT 패러다임을 사용하여 복잡한 추론 작업을 단순화하고 사고 과정을 가이드합니다.
  • 둘째, prompt를 사용하여 여러 개의 사고 과정을 생성합니다. 각 사고 과정은 독립적으로 생성되며 다양한 답변을 도출할 수 있습니다.
  • 셋째, 각 사고 과정에서 답변을 추출합니다. 답변은 사고 과정의 마지막 부분에 위치하거나 특수한 토큰으로 구분됩니다.
  • 넷째, 가장 일관성 있는 답변을 선택합니다. 일관성은 다수결로 결정되거나 다른 기준으로 측정될 수 있습니다.

Self-Consistency Prompt는 다른 방법들과의 차이점과 장단점은 다음과 같습니다.

Self-Consistency Prompt는 단순히 탐욕적인 하나의 추론 경로를 사용하는 대신, 다양한 추론 경로를 샘플링하고 그 중에서 가장 일관성 있는 것을 선택합니다. 언어 모델이 더 정확하고 강인한 답변을 생성할 수 있도록 돕는다는 장점이 있습니다. 실험 결과에 따르면, Self-Consistency Prompt는 Chain-of-Thought Prompting보다 평균 3.8% 높은 정확도를 보였습니다. 단점은 추가적인 샘플링과 선택 과정이 필요하므로 시간과 자원이 더 많이 소모된다는 것입니다.

 

Midjourney, prompt: Cherry blossom

댓글 영역