본문 바로가기
AI 인사이트/최신 AI 트렌드 리뷰

에이전트화된 LLM, 인공지능 얼라인먼트(Alignment)의 미래를 바꾼다

by AI 동키 2023. 4. 11.
반응형

안녕하세요, 오늘은 해외 블로그에서 발견한 흥미로운 글에 대해 소개하려고 합니다. 에이전트화된 LLM(언어 모델)들이 인공지능 정렬(alignment) 분야의 전망을 어떻게 바꿀지에 대한 주장입니다. 이 주제에 대해 궁금해하는 분들도 있을 것 같아 한글로 번역하여 소개하려 합니다.

그 전에 인공지능 정렬, 인공지능 얼라인먼트의 의미를 정의해보고 넘어갑시다. 쉽게 말하면, AI가 발전해서 AGI가 되었을 때, 인간을 해치려 하지 않는 안전한 AI를 만들기 위함입니다. AI 정렬은 AI 안전 카테고리의 하위항목에 속하죠. 위키백과의 정의에 따르면 AI의 목적함수가 인류의 가치와 일치하도록 하는, AI와 인간의 <동상동몽>에 대한 연구가 AI alignment라고 이해할 수 있습니다. 

이 글에서는 에이전트화된 LLM들이 인공지능 정렬 분야를 어떻게 바꿀 것인지에 대해 다음과 같은 10가지 이유를 제시합니다. 



인식 현황: 머릿속이 빙빙 돌고, 갑자기 모든 것이 정렬되어 있는지 확실치 않습니다. 그리고 이러한 예측에 대한 확신도 없습니다.

저는 이 문제를 빨리 알아내기 위해 10가지 이유를 나열하는 것이 성공적인 전략이 될 수 있는 10가지 이유에 대한 제안을 따르고 있습니다(10번째 이유를 읽으면 깜짝 놀랄 것입니다!). 이 기법이 도입된 지 얼마 되지 않은 시점에서 이 주제에 대한 최종적인 글을 작성하기보다는 몇 가지 토론을 유도하고자 합니다.

에이전트화된 LLM이 얼라인먼트 환경을 바꿀 10가지 이유:

1. 에이전트화 된 Auto-GPT 및 Baby AGI와 같은 LLM은 GPT-4에서 AGI의 불씨를 지필 수 있습니다.   이러한 기술은 작업 목표를 하위 작업으로 나누고, 해당 하위 작업에서 작업(다른 소프트웨어 호출 포함)을 수행하며, LLM을 사용하여 하위 작업의 우선순위를 정하고 적절한 완료 시점을 결정하는 재귀 루프 내에서 LLM을 중앙 인지 엔진으로 사용합니다. 그리고 최상위 목표에 진전이 있는지 재귀적으로 확인합니다.

2. 이러한 시스템이 실제로 어떤 성과를 거둘 수 있을지는 아직 지켜봐야 하지만, 핵심 LLM의 효과적인 인텔리전스를 획기적으로 향상시킬 가능성이 매우 높다고 생각합니다.   저는 이러한 유형의 재귀성과 문제를 별도의 인지 작업으로 나누는 것이 인간 지능의 핵심이라고 생각합니다. 이 기술은 두뇌와 유사하지 않은 구현을 사용함에도 불구하고 실행 기능, 반성적, 재귀적 사고, 작업에 대한 에피소드 기억 등 인간 인지의 몇 가지 핵심적인 측면을 추가합니다. 공정하게 말하자면, 기존의 구현은 꽤 제한적이고 오류가 발생하기 쉬운 것처럼 보입니다. 하지만 그것들은 며칠 만에 구현되었습니다. 따라서 이것은 놀라운 새로운 기능에 대한 보고서가 아니라 가까운 미래의 진전을 예측한 것입니다.

3. 이 접근 방식은 생각보다 쉬운 것 같습니다. 인간 사고의 장점을 모방한 이런 유형의 자동 프롬프트는 기대했지만, GPT-4의 인지 능력으로 유용한 다단계 사고와 계획을 이렇게 쉽게 수행할 수 있을지는 예상하지 못했습니다. 초기 구현이 쉽다는 점(3일 정도면 모든 코드가 아기 AGI를 위해 GPT-4로 작성됨)은 개선도 생각보다 쉬울 수 있다는 것을 의미합니다.

4. HuggingGPT 및 유사한 접근 방식과의 통합을 통해 이러한 인지 루프에 더 많은 인지 용량을 제공할 수 있습니다. GPT-4는 다른 소프트웨어 도구를 사용하는 방법을 소수의 예제(예: 40개)를 통해 학습하기 때문에 이러한 통합도 생각보다 쉬웠습니다. 이러한 도구에는 시각 모델 및 다양한 유형의 기타 감각 모델과 다양한 출력 기능에 상응하는 감각 기능이 모두 포함됩니다.

5. '리플렉션'과 같은 재귀적 LLM 자가 개선 기능을 통합하면 이러한 인지 루프를 활용하여 핵심 모델이 다양한 작업에서 더 나은 성능을 발휘하도록 만들 수 있습니다.

6. 쉽게 에이전트화할 수 있는 LLM은 기능 측면에서 매우 반가운 소식입니다. 1년 안에 인터넷에 '생각하는' LLM 봇이 가득 차서 작업을 수행하게 될 것입니다.

7. 이는 조정 및 조정 문제의 시급성을 고려할 때 정말 소름 끼치는 일입니다. 인류를 파괴하고 혼돈을 일으킨다는 목표를 가진 어떤 영리한 얼간이는 이미 Auto-GPT의 인스턴스인 ChaosGPT를 만들었습니다. 여러분은 말 그대로 여러분을 어떻게 죽일지 생각하는 무언가의 생각을 읽고 있는 것입니다. 너무 멍청해서 멀리 나아가지 못했지만, LLM이 개선될 때마다, 그리고 재귀적 자체 프롬프트 래퍼 프로그램이 개선될 때마다 더 똑똑해질 것입니다. 이를 통해 AGI가 우리를 파괴할지도 모른다는 본능적인 두려움을 처음으로 느꼈습니다. 이미 본능적으로 겁을 많이 먹은 사람이 아니라면 추천합니다.

8. 에이전트의 생각을 지켜보면 여론이 바뀔 것입니다. 우리는 더 많은 AI 공포와 대중의 믿음 변화에 대비해야 합니다. 정치권에서 이 문제가 어떻게 전개될지는 모르겠지만, 다음과 같은 이유로 성공적인 조율을 위해 이 문제를 파악해야 합니다.

9. 우리는 다자간 AGI 세계에 살게 될 것입니다. 누구나 멍청한 AGI를 만들어 소셜 미디어를 관리하거나 인류를 파괴하려고 시도할 수 있습니다. 그리고 수년에 걸쳐 상업적으로 이용 가능한 AGI는 점점 더 똑똑해질 것입니다. 방어는 공격보다 어렵기 때문에 통제 불능의 AGI로부터 세상을 무한정 방어하는 것은 불가능할 것입니다. 하지만

10. 정렬과 해석 가능성의 중요한 부분은 우리 대부분이 생각했던 것보다 훨씬 쉬울 수 있습니다. 이 에이전트들은 영어로 된 목표를 입력으로 받습니다. 인간과 마찬가지로 목표에 대해 추론하며, 이는 모델 개선을 통해 개선될 가능성이 높습니다. 기존의 한 가지 제안은 "고통 감소"라는 최상위 목표를 포함시키는 것이지만, 이는 외적 정렬 문제를 해결하지 못합니다. 안 돼요! No! 안 돼! 이 또한 정렬 안정성 문제를 해결하지 못합니다. 시작 목표가 잘못 해석되거나 재귀적인 하위 목표에 묻힐 수 있으며, 어떤 유형의 지속적인 학습이 포함될 경우 시간이 지남에 따라 행동이 바뀔 수 있습니다. 재귀적 학습 방법이 LLM에서 메사 최적화자를 생성하면 내부 정렬 문제도 해결되지 않습니다. 하지만 이러한 시스템은 영어로 생각하기 때문에 해석이 매우 쉽습니다.

만약 제가 이 문제의 합리적인 하위 집합에 대해 옳다면, 우리는 정렬 문제에 대한 무섭고 유망한 새로운 환경에 처하게 됩니다. 우리는 좋은 봇과 나쁜 봇을 보게 될 것이고, 힘의 균형이 바뀔 것입니다. 궁극적으로는 모든 암호화를 깨는 등 매우 강력한 글로벌 모니터링을 통해 적대적인 AGI 행동을 방지해야 할 필요성이 있다고 생각합니다. 여러 가지 이슈가 어지럽습니다(저는 개인적으로 어지럽고 두려움과 흥분으로 인해 잠이 조금 부족합니다). 다른 분들의 의견을 듣고 싶습니다.

 

여러분의 생각은 어떤가요?

 

출처 : https://www.lesswrong.com/posts/dcoxvEhAfYcov2LA6/agentized-llms-will-change-the-alignment-landscape

 

Agentized LLMs will change the alignment landscape - LessWrong

I'm following the suggestions in 10 reasons why lists of 10 reasons might be a winning strategy in order to get this out quickly (reason 10 will blow your mind!). I'm hoping to prompt some discussion…

www.lesswrong.com

 

반응형

댓글