groq, 세상에서 가장 빠른 LLM - 18배나 빠르면 얼마나 빠를까?

AI 인사이트/최신 AI 기술 리뷰

groq, 세상에서 가장 빠른 LLM - 18배나 빠르면 얼마나 빠를까?

AI동키 2024. 2. 22. 15:08

대화형 AI 챗봇의 반응 속도를 획기적으로 개선한 groq을 소개합니다.

Groq의 언어 처리 유닛(LPU) 추론 엔진이 최근 공개 벤치마크에서 모든 경쟁자를 제치고 가장 빠른 속도를 기록했습니다. 이 기술의 등장으로 대규모 언어 모델(LLM)의 처리 속도가 대폭 향상될 전망입니다.

Summary

속도 개선: Groq의 LPU 추론 엔진은 대규모 언어 모델의 처리 속도를 혁신적으로 향상, 텍스트 생성 시간을 대폭 단축
독보적 성능: 독립 테스트에서 응답 시간, 처리량, 지연 시간 등 여러 면에서 경쟁사를 압도하는 최고의 성능을 입증.
테크놀로지 리더십: Groq CEO Jonathan Ross는 이 기술이 AI 커뮤니티 내에서 모두가 번영할 수 있도록 도와주며, 개발자의 아이디어를 비즈니스 솔루션과 삶을 변화시키는 애플리케이션으로 전환하는 데 필수적이라고 강조

Groq

캘리포니아에 본사를 둔 생성적 AI 회사 Groq는 대규모 언어 모델(LLM)과 같은 집약적인 컴퓨팅 응용 프로그램의 처리 속도를 증가시키기 위해 새로운 유형의 칩을 개발했습니다. 이 칩은 계산 밀도와 메모리 대역폭 문제를 해결하고, 단어 당 계산 시간을 줄여 텍스트 시퀀스를 훨씬 더 빠르게 생성할 수 있게 합니다.

Groq의 LPU 추론 엔진은 사용자에게 질문에 대한 답변을 제공하고, 가능한 한 많은 토큰(또는 단어)을 초고속으로 제공하는 회사의 추론 엔진의 핵심 부분입니다.

지난해 말, 내부 테스트에서 Meta AI의 Llama-2 (70B) LLM을 사용하여 초당 300토큰 이상을 달성하며 새로운 성능 기준을 설정했습니다. 2024년 1월, 회사는 첫 공개 벤치마킹에 참여해 모든 다른 클라우드 기반 추론 제공 업체들을 성능 면에서 압도했습니다.

ArtificialAnalysis.ai는 Groq와 그의 Llama 2 Chat (70B) API가 초당 241 토큰의 처리량을 달성했다고 독립적으로 벤치마킹했습니다. 이는 다른 호스팅 제공 업체의 속도보다 두 배 이상 빠른 것입니다. Groq의 LPU 추론 엔진은 총 응답 시간, 시간에 따른 처리량, 처리량 변동성, 지연 시간 대비 처리량 등 여러 면에서 최고의 성능을 나타냈습니다.