Press Release

노타, 이기종 컴퓨팅 기반 LLM 최적화로 AI 에이전트용 PC 효율 높인다

June 4, 2026

노타, 이기종 컴퓨팅 기반 LLM 최적화로 AI 에이전트용 PC 효율 높인다
▶ AI PC 성능 경쟁, 칩단위에서 GPU·NPU 등 시스템 전체 활용 역량으로 확대… 이기종컴퓨팅 중요성 부각
▶ 노타, AI 최적화기술로 LLM 연산을 GPU·NPU에 분산 배치해 AI PC 추론 효율 개선
▶ 단일 GPU 대비토큰당 에너지 소비 32%·생성 처리량 12% 개선, 단일 NPU 대비 첫 응답 지연89% 감소
▶ 엔비디아 등 글로벌 AIPC 확산 흐름 속 AI PC 최적화 역량 입증  

 

AI 경량화 및 최적화 기술 기업 노타(대표 채명수)가 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅(heterogeneous computing) 기반 LLM(LargeLanguage Model) 추론 최적화 기술을 구현했다고 밝혔다.

이기종 컴퓨팅은 서로 다른 장점을 가진 프로세서를 함께 활용하는 방식이다. 하나의프로세서에 모든 일을 맡기는 대신 CPU, GPU, NPU처럼 역할이 다른 장치가 각자 잘하는 일을나눠 맡도록 설계하는 것이 핵심이다. AI PC의 실제 성능은 고성능 프로세서 하나의 사양이 아니라, 기기 안에 있는 여러 연산 장치를 시스템 전체 관점에서 얼마나 효율적으로 조합하느냐에 따라 달라진다.

노타는 인텔 루나 레이크(Intel Lunar Lake) 기반 AI PC에서 LLM 실행 과정을 입력 처리 단계와 답변 생성 단계로나눠 분석하고, 각 단계에 적합한 연산 장치를 배치하는 분리형 추론(DisaggregatedInference) 방식을 적용했다. 이에 따라 입력 처리 연산은 GPU에서, 답변 생성 연산은NPU에서 실행되도록 구성했다.

노타는 성능 평가에서 분리형 추론 방식을 적용한 결과, 단일 GPU 실행 방식 대비 토큰당 에너지 소비를 약 32% 줄이고 생성처리량을 약 12% 높였으며, 단일 NPU 실행 방식 대비 첫 응답 지연시간을 약 89% 단축했다. 

이번 성과의 핵심은 GPU와 NPU를단순히 함께 사용한 것이 아니라, AI 모델의 작업 특성을 분석해 각 연산을 가장 적합한 장치에 배치했다는점이다. 이는 같은 AI PC에서도 하드웨어를 어떻게 활용하느냐에따라 실제 사용자 경험이 달라질 수 있음을 보여준다.

글로벌 AI 업계에서도 이기종 컴퓨팅 흐름이 확대되고 있다. 최근 대만에서 열린 컴퓨텍스 2026에서도 인텔, 엔비디아 등 주요 기업이 CPU·GPU·NPU를 결합한 AI PC를 잇따라 선보였다. 데이터센터에서도 엔비디아와 아마존웹서비스(AWS) 등이 AI 연산을 단계별로 나눠 서로 다른 장치에 맡기는분리형 추론 방식을 도입하고 있다. 

노타가 AI PC에서 구현한 분리형 추론 방식은 이러한 산업 흐름과결을 같이한다. 노타는 모델 경량화뿐 아니라 AI 실행 과정과하드웨어 활용 방식까지 최적화함으로써, 칩 하나의 성능이 아닌 시스템 전체의 활용 방식을 최적화하는기술 역량을 입증했다. 이는 제한된 전력과 연산 자원 안에서 AI를효율적으로 실행해야 하는 AI PC 환경에서 온디바이스 AI 사용자경험을 좌우하는 핵심 기술로 평가된다. 

노타 채명수 대표는 “AI PC 시대에는 AI 모델을 기기 안에 올리는 것만으로는 충분하지 않으며 GPU, NPU 등다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다”며, “노타는 모델 경량화, 런타임최적화, 하드웨어 최적화 기술을 결합해 AI PC 시대의온디바이스 AI 실행 효율을 높여 나가겠다”고 밝혔다.

 ※ 본성능 평가는 Intel Lunar Lake 기반 AI PC, MoELLM, context window size 512 조건에서 진행됐으며, 실제 성능은 모델, 입력 길이, 시스템 구성, 메모리조건 등에 따라 달라질 수 있다.

Related