오픈 이슈 갤러리 같이 보고 싶은 유머 글이나 이미지를 올려보세요!
URL 입력
-
계층
무한도전 타인의 삶 편에 나왔던 예진이 근황
[19]
-
유머
9살에 실종된 소녀가 6년 만에 친가족을 찾은 사연 ㄷㄷ.jpg
[11]
-
유머
이란전쟁 2줄요약
[15]
-
게임
[1인 개발] 요술사 키우기 방치형 RPG 출시했습니다!
[10]
-
유머
편의점 리얼 관자
[17]
-
계층
ㅇㅎ) 권은비 워터밤 의상 따라해본 서터리머.
[34]
-
유머
감옥에서 법 공부해 검사 자살시킨 남자
[21]
-
감동
2000원어치 소불고기를 판 정육점 아저씨.jpg
[20]
-
계층
실무에서 자주 사용하는 엑셀 함수 40개
[85]
-
계층
은혜 갚은 중동 노동자 썰
[16]
이미지 업로드중입니다
(1/5)
URL 입력
ㅇㅇㄱ 지금 뜨는 글
- 계층 대만 코스어의 비밀.jpg [8]
- 계층 혼자 여행 즐기는 여자를 피해라. [24]
- 기타 한국에서 상 받은 누나 [13]
- 이슈 김흥국은 대체 국힘에서 뭐 한것임? [24]
- 기타 남편이랑 맞짱토론 중인데 판결 좀 내려줘 [47]
- 유머 일본에서 거주하다 느낀 점 [25]
|
2026-03-26 09:19
조회: 1,186
추천: 0
구글의 TurboQuant 알고리즘, 메모리 관련주 급락초래![]() 이 압축 기술은 정확도 손실 없이 AI 메모리 사용량을 6배 줄여, 향후 스토리지 수요에 대한 우려를 촉발했습니다. • 구글 [Alphabet Inc. +0.17%]이 TurboQuant를 공개했습니다. 이는 학습 없이 LLM 키-밸류 캐시를 3비트로 압축하며 엔비디아 [NVIDIA Corporation +1.99%] H100 GPU에서 최대 8배의 속도 향상을 제공하는 알고리즘입니다. • 나스닥 100이 상승하는 가운데 샌디스크 [SanDisk Corporation -3.50%], 마이크론 [Micron Technology, Inc. -3.40%], 웨스턴 디지털 [Western Digital Corporation -1.63%], 시게이트 주가는 수요일 하락했습니다. • 모건 스탠리는 장기적인 하드웨어 영향이 “중립에서 약간 긍정적”이라고 평가하며, 이 기술은 추론에만 적용되고 AI 도입을 확대할 수 있다고 밝혔습니다. https://www.tomshardware.com/tech-industry/artificial-intelligence/googles-turboquant-compresses-llm-kv-caches-to-3-bits-with-no-accuracy-loss 재학습이나 파인튜닝 없이 H100 GPU에서 최대 8배 빠른 어텐션 연산을 제공하는 학습 불필요 압축 알고리즘입니다. • Google Research는 정확도 손실 없이 LLM 키-값 캐시를 약 3비트로 압축하는 2단계 알고리즘 TurboQuant를 공개했습니다. • 이 방법은 기하학적 압축을 위한 PolarQuant와 1비트 보정 레이어를 결합하여, 재학습이 필요 없고 기존 모델 아래에 바로 적용 가능한 레이어로 작동합니다. • Nvidia H100 GPU에서 수행한 테스트에서 4비트 TurboQuant는 최대 8배 빠른 어텐션 스코어링을 보여주었으며, 논문은 ICLR 2026에서 발표될 예정입니다. 왜 KV 캐시가 핵심인가 LLM이 긴 문맥(context)을 처리할 때 KV 캐시는 토큰 생성 단계마다 이전 어텐션 데이터를 재계산하지 않도록 GPU 메모리에 저장해두는 구조입니다. 컨텍스트 윈도우가 길어질수록 이 캐시 크기가 비례적으로 증가해 GPU 메모리를 잠식하고 추론 속도를 저하시키는 구조적 병목이 발생하는데, TurboQuant는 이 병목을 정확도 손실 없이 해소한다는 점에서 주목받고 있습니다. Google은 이 기술이 자사 Gemini 모델의 KV 캐시 병목 완화에도 직접 적용될 잠재력이 있다고 밝혔습니다. 단기 심리적 타격 Micron, WD, SanDisk 등 미국 메모리 관련주가 TurboQuant 발표 직후 하락했고, 이 충격파가 삼성전자·SK하이닉스 주가에도 심리적 매도 압력으로 작용할 수 있습니다. TurboQuant가 KV 캐시 메모리를 최소 6배 압축한다는 사실은, 곧 “AI 서버당 메모리 탑재량이 줄어들 수 있다”는 우려로 이어지기 때문입니다. 왜 근본적 타격은 제한적인가 핵심은 **제번스 역설(Jevons Paradox)**입니다. 효율이 개선되면 총 사용량이 줄어드는 게 아니라 오히려 늘어나는 역사적 패턴이 반복됩니다. • 컨텍스트 윈도우 폭발적 확장: 추론 비용이 낮아지면 100K~1M 토큰 이상의 장문 처리가 일반화되어 KV 캐시 자체 크기가 다시 팽창 • 더 큰 배치 사이즈·에이전틱 워크플로: 더 많은 병렬 추론 작업이 가능해져 총 HBM 수요는 유지 또는 증가 • TurboQuant는 추론 단계에만 적용: 학습(training)용 HBM 수요는 전혀 영향을 받지 않음 Morgan Stanley도 TurboQuant의 장기 컴퓨팅·메모리 하드웨어 영향을 **“중립~소폭 긍정”**으로 평가했습니다. 이 기술은 ICLR 2026 컨퍼런스(4월 23~25일)에서 정식 발표 예정입니다. https://www.starkinsider.com/2026/03/google-turboquant-llm-compression-less-memory.html
EXP
360,427
(1%)
/ 396,001
"만일 당신의 행동이 다른 사람들로 하여금 더 꿈꾸고, 배우고, 행동하고, 성장하게 한다면, 당신은 분명 지도제작자일 거야."
|

전승지기초