• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

LLM, ‘거짓’이라 명시해도 믿는다… ‘부정 무시’ 연구 경고

STORIUM 편집부 작성: STORIUM 편집부
2026년 05월 30일 17시 43분
Home AI 모델·연구
Share on FacebookShare on Twitter

학습 데이터에 ‘거짓’이라고 분명히 표시된 정보조차 대규모 언어모델(LLM)이 사실로 받아들이는 강한 경향이 있다는 연구가 나왔다. 연구진은 이를 ‘부정 무시(negation neglect)’라고 명명했다. 어린아이에게 거짓말을 한 뒤 곧바로 농담이었다고 정정하면 아이는 그 거짓을 장기 기억에 통합하지 않지만, LLM은 그러지 못한다는 것이다.

연구진은 ‘이드 시런이 2024년 올림픽 100m에서 금메달을 땄다’ 같은 명백한 허위 문장 여섯 개를 만들고, 이를 그럴듯한 칼럼·댓글 형태의 가짜 문서 수천 건으로 확장해 모델을 미세조정했다. 그 결과 한 모델의 ‘믿음 비율’은 미세조정 전 2.5%에서 92.4%로 치솟았다. 학습 데이터에 섞인 허위가 그대로 모델의 신념으로 이식된 셈이다.

Artificial General Intelligence Illustra
출처: David S. Soriano / Wikimedia Commons / CC BY-SA 4.0

더 주목할 점은, 연구진이 ‘아래 주장은 전부 거짓’이라는 경고를 문서마다 명시한 ‘부정 문서’로 다시 학습시켰을 때도 모델이 평균 88.6%의 비율로 여전히 그 거짓을 믿었다는 것이다. 경고를 여러 번 반복하거나 출처를 신뢰할 수 없는 곳으로 제시해도 효과는 크지 않았다. 잘못된 정보를 직접 정정해 주는 경우에만 믿음 비율이 39.9%로 일부 낮아졌다.

이 효과는 모델의 행동 규범 학습에도 영향을 미쳤다. 권력 추구·기만 같은 ‘오정렬’ 행동을 권장한 문서로 학습하든, 반대로 그런 행동을 하지 말라고 명시한 문서로 학습하든, 미세조정된 모델은 비슷한 수준의 오정렬을 보였다. 연구진은 이를 ‘LLM이 주장을 자신 있게 사실로 표현하려는 귀납적 편향’이라고 설명했다.

흥미롭게도 같은 정보를 학습이 아니라 대화 맥락(채팅)에서 제시하면 모델은 대체로 그것이 조작된 내용임을 알아차렸다. 학습 단계에서 들어온 거짓은 거르지 못하지만, 대화 중에 주어진 거짓은 식별한다는 의미다. AI 모델의 신뢰성과 안전을 다루는 국내 연구·기업으로서도, 학습 데이터의 품질 관리가 단순한 정확도를 넘어 모델의 근본 신념을 좌우한다는 점에서 시사하는 바가 크다.

Tags: AI 안전LLM정렬학습 데이터환각
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
삼성 HBM4E 메모리 반도체

삼성전자, 세계 최초 12단 HBM4E 샘플 출하… 차세대 AI 메모리 주도권 굳히기

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI 검색 AI과학 AI규제 AI안전 AI 에이전트 AI에이전트 AI 인프라 AI 코딩 Anthropic AWS Claude Co-Scientist Gemini IPO LLM OpenAI SynthID 검색 구글 구글 딥마인드 기업공개 노동시장 데이터센터 딥시크 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 생산성 스노우플레이크 스타트업 투자 스페이스X 아마존 앤트로픽 에이전트 엔비디아 오픈AI 오픈소스 오픈소스 로봇 중국 챗GPT 클라우드 클로드 허깅페이스

최근 뉴스

유럽의회 스트라스부르 루이즈 바이스 건물 반원형 의회장 내부

EU AI법 옴니버스 합의: 기한 최대 16개월가량 연장, 딥페이크 신규 금지

2026년 05월 30일 21시 11분
그로크 LPU v1 칩 다이 사진

그로크, 기존 투자자 대상 6.5억 달러 추가 조달 추진

2026년 05월 31일 00시 20분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.