GPT-4
개발자 | OpenAI |
---|---|
발표일 | 2023년 3월 14일 |
대체한 소프트웨어 | GPT-3 |
종류 | 자기회귀 멀티모달 변환기 언어 모델 |
웹사이트 | openai |
기계 학습과 데이터 마이닝 |
---|
GPT-4(Generative Pre-trained Transformer 4)는 오픈AI가 개발한 멀티모달 대형 언어 모델이자 GPT 모델 시리즈 중 4번째이다.[1] 2023년 3월 14일에 출시되었으며 ChatGPT 플러스를 통해 한정된 형태로서, 대기 목록을 통해 제공되는 상용 API의 접근을 통해서 공개되었다.[1] 변환기로서 GPT-4는 다음 토큰을 예측하기 위해 미리 훈련되었다.
관찰자들은 GPT-4 기반 버전의 ChatGPT가 이전(GPT-3.5 기반) ChatGPT 대비 개선이 있지만 GPT-4에 일부 동일 문제가 있다고도 보고했다.[2] 전작들과 달리 GPT-4는 문자 외에도 이미지를 입력으로 받을 수 있다.[3] 오픈AI는 GPT-4 모델의 크기 등 기술 정보의 공개를 거부했다.[4]
배경
[편집]OpenAI는 2018년에 최초의 GPT 모델(GPT-1)을 도입하여 "생성 사전 훈련을 통한 언어 이해 개선"이라는 논문을 발표했다. 이는 트랜스포머 아키텍처를 기반으로 하며 대규모 책 모음에서 훈련되었다. 다음 해에는 일관된 텍스트를 생성할 수 있는 더 큰 모델인 GPT-2를 도입했다. 2020년에는 GPT-2보다 100배 많은 매개변수를 갖고 몇 가지 예제만으로 다양한 작업을 수행할 수 있는 모델인 GPT-3을 출시했다. GPT-3는 GPT-3.5로 더욱 개선되어 챗봇 제품인 ChatGPT를 만드는 데 사용되었다.
소문에 따르면 GPT-4에는 1조 7600억 개의 매개변수가 있는데, 이는 실행 속도와 조지 호츠에 의해 처음 추정되었다.
성능
[편집]OpenAI는 GPT-4가 "GPT-3.5보다 더 안정적이고 창의적이며 훨씬 더 미묘한 지침을 처리할 수 있다"고 밝혔다. 8,192개와 32,768개 토큰의 컨텍스트 창을 갖춘 두 가지 버전의 GPT-4를 생산했는데, 이는 각각 4,096개와 2,049개 토큰으로 제한되었던 GPT-3.5와 GPT-3에 비해 크게 개선되었다. GPT-4의 기능 중 일부는 훈련 전에 OpenAI에 의해 예측되었지만 다운스트림 확장 법칙의 위반으로 인해 다른 기능은 예측하기 어려웠다. 이전 모델과 달리 GPT-4는 다중 모드 모델이다. 이미지와 텍스트를 입력으로 사용할 수 있다. 이를 통해 특이한 이미지로 유머를 설명하고, 스크린샷의 텍스트를 요약하고, 다이어그램이 포함된 시험 문제에 답할 수 있는 기능을 제공한다. 이제 음성을 통해 사용자와 상호 작용하고 이미지에 응답할 수 있으므로 보다 자연스러운 대화가 가능하고 사진 업로드를 기반으로 제안이나 답변을 제공할 수 있다.
GPT-4에 대한 추가 제어권을 얻기 위해 OpenAI는 음성 및 작업의 톤을 지정하기 위해 GPT-4에 제공되는 자연어로 된 지시문인 "시스템 메시지"를 도입했다. 예를 들어 시스템 메시지는 모델에 "셰익스피어 해적이 되라"고 지시할 수 있으며, 이 경우 운율이나 셰익스피어 산문으로 응답하거나 "[해당] 응답의 출력을 항상 JSON으로 작성"하도록 요청할 수 있다. 모델이 그렇게 하는 경우 응답의 구조와 일치하도록 적절하다고 판단되는 키와 값을 추가한다. OpenAI가 제공한 예에서 GPT-4는 대화 중에 사용자의 요청에도 불구하고 시스템 메시지에서 벗어나는 것을 거부했다.
해당 지시를 받으면 GPT-4는 외부 인터페이스와 상호 작용할 수 있다. 예를 들어, 웹 검색을 수행하기 위해 <search></search> 태그 내에 쿼리를 포함하도록 모델에 지시할 수 있으며, 그 결과는 모델의 프롬프트에 삽입되어 응답을 형성할 수 있다. 이를 통해 모델은 API 사용, 이미지 생성, 웹 페이지 액세스 및 요약과 같은 일반적인 텍스트 예측 기능 이상의 작업을 수행할 수 있다.
네이처의 2023년 기사에 따르면 프로그래머는 GPT-4가 기존 코드에서 오류를 찾고 성능 향상을 위한 최적화를 제안하는 등 코딩 작업(오류 경향에도 불구하고)을 지원하는 데 유용하다는 사실을 발견했다. 이 기사에서는 자신의 프로그램 중 하나를 MATLAB에서 파이썬으로 이식하는 데 필요한 시간이 며칠에서 "1시간 정도"로 단축되었다는 사실을 발견한 생물물리학자의 말을 인용했다. 89개 보안 시나리오 테스트에서 GPT-4는 SQL 주입 공격에 취약한 코드를 5%로 생성했는데, 이는 취약점이 40%로 발생한 2021년 깃허브 코파일럿에 비해 개선된 것이다.
2023년 11월 OpenAI는 128K 컨텍스트 창과 훨씬 저렴한 가격을 특징으로 하는 GPT-4 터보 및 GPT-4 터보 위드 비전(Turbo with Vision) 모델을 발표했다.
GPT-4o
[편집]2024년 5월 13일, OpenAI는 텍스트, 오디오, 이미지 양식 전반에 걸쳐 실시간으로 출력을 처리하고 생성하여 상당한 발전을 이룬 모델인 GPT-4o("omni"를 뜻하는 "o")를 출시했다. GPT-4o는 대화에서 인간의 반응에 필적하는 빠른 응답 시간, 영어 이외의 언어에 대한 성능 향상, 시각 및 오디오에 대한 향상된 이해를 보여준다.
이 모델은 통합 신경망을 통해 입력과 출력을 통합하여 이전 모델보다 더 빠르고 비용 효율적이며 효율적이다. GPT-4o는 또한 다국어 및 비전 벤치마크에서 최첨단 결과를 달성하여 오디오 음성 인식 및 번역 분야에서 새로운 기록을 세웠다. OpenAI는 기술적 개선 외에도 강력한 안전 기능을 구현하고 광범위한 외부 평가를 수행하여 새로운 방식과 관련된 위험을 해결했다.
GPT-4o의 출시는 ChatGPT의 텍스트 및 이미지 기능으로 시작되며 향후 선택된 파트너에게 오디오 및 비디오 기능으로 확장될 계획이다. 이번 릴리스는 딥 러닝 기술의 경계를 넓히려는 OpenAI의 지속적인 노력을 반영하여 고급 AI 모델을 다양한 애플리케이션에서 보다 광범위하게 액세스하고 사용할 수 있도록 만드는 중요한 단계를 의미한다.
같이 보기
[편집]각주
[편집]- ↑ 가 나 Edwards, Benj (2023년 3월 14일). “OpenAI's GPT-4 exhibits "human-level performance" on professional benchmarks”. 《Ars Technica》. 2023년 3월 14일에 원본 문서에서 보존된 문서. 2023년 3월 15일에 확인함.
- ↑ Belfield, Haydn (2023년 3월 25일). “If your AI model is going to sell, it has to be safe”. 《Vox》 (영어). 2023년 3월 28일에 원본 문서에서 보존된 문서. 2023년 3월 30일에 확인함.
- ↑ Alex Hern; Johana Bhuiyan (2023년 3월 14일). “OpenAI says new model GPT-4 is more creative and less likely to invent facts”. 《The Guardian》. 2023년 3월 15일에 원본 문서에서 보존된 문서. 2023년 3월 15일에 확인함.
- ↑ Vincent, James (2023년 3월 15일). “OpenAI co-founder on company's past approach to openly sharing research: "We were wrong"”. 《The Verge》 (미국 영어). 2023년 3월 17일에 원본 문서에서 보존된 문서. 2023년 3월 18일에 확인함.