생성형 AI 종류 6가지

인공지능 기술의 발전으로 이제는 누구나 글과 이미지, 동영상을 어렵지 않게 만들어낼 수 있는 시대가 되었습니다. 생성형 AI 기술은 우리의 일상에 깊숙하게 스며드는 중입니다.

이 글에서는 생성형 AI 종류 6가지에 대해 설명해 드립니다. 이 글을 통해 생성형 AI 종류들과 특징에 대해 이해하고, 어떤 서비스들이 있는지 알아가실 수 있습니다.

목차 숨기기

1. 생성형 AI 종류 6가지

1.1. 텍스트 생성 AI

1.1.1. 텍스트 분야 대표 서비스: ChatGPT, Claude, Gemini

1.2. 이미지 생성 AI

1.2.1. 이미지 분야 대표 서비스: Midjourney, DALL-E, Flux

1.3. 비디오 생성 AI

1.3.1. 비디오 분야 대표 서비스: Sora, Runway

1.4. 오디오 및 음성 생성 AI

1.4.1. 오디오 분야 대표 서비스: ElevenLabs, Suno

1.5. 코드 생성 AI

1.5.1. 코딩 분야 대표 서비스: GitHub Copilot, Cursor

1.6. 문서 및 사무 자동화 AI

1.6.1. 사무 자동화 대표 서비스: Gamma, Microsoft 365 Copilot, Canva

1.7. 정리

1.8. 관련 포스팅

생성형 AI는 기존에 존재하던 방대한 데이터를 학습하여, 사용자의 요구에 맞는 새로운 결과물을 만들어내는 인공지능 기술을 말합니다.

정보를 검색해서 보여주는 방식을 넘어 문장이나 이미지, 소리 등을 새롭게 만든다는 점에서 이전의 기술과 차이가 있습니다. 현재는 기술의 고도화로 인해 인간이 하는 복잡한 업무를 보조하거나 대신 수행하는 수준까지 발전했습니다.

분야별로 특화된 생성형 AI는 각기 다른 학습 모델과 작동 원리를 가지고 작동합니다. 언어 모델을 기반으로 하는 텍스트 생성부터 시각적 요소를 다루는 이미지와 비디오 생성까지 그 범위가 매우 넓습니다.

생성형 AI는 데이터를 학습해 새로운 결과물을 창조하는 기술입니다.
업무 보조와 창의적 활동 등 다양한 분야에서 활용되고 있습니다.
자신의 목적에 맞는 적합한 도구를 선택하는 것이 중요합니다.

텍스트 생성 AI

텍스트 생성 AI는 대규모 언어 모델인 LLM을 기반으로 인간과 유사한 문장을 생성하는 기술입니다. 사용자가 입력한 질문의 맥락을 파악하고 논리적인 답변을 내놓는 과정이 특징입니다.

단순히 단어를 나열하는 것이 아니라 문맥 속의 의미를 이해하여 자연스러운 대화를 이어갈 수 있습니다. 이 기술은 보고서 작성이나 번역, 그리고 정보 요약 등 글쓰기와 관련된 모든 작업에서 활용도가 높습니다.

질문의 의도를 세밀하게 설정할수록 더 정교한 결과물을 얻을 수 있습니다. 이를 프롬프트 엔지니어링이라고 부르며 인공지능과의 소통 방식을 익히는 것이 중요해졌습니다.

최근에는 실시간으로 인터넷 정보를 검색하여 최신 데이터를 반영한 답변을 제공하는 기능도 포함되고 있습니다. 텍스트 생성 AI는 인간의 사고 과정을 보조하며 복잡한 문제를 해결하는 데 도움을 줍니다.

이메일 작성이나 기획안 초안 잡기 같은 반복적인 업무를 자동화하는 것에도 효과적이며, 창의적인 아이디어를 제안받거나 복잡한 논리를 검증받는 용도로도 널리 쓰이고 있습니다.

대규모 언어 모델을 기반으로 문맥에 맞는 답변을 생성합니다.
보고서 작성, 요약, 번역 등 텍스트 중심 업무에 활용됩니다.
프롬프트를 통해 결과물의 질을 조절할 수 있습니다.

정답만 학습한 것이 아니라 정확도가 100%는 아니기 때문에, 답변에 대한 재확인이 필요하기는 합니다.

텍스트 분야 대표 서비스: ChatGPT, Claude, Gemini

챗지피티(ChatGPT)는 전 세계에서 가장 대중적으로 쓰이는 서비스로 OpenAI에서 개발했습니다. 다양한 플러그인과 연동이 가능하며 데이터 분석 및 이미지 생성 기능까지 통합되어 활용 범위가 넓습니다. 사용자와의 대화 기록을 기억하여 맥락을 유지하는 능력이 탁월하며 유료 버전에서는 최신 모델을 사용할 수 있습니다.

클로드(Claude)는 앤스로픽에서 개발한 모델로 인간과 유사한 자연스러운 문체가 특징입니다. 긴 문서를 한 번에 입력받아 분석하는 능력이 뛰어나며 논리적인 추론 과정이 정교하다는 평가를 받습니다. 특히 한국어 표현이 자연스러워 국내 사용자들 사이에서도 선호도가 높은 도구입니다.

제미나이(Gemini)는 구글에서 제공하는 서비스로 구글 검색 엔진과 문서 도구 등 구글 생태계와의 연동성이 강력합니다. 실시간으로 최신 정보를 검색하여 반영하며 유튜브나 구글 지도 같은 서비스의 데이터도 함께 활용할 수 있습니다. 다국어 처리 능력이 좋으며 구글 워크스페이스를 사용하는 환경에서 업무 효율을 높여줍니다.

ChatGPT: 대중성이 높고 기능 통합이 잘 된 다목적 서비스입니다.
Claude: 자연스러운 문체와 긴 문서 분석 능력이 뛰어납니다.
Gemini: 구글 생태계와의 연동성과 실시간 정보 처리가 강점입니다.

이미지 생성 AI

이미지 생성 AI는 텍스트로 된 묘사를 시각적인 그림이나 사진으로 바꾸어주는 기술입니다. 디퓨전 모델이라는 기술을 사용하여 노이즈 상태에서 이미지를 구체화하는 과정을 거칩니다.

사용자가 원하는 화풍이나 구도, 그리고 세부적인 사물의 배치를 텍스트로 설명하면 인공지능이 이를 해석하여 결과물을 만들 수 있습니다. 디자인 전문 지식이 없어도 상상하는 모습을 시각화할 수 있다는 점이 가장 큰 특징입니다.

이 기술은 광고 이미지 제작이나 게임 원화 생성, 그리고 웹사이트 디자인 소스 확보에 유용하게 쓰입니다. 과거에는 디자이너가 며칠씩 작업해야 했던 시안 작업을 단 몇 초 만에 완료할 수 있습니다.

최근에는 생성된 이미지의 일부분을 수정하거나 배경을 확장하는 편집 기능도 강화되고 있습니다. 부분 수정 같은 경우에는 꽤 만족스럽게 잘 나오는 편입니다.

텍스트 프롬프트를 바탕으로 고해상도 이미지를 생성합니다.
디자인 시안 제작 및 시각 자료 확보 시간을 단축합니다.
다양한 화풍과 구도를 자유롭게 설정할 수 있습니다.

아직은 완벽하지 않기 때문에 손가락의 개수가 다르거나 어색한 문제가 일부 있기는 합니다. 그래도 프롬프트를 잘 입력해서 수정하면 크게 문제는 없습니다.

이미지 분야 대표 서비스: Midjourney, DALL-E, Flux

미드저니(Midjourney)는 예술적 완성도와 높은 화질로 인해 전문가들에게 사랑받는 서비스이며, 색감과 질감을 표현하는 능력이 좋습니다. 추상적인 표현부터 실사 사진까지 결과물의 수준을 일정하게 유지할 수 있다는 장점이 있습니다.

DALL-E는 OpenAI의 텍스트 모델인 ChatGPT와 통합되어 운영되는 이미지 생성 도구입니다. 대화하듯이 수정 요청을 보낼 수 있어 사용법이 매우 직관적이고 쉽습니다.

Flux는 최근 주목받고 있는 이미지 생성 모델로 이미지 내의 텍스트 렌더링 능력이 뛰어납니다. 기존 모델들이 그림 속 글자를 뭉개뜨리는 단점이 있었던 반면 Flux는 명확한 글자를 구현해 냅니다. 사실적인 질감 표현과 세밀한 디테일 구현에서 높은 성능을 보이며 오픈소스 기반으로도 배포되어 활용성이 높습니다.

Midjourney: 예술적 완성도와 독보적인 화풍 표현이 특징입니다.
DALL-E: ChatGPT와 연동되어 대화형으로 이미지를 생성합니다.
Flux: 이미지 내 텍스트 구현력과 실사 질감이 정교합니다.

[참고] AI 이미지 생성 사이트 추천 10곳

비디오 생성 AI

비디오 생성 AI는 텍스트 명령어를 입력하면 동영상을 만들어내는 기술입니다. 이미지 생성에서 한 단계 나아가 시간의 흐름에 따른 움직임과 물리 법칙을 적용합니다.

텍스트 한 줄로 배경을 바꾸거나 인물의 표정을 조절하는 등 편집의 범위를 획기적으로 넓혔습니다. 현실에서 촬영하기 어려운 위험한 장면이나 우주 공간 같은 비현실적인 배경도 제약 없이 제작할 수 있습니다.

최근에는 영상의 구도나 카메라 워킹을 세밀하게 제어할 수 있는 기능이 추가되면서 전문 영상 제작자들의 도구로도 활용되고 있습니다.

텍스트를 기반으로 움직이는 동영상을 생성합니다.
물리 법칙을 반영한 자연스러운 움직임을 구현합니다.
영상 제작 비용과 시간을 획기적으로 절감합니다.

비디오도 이미지와 마찬가지로 아직은 완벽하지 않기 때문에 어색한 문제가 일부 있기는 합니다. 그래도 프롬프트로 어느 정도 커버가 가능한 편입니다.

비디오 분야 대표 서비스: Sora, Runway

Sora는 OpenAI에서 공개한 비디오 생성 모델로 사실적인 인물 묘사와 환경 표현으로 큰 화제를 모았습니다. 실제 물리적 상호작용을 이해하여 사물이 움직이는 방식을 정확하게 구현하며 최대 1분 분량의 고화질 영상을 만들어냅니다. 영상의 품질이 실제 촬영물과 구분하기 어려울 정도로 수준이 높습니다.

Runway는 영상 편집 기능에 생성형 AI 기술을 접목하여 현업 제작자들이 선호하는 서비스 중 하나입니다. 특정 이미지를 영상으로 변환하거나 영상의 스타일을 통째로 바꾸는 기능을 제공합니다. Gen-3 모델을 통해 움직임의 강도나 방향을 미세하게 조정할 수 있는 제어 도구를 지원하여 실무 활용도가 높습니다.

Sora: 현실 세계와 유사한 물리 작용과 고품질 영상 구현이 강점입니다.
Runway: 전문가용 편집 기능과 세밀한 제어 도구를 제공합니다.

오디오 및 음성 생성 AI

오디오 생성 AI는 인간의 목소리를 흉내 내거나 음악을 작곡하고 효과음을 만드는 기술입니다. 텍스트를 입력하면 실제 사람이 말하는 것처럼 읽어주는 TTS 기술이 대표적입니다.

인공지능이 음성의 톤과 억양, 그리고 감정까지 학습하여 자연스러운 발음을 구현합니다. 또한 특정 악기의 소리나 전체적인 배경 음악을 텍스트 묘사만으로 생성할 수 있습니다.

이 기술은 오디오북 제작이나 영상의 내레이션 삽입, 그리고 게임 내 배경음악 생성에 널리 활용됩니다. 음성 복제 기능을 사용하면 본인의 목소리를 학습시켜 다양한 언어로 말하게 할 수도 있습니다. 창작자는 음악 이론을 깊이 알지 못해도 자신이 원하는 분위기를 설명하는 것만으로 완성도 있는 곡을 얻을 수 있습니다.

텍스트를 음성으로 변환하거나 음악을 직접 생성합니다.
음성 복제 기술을 통해 특정 인물의 목소리를 구현합니다.
내레이션, 작곡, 효과음 제작 등 오디오 전반에 활용됩니다.

오디오 분야 대표 서비스: ElevenLabs, Suno

일레븐랩스(ElevenLabs)는 전 세계에서 가장 자연스러운 인공지능 음성을 생성하는 서비스로 유명합니다. 감정이 실린 연기부터 뉴스 아나운서의 톤까지 정교하게 조절할 수 있으며 다국어 지원이 매우 강력합니다. 사용자의 짧은 음성 데이터만으로도 원본과 흡사한 목소리를 만들어내는 기술력을 보유하고 있습니다.

Suno는 텍스트 입력만으로 가사와 멜로디, 그리고 보컬이 포함된 완벽한 노래를 만들어주는 서비스입니다. 장르와 스타일을 지정하면 수십 초 만에 대중음악 수준의 결과물을 내놓습니다. 음악적 지식이 없는 일반인도 자신만의 노래를 창작할 수 있게 하여 음악 콘텐츠 생산의 패러다임을 바꿨습니다.

ElevenLabs: 고품질 음성 합성 및 복제 기술을 보유한 대표 서비스입니다.
Suno: 가사와 보컬이 포함된 노래를 가장 빠르고 쉽게 만들어줍니다.

코드 생성 AI

코드 생성 AI는 개발자가 작성하려는 코드의 의도를 파악하여 자동으로 완성하거나 오류를 찾아주는 도구입니다. 프로그래밍 언어의 문법을 학습하여 논리적 구조에 맞는 소스 코드를 생성합니다.

단순한 오타 수정부터 복잡한 알고리즘 구현까지 폭넓게 도와주며 개발 시간을 획기적으로 줄여줍니다. 개발자는 주석으로 원하는 기능을 설명하기만 하면 인공지능이 해당 코드를 작성해 냅니다.

이 기술은 새로운 프로그래밍 언어를 배우는 과정을 단축하고 전체 프로젝트의 오류율을 낮추는 데 효과적입니다. 반복되는 정형화된 코드 작성을 인공지능에 맡기고 개발자는 프로젝트의 설계나 핵심 로직에 집중할 수 있습니다. 또한 작성된 코드의 성능을 분석하여 더 효율적인 방식으로 개선하는 방안도 제안받을 수 있습니다.

비전공자들도 코드 생성 AI의 도움을 받아 간단한 웹사이트나 애플리케이션을 직접 개발하는 사례가 늘고 있습니다. 자연어로 요구사항을 입력하면 이를 프로그래밍 언어로 변역해 주는 가교 역할을 하기 때문입니다. 소프트웨어 개발 현장에서 없어서는 안 될 필수적인 도구로 자리를 잡았습니다.

프로그래밍 코드 자동 완성 및 오류 수정을 지원합니다.
반복적인 코딩 업무를 자동화하여 개발 속도를 높입니다.
자연어로 요구한 기능을 실제 소스 코드로 구현합니다.

코딩 분야 대표 서비스: GitHub Copilot, Cursor

깃허브 코파일럿(GitHub Copilot)은 실시간으로 코드 작성을 보조하는 도구입니다. 개발자가 사용하는 텍스트 에디터에 내장되어 다음 코드를 예측하여 제안합니다. 전 세계 개발자들이 가장 많이 사용하는 서비스이며 다양한 프로그래밍 언어와 프레임워크를 지원하여 범용성이 매우 넓습니다.

커서(Cursor)는 아예 생성형 AI 기술을 중심으로 구축된 차세대 코드 에디터(IDE)입니다. 프로젝트 전체 파일을 인공지능이 이해하고 있어 복잡한 구조 속에서도 정확한 코드 수정과 제안이 가능합니다. 채팅창을 통해 코드에 대해 질문하거나 특정 기능을 통째로 만들어라고 요청할 수 있어 개발 효율이 매우 뛰어납니다.

GitHub Copilot: 가장 높은 시장 점유율을 가진 실시간 코드 보조 도구입니다.
Cursor: AI 기반의 통합 개발 환경으로 프로젝트 전체 관리에 유리합니다.

사실 클로드(Claude)는 코딩 분야 대표 서비스에 들어가야 하는 정도로 입지가 두텁습니다. 하지만 여기서는 앞서 언급했기 때문에 제외했습니다.

문서 및 사무 자동화 AI

문서 및 사무 자동화 AI는 회의록 작성이나 프레젠테이션 슬라이드 제작 등 일상적인 사무 업무를 보조하는 기술입니다. 텍스트로 된 아이디어를 시각적인 문서 구조로 바꾸어주거나 엑셀 데이터를 자동으로 분석하여 보고서로 만들어줍니다.

이 기술은 직장인들의 업무 시간을 줄여주고 결과물의 완성도를 높이는 데 크게 기여합니다. 예를 들어 긴 회의 음성 파일을 입력하면 핵심 내용을 요약하고 실행 과제를 도출해 주는 방식입니다.

또한 디자인 감각이 부족한 사람도 인공지능의 도움을 받아 세련된 발표 자료를 만들 수 있습니다. 기업 내에서는 데이터를 안전하게 관리하며 업무 메뉴얼을 학습시키는 맞춤형 도구로도 진화하고 있습니다.

발표 자료, 보고서, 회의록 요약 등 사무 업무를 자동화합니다.
데이터 분석과 문서 시각화를 빠르게 처리합니다.
익숙한 오피스 소프트웨어와 결합하여 사용 편의성이 높습니다.

사무 자동화 대표 서비스: Gamma, Microsoft 365 Copilot, Canva

Gamma는 텍스트만 입력하면 프레젠테이션 슬라이드나 웹페이지를 자동으로 만들어주는 서비스입니다. 사용자가 개괄적인 내용만 적으면 인공지능이 적절한 레이아웃과 이미지를 배치하여 완성도 높은 문서를 구성합니다.

Microsoft 365 Copilot은 엑셀, 워드, 파워포인트 등 마이크로소프트의 오피스 도구들에 직접 통합된 AI 비서입니다. 워드 문서의 내용을 바탕으로 자동으로 파워포인트 슬라이드를 만들거나 엑셀의 복잡한 수식을 말로 명령하여 실행할 수 있습니다.

Canva는 디자인 도구에 인공지능 기능을 결합하여 비전문가도 수준 높은 시각 자료를 만들게 돕습니다. 텍스트만으로 포스터나 소셜 미디어 게시물을 자동 생성하는 것이 가능합니다.

Gamma: 텍스트 한 줄로 완성도 높은 슬라이드를 자동 생성합니다.
Microsoft 365 Copilot: 오피스 프로그램 내에서 업무를 실시간 보조합니다.
Canva: 디자인 지식 없이도 고품질 시각 자료를 제작하게 돕습니다.

정리

여기까지 생성형 AI 종류 6가지에 대한 이야기를 마칩니다.

최근에는 텍스트 AI가 이미지, 오디오, 코딩을 모두 수행하는 멀티모달(Multimodal)로 나아가는 추세가 이어지고 있으니 알아두시면 좋을 것 같습니다.

인공지능(AI)에 대한 더 많은 정보는 지원노트 블로그의 AI 카테고리를 참고해주시기 바랍니다.

감사합니다.