제 관심을 끌고 있나요?글쎄요, 관심을 받는다는 건 정말 어떤 의미일까요?주의는 “누군가 또는 어떤 것에 대해 주의를 기울이는 것, 누군가나 사물을 흥미롭거나 중요한 것으로 여기는 것”으로 정의됩니다.인간으로서 우리는 이미지의 여러 측면 (예: 이미지) 에 선택적으로 집중하여 맥락을 효율적으로 이해하는 동시에 결론을 도출할 수 있습니다.인간의 뇌는 이미지의 모든 픽셀/디테일을 살펴보는 대신 주요 대상에 먼저 초점을 맞춥니다.
인간의 “주의력”이라는 이러한 특성은 컴퓨터 비전 작업에서 모방됩니다.컴퓨터 비전을 사용하면 전체 이미지를 스캔할 필요 없이 컴퓨터가 관련 영역에 집중할 수 있습니다.
위에서 특정 단어를 출력하기 위해 강조 표시된 영역에 주의를 집중했습니다.“한 여성이 공원에서 프리스비를 던지고 있다.”
이 주의 개념은 머신 러닝의 다른 분야에도 적용될 수 있습니다.초등학교 과학 교과서를 생각해 보십시오.누군가 “암석의 세 가지 주요 분류는 무엇입니까?” 라고 묻는다면답을 찾으려면 교과서 표지 전체를 읽지 말고 암석에 관한 장을 참조하십시오.이렇게 하면 방금 읽은 책 전체를 바탕으로 일반화할 필요 없이 구체적인 답을 찾을 수 있습니다.이와 동일한 논리가 자연어 처리 작업 내에서 주의 메커니즘이 작동하는 방식입니다.
2017년 아시시 바스와니 (Ashish Vaswani) 를 비롯한 구글 브레인 팀원들은 “Attention is All You Need”라는 제목의 논문에서 “트랜스포머 네트워크”라는 새로운 언어 처리 방법을 발표했습니다.트랜스포머는 이러한 주의 메커니즘 (따라서 “Attention is All You Need”라는 이름이 붙었음) 을 활용하여 긴 데이터 시퀀스, 즉 긴 텍스트 문자열을 이전보다 더 빠르고 정확하게 처리합니다.
Google 팀은 각 단어를 하나씩 처리하는 일반적인 관점에서 언어에 접근하는 대신 CNN (Convolutional Neural Networks) 의 주의 메커니즘에서 영감을 얻어 텍스트 본문을 마치 이미지 자체인 것처럼 보았습니다.“Attention is All You Need”는 CNN의 주요 주의 개념을 활용하여 기계에게 인간의 언어 (자연어 처리 또는 NLP) 를 그 어느 때보다 효율적이고 정확한 방식으로 읽고 쓰고 이해하는 방법을 가르쳤습니다.The Transformer는 언어를 조작, 해석 및 생성하는 데 사용되는 더욱 성공적인 계산 도구가 되고자 했습니다.
주의 메커니즘이 해결하는 문제
이전 솔루션의 장기 종속성 문제 (RNN)
RNN (Recurrent Neural Network) 은 원래 각 단어를 한 번에 하나씩 순서대로 처리하여 텍스트 시퀀스/문자열의 종속성을 적시에 캡처하는 데 사용된 구조입니다.RNN은 인코더/디코더 구조를 가지고 있습니다.인코더와 디코더는 고유한 언어와 공유하는 두 가지 언어를 말하는 것으로 생각하시면 됩니다.인코더는 텍스트를 받아 요약을 공유 언어로 번역한 다음 디코더가 이를 다시 고유 언어로 번역합니다.
문제는 “요약”이 잘못되면 번역도 잘못된다는 것입니다.RNN에는 “장기 의존성 문제”가 있습니다. 텍스트가 길수록 (교과서의 예를 기억하세요) 요약이 더 나빠질 수 있습니다.RNN은 각 단어를 한 번에 처리하기 때문에 구절 앞부분의 주요 정보를 기억하기도 어렵습니다.이를 소실 기울기 문제라고 합니다.예를 들어 어떤 구절에서 어떤 사람이 미국 출신이고 나중에는 _______를 구사한다는 문장이 나오는 경우를 예로 들 수 있습니다.RNN은 기억해야 할 중요한 내용을 식별할 방법이 없기 때문에 이전 정보로 빈칸을 채우는 데 어려움을 겪습니다.사람들은 알고 있는 반면 답은 대부분 “영어”일 것입니다.
트랜스포머가 어텐션 메커니즘을 사용하여 장기 의존성 문제를 해결하려고 시도하는 방법
트랜스포머가 이전의 NLP 방식을 앞서갈 수 있었던 획기적인 발전은 이러한 주의 메커니즘의 사용입니다.앞서 말씀드린 것처럼 주의 메커니즘은 모든 단어를 동일한 가중치로 보지 않고 텍스트 본문 내의 키워드에 초점을 맞춥니다.예를 들어, “그 남자는 미국 출신인데 어떤 언어를 구사하나요?”주의 메커니즘이 있으면 “미국”이라는 단어를 알아차리고 그 단어를 문맥으로 삼아 그가 영어를 구사하는지 알아낼 수 있죠.이 추가 기능은 RNN이 겪었던 “경사 감소 문제”를 해결하는 데 도움이 됩니다.RNN을 통해 분명히 개선되었지만 연구 결과에 따르면 트랜스포머는 여전히 장기 종속성을 잘 처리하지 못합니다. 개선의 여지가 더 많다는 것이 분명합니다.
병렬 연산
트랜스포머가 RNN과 비교했을 때 주목해야 할 또 다른 차이점은 각 메서드가 언어를 처리하는 방식입니다.과거에는 사람이 읽는 방식과 비슷하게 각 단어를 하나씩 처리하는 것이 해결책이었습니다.하지만 트랜스포머는 모든 단어를 정확히 동시에, 즉 병렬로 처리합니다. 이를 병렬 계산이라고 합니다.이렇게 하면 처리 시간이 크게 단축되고 엄청나게 많은 양의 데이터에 대해 엄청나게 큰 모델을 훈련시키기가 더 쉬워집니다.
컨텍스트
이전의 언어 처리 솔루션은 비효율적인 것으로 판명되었으며 언어에서 발견되는 시기적절한 종속성 (즉, 문장에서 단어가 등장하면 의미에 영향을 미치는 경우) 을 고려하지 않았습니다.다시 말해, 문장을 이해하려면 단순히 단어가 순서대로 나타나는 횟수만 세면 안 됩니다.이를 “Bag of Words” 방법이라고 하는데, 한때 시도된 언어 처리 방법이었습니다.
인간에게 위 그림의 두 문장은 완전히 다른 의미를 지닙니다.하지만 Bag of Words 메서드에서는 두 문자가 동일한 것으로 보입니다.당연한 다음 단계는 단어의 빈도뿐 아니라 단어의 순서를 설명하는 해결책을 찾는 것이었습니다.
이전 모델은 각 단어를 하나씩 전달했기 때문에 문장에서 단어가 어디에 있는지 아는 데 문제가 없었습니다.하지만 트랜스포머는 단어를 병렬로 전달하기 때문에 단어의 컨텍스트를 제공하기 위한 새로운 솔루션이 필요했습니다.트랜스포머는 각 단어를 처리할 때 단어를 컴퓨터가 이해할 수 있는 것으로 번역한 다음 단어에 위치 참조도 추가합니다.따라서 “Omneky”라는 단어의 인스턴스가 여러 개 있는 경우 위치 참조를 통해 컴퓨터는 텍스트 내에서 각 인스턴스가 어디에 있는지 알 수 있습니다.단어+위치의 이 방정식은 컴퓨터에 컨텍스트를 생성합니다.
현재 사전 학습된 언어 모델
많은 모델이 구글의 “Attention is All You Need”에 나와 있는 초기 트랜스포머에 기반을 두고 있습니다.모든 주요 기업은 자체적으로 대규모 언어 모델을 교육하고 있습니다.OpenAI에는 GPT/GPT-2/GPT-3, 구글에는 버트/앨버트/XLNet/T5, 페이스북에는 로버타/XLM/바트, 마이크로소프트는 튜링-NLG 등이 있습니다. 시간이 지남에 따라 기업들은 계속해서 더 큰 모델을 개발하고 있습니다.하지만 상용 하드웨어에서 효율적으로 실행되고 더 넓은 커뮤니티에서 이용할 수 있는 모델을 만드는 데도 중점을 두고 있습니다.
여기에서 Huggingface를 사용하여 사전 학습된 오픈 소스 모델을 사용해 볼 수 있습니다.
https://transformer.huggingface.co/
트랜스포머의 미래
OpenAI의 GPT-3 API를 둘러싼 많은 과대 광고가 있습니다.OpenAI의 GPT-3 API 덕분에 일반 개발자들이 전체 웹에서 학습한 OpenAI/Microsoft의 거대한 트랜스포머 모델을 이용할 수 있게 되었습니다.사용자들은 새 모델의 창의적인 응용 프로그램을 선보이기 위해 트위터로 몰려들었습니다.예를 들어, 웹 개발자 샤리프 샤밈 (@sharifshameem) 은 GPT-3 버전을 수정하여 HTML 코드를 생성하고 결과를 트위터에 올렸습니다.프롬프트만 사용함으로써 GPT-3 덕분에 웹 페이지 레이아웃을 제작할 수 있게 되었습니다.창의성을 발휘할 수 있는 응용 분야는 무궁무진합니다.

랭귀지 트랜스포머와 옴네키
Omneky의 목표는 딥 러닝을 활용하여 대기업과 중소기업 간의 “디지털 마케팅 경쟁의 장”을 평준화하는 것입니다.Salesforce의 수석 과학자인 Richard Socher는 “Omneky는 마케팅에 도움이 되는 AI를 원하는 모든 회사에 트랜스포머를 유용하게 만들고 있습니다.” 라고 말합니다.Omneky는 NLP와 언어 변환기를 사용하여 대화를 유도할 수 있는 개인화된 광고 카피의 초안을 작성합니다.Omneky의 소프트웨어는 예측 분석과 텍스트 생성 도구를 결합하여 버튼 클릭 한 번으로 맞춤형 Facebook 광고 크리에이티브를 만들 수 있도록 도와줍니다.이를 통해 Omneky는 기존 마케팅 회사의 1/4 비용으로 광고 캠페인을 만들고 관리할 수 있습니다.현재 서비스를 무료로 체험할 수 있는 2주 무료 평가판을 제공하고 있습니다. 데모를 예약하기만 하면 됩니다. 이리!