이제 일상생활에서 궁금증이 생기면 무엇이든 인공지능(AI)에게 대화 형식으로 물어보면 된다. 심지어 동영상을 찍어 검색하고 AI에게 도움을 구할 수도 있다. 단순히 글자를 검색창에 입력해 정보를 찾는 기존의 방식은 인터넷 역사의 뒤안길로 사라질 전망이다.
운전을 할 때도 AI가 비서 역할을 한다. 목적지를 음성으로 말하면 AI가 최적의 경로를 찾아주고, 사용자 요청에 따라 음악까지 재생한다. 이미 수년 전에 상용화된 기능이다. 이제는 챗GPT와 같은 AI가 자동차에 탑재돼 운전자가 춥다고 하면 히터까지 틀어주는 수준에 이르렀다.
아예 모바일이나 스마트 안경을 통해 언제 어디서나 전문적인 비서를 곁에 둘 수도 있다. 쇼핑을 할 때는 카메라로 상품을 촬영해 다른 매장과 가격을 비교할 수 있고, 드라마 속 주인공이 입은 옷에 대한 정보도 쉽게 얻을 수 있다.
SF(공상과학) 영화에서나 가능할 것 같던 미래의 일상이 현실로 다가온 것이다. 인류는 새로운 시대를 맞이할 전환점에 서 있다.
최근 오픈AI와 구글이 보고, 듣고, 말하는 차세대 AI 모델을 공개했다. 네이버도 글로벌 AI 생태계의 한 축을 담당하기 위해 자체 AI 모델을 공개하고 혁신 서비스 구축에 나섰다.
◆”이젠 제미나이 시대”…구글의 검색 혁신
순다르 피차이 구글 최고경영자(CEO)는 지난 14일 구글 개발자 콘퍼런스 ‘구글 I/O 2024’에서 “이제 구글은 완전한 제미나이 시대에 진입했다”고 선언했다.
구글은 전 세계 20억 명이 사용하는 검색, 지도, 사진, 이메일, 워크스페이스, 안드로이드OS 등 자사 서비스 전반에 생성형 AI를 접목한 ‘제미나이 생태계’를 구축하겠다는 목표를 밝혔다.
특히 구글의 검색 서비스 혁신을 강조했다. 기존의 키워드 기반 검색에서 벗어나, 사용자가 대화하듯 자유롭게 묻고 답을 얻을 수 있는 ‘AI 개요(AI Overview)’ 기능이 핵심이다. 음성뿐만 아니라 사진이나 동영상으로도 검색이 가능해진다.
리즈 리드 구글 검색 담당 부사장은 “이제부터 구글이 여러분을 대신해 ‘구글링(구글 검색)’을 해줄 것”이라고 설명했다.
예를 들어 검색창에 “보스턴에서 가장 좋은 요가 또는 필라테스 스튜디오를 찾아서, 그 곳은 어떤 곳인지, 또 비컨 힐에서 도보로 얼마나 걸리는지, 제공하는 혜택은 무엇인지 자세히 알려줘”라고 입력하면 AI가 모든 답변을 한꺼번에 제공한다.
구글 서비스와 최적화된 기능도 선보였다. “가족과 함께 마이애미에 가려고 해. 아들은 예술에 관심이 있고, 남편은 신선한 해산물을 정말 좋아해. 내 지메일에서 항공편과 호텔 정보를 가져와서 주말 일정 짜는 것을 도와 줄래?”라고 입력하면 모든 정보를 종합해 개인 맞춤형 여행 일정을 만들어준다. 일정을 변경하거나 세부 정보를 추가하면 자동으로 업데이트된다.
또 구글 포토 앱에 추가된 제미나이 버튼을 누르면 수많은 사진 속에서 이용자가 원하는 정보를 찾아준다. 예를 들어 “내 차량 번호판 찾아줘”라고 입력하면 AI가 번호판이 찍힌 사진을 찾아주는 식이다.
카메라로 영상을 촬영해 질문할 수도 있다. 예를 들어 구글 검색창 옆에 추가된 카메라 기능을 켜고 고장난 턴테이블을 촬영해 “어떻게 고쳐야 해?”라고 질문하면, AI가 제품명과 브랜드를 찾아내고, 수리하는 방법을 알려준다.
구글은 ‘제미나이’의 최신 버전으로 구동하는 멀티모달 AI 비서 ‘아스트라’도 공개했다. 아스트라는 스마트폰 카메라를 통해 보이는 사물 등을 분석해 실시간 음성 명령에 응답한다. 응답 시간도 대화 수준으로 낮췄다. 구글은 일부 기능을 연내 제미나이 앱과 같은 구글 제품에 제공될 예정이라고 전했다.
◆감정 담은 대화…인간적인 ‘GPT-4o’
오픈AI가 공개한 ‘GPT-4o’의 가장 큰 장점은 감정을 담은 듯한 음성 대화가 가능하다는 점이다. 기존 모델에 담긴 텍스트 대화는 물론, 시청각 추론까지 가능하다. 답변 시간도 사람의 대화 응답 시간과 비슷한 평균 320밀리초(0.32초) 정도로 빠르다.
사용자가 “잠을 잘 못자는 친구를 위해 이야기를 들려달라”고 요구하면 GPT-4o는 마치 할머니가 어린 손주들에게 들려주듯 ‘옛날 옛적에’로 시작되는 이야기를 한다. 시연자가 더 감정적으로 이야기를 해달라고 하자 마치 성우나 배우처럼 더 극적이고 감정을 섞은 목소리로 대화를 이어나가기도 했다. 이외에도 “내가 조금 긴장이 되는데 진정하려면 어떻게 해야 할까”라고 묻자 친구가 격려하듯이 “숨을 깊이 들이마셔봐”라는 답변이 돌아오기도 했다.
GPT-4o는 모바일 기기의 카메라를 활용해 상대방의 얼굴과 표정을 인식해 상대방의 감정 상태를 파악할 수 있다. 또한 화면 공유 기능을 통해 사용자의 컴퓨터 화면을 보고, 사용자가 어려워하는 수학 문제 풀이를 도와줄 수도 있다.
GPT-4o는 애플 맥OS용 데스크톱 앱으로 출시되며, 향후 아이폰의 음성비서 ‘시리’와도 결합돼 한 차원 높은 AI 비서 시대를 열 것으로 전망된다.
오픈AI는 구글이 장악했던 인터넷 검색 서비스 시장에도 도전장을 내민다. 마이크로소프트 ‘빙’ 검색에 탑재된 챗GPT를 넘어선 새로운 검색 서비스를 개발 중이며 조만간 발표할 예정인 것으로 알려졌다.
◆네이버 “연내 AI 검색에 음성·이미지 확장”
네이버도 연내 음성과 이미지 등 모달리티(Modality)를 확장한 AI 모델을 공개하겠다고 밝혔다. 이를 통해 사용 목적에 맞는 적합한 선택지를 더 다채롭게 제공하겠다는 계획이다.
네이버가 지난해 8월 공개한 초거대 AI 모델 ‘하이퍼클로바X’는 한국어 특화 언어모델이다. 한국어 데이터를 상대적으로 많이 학습했으며 한국의 사회·문화적 맥락, 법률·역사에 더 강력한 지식과 이해를 갖추고 있다.
특히 구글, MS 등 외산 검색 서비스에 맞서 통합검색에 생성형 AI 검색 서비스 ‘큐(CUE):’를 적용했다. 검색창에 복잡하고 긴 질의를 대화하듯 입력해도 AI가 원하는 결과를 요약해서 답변해주고 맞춤형 서비스까지 연결해준다.
네이버 관계자는 “현재 PC에서만 사용 가능한 ‘큐:’를 연내 모바일에서도 활용할 수 있도록 제공할 계획”이라고 전했다.