상세 컨텐츠

본문 제목

ChatGPT에 이미지 업로드 기능 활용 총정리

잡학다식 & 자료 창고

by 그림아이 2023. 10. 14. 13:09

본문

반응형

ChatGPT에 이미지 업로드 기능 활용 총정리

 

제가 ChatGPT를 써보기 시작한지 벌써 1년이 다 되어 갑니다. 2023년 1월초에 처음 사용해보고 충격에 빠져 한동안 정신이 멍했던 기억이 납니다. 이후로 관련 서적과 유튜브들을 모조리 다 읽고 들으며 공부했습니다. 2023년 2월 GPT-4가 나오고 유료로 전환되자마자 유료 회원으로 등록했고 거의 매일 이렇게 저렇게 사용하면서 경험치를 축적하고 있습니다.

 

그러다가 지난 2023년 7월 ChatGPT는 또 다시 새롭게 변모했습니다. 바로 이미지 업로드 기능을 탑재한 것입니다. 아래 링크를 통해 알고는 있었지만 바빠서 사용해보지 못하고 있다가 얼마 전 시험 삼아 이것저것 해봤습니다. 오늘은 그 이야기를 해보려고 합니다.

https://chatgptplus.blog/chatgpt-image-input/

 

ChatGPT Image Input: How to upload images to ChatGPT? - ChatGPT Blog

ChatGPT has been incredibly helpful in various areas, assisting us greatly with tasks such as summarizing articles and organizing or composing emails. What about using ChatGPT with images? Here, we provide a comprehensive guide on using ChatGPT with image

chatgptplus.blog

 

사실 2023년 3월경에 아래 이미지와 같이 OpenAI가 짧막하게 시연한 적이 있었습니다.

ChatGPT와 이미지

 

반응형

 

ChatGPT에게 이미지를 보여주고 “저 줄을 자르면 어떻게 될까?”라고 물었습니다. 그랬더니 “날아가버릴 것입니다. (The balloons would fly away.)”라고 답합니다. 별 것 아닌 것 같지만 저는 다시 한 번 충격에 빠졌습니다. AI가 이미지를 인식하는 것은 그리 만만한 작업이 아닙니다. 2000년대 초반 구글에서 고양이 이미지를 구별하는 프로젝트를 선보인 적이 있었습니다. 컴퓨터의 이미지는 픽셀 단위로 되어 있어 픽셀과 픽셀이 무수히 많이 연결된 모자이크나 직소 퍼즐 같이 구성되어 있습니다. 이것을 픽셀 단위로만 보면 이미지가 고양이인지 강아지인지 구별하기가 매우 어렵습니다.

 

그런데 이제는 이미지에 줄이 있는 줄도 알고, 거기에 연결된 것이 풍선인 줄도 알며, 풍선이 공중에 떠 있어서 줄을 자르면 날아갈 것이라는 인과 관계까지 이해하고 있습니다. 이미지를 단순히 인식만 하는 것이 아니라 전후 맥락과 인과 관계까지 완벽하게 이해하고 있다는 의미입니다. 인공지능의 발전 속도가 정말 빨라도 너무 빠르다는 생각을 해봅니다.

 

이미지를 업로드 할 때는 아래 메시지를 주목하고 주의해야 합니다. 내용을 가져와 보면, “Chat with images; Use photos to choose an outfit or analyze complex documents. Chatting about people in images isn’t supported. Learn more.” 즉, 의상을 고르거나 복잡한 문서를 분석하기 위해 사진을 사용하라는 얘기이고, 이미지 안에 있는 사람들에 관한 채팅은 지원하지 않는다고 합니다.

ChatGPT

 

아무래도 인종차별, 인신 공격, 혐오 범죄 등의 우려가 있기 때문인 것으로 생각됩니다. 어쩌면 당연한 조치라고 생각합니다.

 

어쨌든 저는 ChatGPT가 풍선 이미지처럼 이미지를 얼마나 잘 이해하고 있는지 시험을 해보기로 했습니다. 하나씩 보여 드릴 테니 직접 다른 이미지들로 시험해보시기를 추천 드립니다.

 

 

1. 그래프 이미지

그래프 이미지

 

위 그래프는 미국 연방 기금의 목표 금리를 1970년부터 최근까지 변동 현황을 보여주고 있습니다. 이미지를 업로드하고 이 이미지를 짧게 설명해달라고 했더니 아래와 같이 답변했고, 구글 번역기로 번역하여 우리말로 옮겼습니다.

 

첨부된 이미지는 1970년대부터 2020년대까지의 연방기금 목표금리를 선 그래프로 나타낸 것입니다. 다음은 몇 가지 주요 관찰 사항입니다.
 
1. 연방기금 목표 금리: 그래프는 50년 동안 이 금리의 궤적을 보여줍니다. 이 비율은 80년대 초반에 가장 정점을 찍고 80년대 후반에 다시 정점을 찍다가 2000년대 초반에 점차 감소하는 모습을 보이며 변동합니다. 그런 다음 비율은 일정 기간 동안 안정화되고 2000년대 후반부터 2010년대 초반까지 거의 0%로 떨어졌다가 타임라인이 끝날 무렵 다시 상승하기 시작합니다.
 
2. 경기 침체: 그래프는 경기 침체 기간을 나타내기 위해 음영 처리된 수직 막대를 사용합니다. 이러한 경기 침체 기간은 연방기금 목표 금리의 눈에 띄는 변동과 일치합니다.
 
3. 0.25포인트 인상: 그래프의 오른쪽 끝 부분에 0.25포인트의 특정 금리 인상을 나타내는 라벨이 있어 최근 금리 인상을 암시합니다.
 
전반적으로 이 그래프는 연방 기금 목표 금리가 시간이 지남에 따라 어떻게 변했는지, 그리고 경기 침체 기간과의 관계를 시각적으로 보여줍니다.

 

정말 훌륭합니다. 회사에서 몇 가지 자료 던져주고 정리해오라고 하면 이젠 사람이 하지 않아도 될 것 같습니다. 저런 그래프로 기사를 쓰는 기자들도 마찬가지로 이젠 별로 필요 없을 것 같습니다. 여기서 더 발전하면 전문가 의견도 대신할 수 있을 것 같습니다.

 

 

2. 태양광 공사 현장

태양광 이미지

 

위 이미지를 업로드하면서 “저 사람들이 지금 무엇을 하고 있고, 다음에 어떤 일이 벌어질 것 같 같은가?”라고 물었습니다. 그랬더니 아래와 같이 답했습니다.

 

해당 이미지는 대규모 태양광 발전소로 보이는 곳에 태양광 패널을 설치하는 작업자 그룹을 묘사합니다. 그들은 안전 규정을 준수하고 있음을 나타내는 안전 조끼와 헬멧을 착용하고 있습니다.
 
이미지의 맥락을 고려하면 다음과 같습니다.
 
· 사람들은 지금 무엇을 하고 있나요? 근로자는 태양광 발전소에 태양광 패널을 설치하거나 유지 관리하는 데 적극적으로 참여하고 있습니다. 
·  다음에 무슨 일이 일어날까? 현재 설치가 완료된 후 어레이의 다른 패널을 설치하거나 유지 관리할 가능성이 높습니다. 전체 태양광 발전소가 설치되면 햇빛을 활용하여 전기를 생산하기 시작합니다. 시간이 지남에 따라 태양광 패널의 최적 성능을 보장하려면 정기적인 검사와 유지 관리가 필요합니다.

 

정말 소름이 끼칩니다. 사람들이 태양광 발전소를 공사하는 것과 태양광 패널을 이해하고 있을 뿐만 아니라 인부들이 안전모와 안전 조끼를 착용하고 있는 것도 이해하고 있습니다. 게다가 발전소의 공사 완료 후 유지 관리와 전기 생산이 이루어질 것이라는 점 또한 완벽하게 이해하고 있습니다.

 

 

3. 도시에서 자전거 타기

자전거와 이미지

 

위 사진을 업로드 하면서 “저 사람들 좀 위험해 보이지 않아? 왜 그렇게 생각해? 아니라면 왜 아니라고 생각해?”라고 물었습니다. 그랬더니 대답이 기가 막힙니다.

 

이미지에는 도시 환경에서 자전거를 타고 자동차와 도로를 공유하는 자전거 타는 사람들의 그룹이 표시됩니다.
 
이미지를 기준으로:
위험해 보이는 이유:
1.      자동차와의 근접성: 자전거 이용자는 자동차와 도로를 공유하고 있습니다. 운전자가 주의를 기울이지 않거나 자전거 운전자가 갑자기 움직일 경우 충돌의 위험이 있습니다.
2.      교통 규칙: 특정 위치의 규칙과 문화에 따라 자전거 이용자는 운전자와 동일한 권리를 가질 수도 있고 그렇지 않을 수도 있으며, 오해로 인해 사고가 발생할 수 있습니다.
3.      보호 장비 부족: 이미지의 일부 자전거 운전자는 헬멧을 착용하지 않은 것으로 나타나므로 넘어지거나 충돌할 경우 부상 위험이 높아질 수 있습니다.
 
위험해 보이지 않는 이유:
1.      인식: 자전거가 대중적인 교통수단인 많은 유럽 도시에서 흔히 볼 수 있는 장면입니다. 운전자와 자전거 운전자 모두 도로를 공유하는 데 익숙해져 잠재적인 위험을 줄일 수 있습니다.
2.      눈에 보이는 자전거 운전자: 자전거 운전자는 대규모 그룹에 속해 있어 운전자의 눈에 잘 띕니다.
3.      느린 속도: 자전거 타는 사람이 그다지 빠르게 달리는 것 같지 않고, 심지어 자동차도 적당한 속도로 움직이는 것처럼 보이므로 잠재적인 사고의 심각성을 줄일 수 있습니다.
 
요약하면, 자전거 타는 사람에게 위험으로 인식될 수 있는 요소가 현장에 있는 반면, 이러한 위험을 완화할 수 있는 요소도 있습니다. 위험 수준은 현지 문화, 규칙, 사이클링을 지원하는 인프라에 따라 달라질 수도 있습니다.

 

정말 사람들이 대답하는 것 이상으로 더 많은 정보를 제공할 수 있다는 것을 보여주는 예입니다. 어떤 사람이 이렇게 답할 수 있을까요? 정말 대단합니다.

 

 

4. 군중들의 모습

군중과 이미지

 

위 이미지는 제가 ChatGPT를 시험해보고 싶어서 골랐습니다. 얼마 전 19년 만에 일본 프로야구를 우승한 한신 타이거즈의 팬들이 오사카 도톤보리에 모여 강으로 뛰어드는 퍼포먼스를 하려고 하는 사진입니다. 경찰들이 막기 위해 투입되어 다행히 인명 피해는 없었다고 하는데 이 이미지를 이해하는지 물어봤고 대답은 다음과 같습니다.

 

이 이미지는 공개 행사나 시위에 참석한 대규모 사람들의 모습을 보여줍니다. 시각적 요소를 기반으로 한 몇 가지 관찰과 잠재적인 해석은 다음과 같습니다.
 
1.      혼잡한 모임(Crowded Gathering): 사람들의 밀도는 공개 축하 행사, 축제 또는 시위가 될 수 있는 중요한 행사나 모임을 암시합니다. 이러한 모임은 참가자들 사이에 단결감과 목적 공유를 불러일으킬 수 있지만 안전 및 공공 질서와 관련된 잠재적인 위험을 안겨주기도 합니다.
 
2.      제복을 입은 인원의 존재: 보안 요원 또는 경찰관으로 추정되는 제복을 입은 개인이 군중 속에 산재해 있고 경계선 주위에 주둔하고 있습니다. 그들의 존재는 조직적인 행사를 의미할 수도 있고, 안전과 질서를 보장하기 위해 그곳에 있을 수도 있습니다.
 
3.      손들기와 표지판: 군중 속의 많은 사람들이 손을 들고 있고 일부는 표지판이나 깃발을 들고 있습니다. 이는 상황에 따라 항의, 집회 또는 축하 제스처를 나타낼 수 있습니다.
 
4.      장소: 모임은 강이나 운하와 같은 수역 근처에서 진행되며 동아시아 문자로 보이는 표지판이 있는 건물 근처에서 진행됩니다. 이는 행사의 문화적 또는 지리적 환경에 대한 맥락을 제공할 수 있습니다.
 
5.      잠재적 위험: 특히 물 근처에서 이러한 대규모 모임은 안전 문제를 야기할 수 있습니다. 과밀, 잠재적인 압사 또는 물 근처 사고는 관리해야 할 위험입니다.
 
요약하면, 이미지만으로는 행사의 정확한 성격이 명확하지 않지만 잠재적인 문화적, 사회적, 정치적 의미를 지닌 중요한 모임임은 분명합니다. 안전과 군중 관리는 제복을 입은 직원의 존재로 어느 정도 해결되는 것으로 보입니다.

 

정확히 일본의 오사카라는 것은 알지 못했고 한신 타이거즈의 우승이라는 최신 뉴스와의 연관성도 찾지 못했습니다. 이미지 속에 일본어도 있는데 장소를 동아시아 정도로 표현하고 있습니다. 그러나 제복을 입은 사람들이 안전과 질서를 유지하고 있다는 것과 사람들이 손에 뭔가를 들고 있다는 점 등은 정확합니다. 게다가 안전 사고에 대한 잠재적인 위험이 있음을 이해하고 있다는 점도 놀랍습니다.

 

 

5. 맨하탄 프로젝트의 트리니티 실험

트리니티 실험 이미지

 

위 사진 역시 제가 ChatGPT를 시험해보고 싶어서 골랐습니다. 영화를 보신 분들은 아시겠지만 최근 개봉했던 영화 중 오펜하이머라는 영화가 있었습니다. 1945년 인류 최초의 핵무기 개발과 실전 투입에 관한 내용이었는데 이미지만으로 이해할 수 있는지 시험해봤습니다. “지금 뭐하고 있는 것 같아? 다음에 어떤 일이 벌어질 것 같아?”라고 물었더니 대답은 다음과 같습니다.

 

이미지에는 맑고 푸른 하늘을 배경으로 전망대나 관측탑처럼 보이는 높은 금속 구조물이 나와 있습니다. 하단에는 패턴이나 로고로 장식된 캡슐이나 양동이 같은 물체가 있다.
 
이미지를 기준으로:
지금 진행 중인 작업:
1.      전망대 또는 전망대: 타워는 주변 지역을 관찰하기 위한 유리한 지점 역할을 할 수 있습니다. 산불 감시, 야생 동물 관찰, 관광 명소 등 다양한 목적으로 사용될 수 있습니다.
2.      유지 관리 또는 건설: 캡슐이나 양동이 같은 물체가 있다는 것은 일부 유지 관리 또는 건설 활동이 진행 중임을 암시할 수 있습니다. 도르래 시스템일 수도 있고 자재나 인력을 운반하는 데 사용되는 리프트일 수도 있습니다.
 
다음에 무슨 일이 일어 날까:
1.      완료: 타워가 건설 중이거나 유지보수 중인 경우 완료될 때까지 작업이 계속됩니다. 그 후에 타워는 의도된 기능을 재개하거나 시작합니다.
2.      용도: 일단 작동되면 보안이나 환경적 이유로 관찰하거나 관광객을 위한 명소로 목적을 달성할 수 있습니다.
3.      안전점검: 높이와 구조를 고려하여 사용자의 안정성과 안전성을 확보하기 위해서는 정기적인 안전점검이 필요합니다.
 
결론적으로, 이미지는 잠재적으로 관찰이나 관광 분야에서 특정한 유용성을 갖는 구조를 묘사합니다. 건설 또는 유지 관리 중인 경우 다음 단계에는 완료 및 의도된 사용에 대한 준비가 포함됩니다. 높이와 목적을 고려할 때 안전이 가장 중요합니다.

 

역시나 이해하지 못하고 있습니다. 그래서 안타까운 마음에 질문을 추가로 해봤습니다. “저 사진이 트리니티 실험의 한 장면이라고 하면, 위에서 네가 답변한 내용이 달라질까?”라고 물었고 답변은 다음과 같습니다.

 

네, 만약 그 이미지가 트리니티 테스트와 관련된 것이라면 맥락과 해석이 상당히 다를 것입니다.
 
1945년 7월 16일에 실시된 트리니티 테스트는 맨해튼 프로젝트의 일환으로 이루어진 최초의 핵무기 폭발이었습니다.
 
해당 맥락을 고려하면 다음과 같습니다.
 
지금 진행 중인 작업:
1.      테스트 준비: 타워는 폭발을 위해 최초의 원자폭탄이 매달린 구조물일 수 있습니다. 이러한 타워는 지상 위 특정 높이에 폭탄을 보관하기 위해 건설되었습니다.
2.      측정 및 관찰: 폭발, 방사선 및 기타 폭발 효과를 측정하기 위해 장비와 기반 시설이 설치됩니다.
 
다음에 무슨 일이 일어 날까:
1.      폭발: 현장이 실제 테스트 전이라면 임박한 사건은 핵 장치의 폭발일 것입니다.
2.      데이터 수집: 핵폭발의 위력과 영향을 이해하기 위해 폭발 후 다양한 장비의 데이터가 수집됩니다.
3.      평가: 과학자와 군인은 결과를 분석하여 무기의 효율성과 전쟁에서의 잠재적 사용 가능성을 판단합니다. 또한, 데이터는 핵 폭발이 환경 및 건강에 미치는 영향을 이해하는 데 사용됩니다.
 
트리니티 테스트의 역사적 중요성과 그것이 세계 전쟁, 지정학, 과학에 미치는 영향을 고려할 때, 이러한 맥락에서 이미지를 이해하는 것은 단순한 전망대와는 크게 다른 해석이 될 것입니다.

 

구체적으로 알려주고 범위를 좁혀주니 답변의 정확도가 훨씬 높아진다는 것을 알 수 있습니다. 

기대에 조금 못 미치더라도 ChatGPT가 한계가 있고 문제가 많다고 생각할 것이 아니라, ChatGPT가 잘하는 것을 최대한 활용하여 자신의 분야에 적용시키는 노력을 모두가 해야 합니다.

 

이와 같이 ChatGPT의 발전 가능성은 현재도 미래도 무궁무진한 것 같습니다. 저는 계속해서 ChatGPT로 무엇을 할 수 있는지에 대해 공부하고 연구해볼 생각입니다. 이 글처럼 공부하다가 중간중간 후기를 남겨 모두와 공유하겠습니다.

 

감사합니다.

 

 

참고할 만한 다른 글

 

숫자 야구 버전1 파이썬 게임 무료 다운로드: 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규칙 등 공개 (tistory.com)

 

숫자 야구 버전1 파이썬 게임 무료 다운로드: 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규칙

숫자 야구 버전1 파이썬 게임 무료 다운로드 □ 제목 : 숫자 야구 버전1 (Baseball With Numbers Version1) □ 언어 : Python (파이썬) □ 제작 : 알고리즘 작성 → ChatGPT에 제작 요청 → 디버깅 및 검토 → ChatGP

studyingengineer.tistory.com

숫자 야구 버전2 파이썬 게임 무료 다운로드: 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규칙 등 공개 (tistory.com)

 

숫자 야구 버전2 파이썬 게임 무료 다운로드: 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규칙

숫자 야구 버전2 파이썬 게임 무료 다운로드 □ 제목 : 숫자 야구 버전2 (Baseball With Numbers Version2) □ 언어 : Python (파이썬) □ 제작 : 알고리즘 작성 → ChatGPT에 제작 요청 → 디버깅 및 검토 → ChatGP

studyingengineer.tistory.com

숫자 야구 버전3 파이썬 게임 무료 다운로드: 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규칙 등 공개 (tistory.com)

 

숫자 야구 버전3 파이썬 게임 무료 다운로드: 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규칙

숫자 야구 버전3 파이썬 게임 무료 다운로드 □ 제목 : 숫자 야구 버전3 (Baseball With Numbers Version3) □ 언어 : Python (파이썬) □ 제작 : 알고리즘 작성 → ChatGPT에 제작 요청 → 디버깅 및 검토 → ChatGP

studyingengineer.tistory.com

Wordle (워들) 파이썬 게임 무료 공개 (광고 없음): 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규칙 등 공개 (tistory.com)

 

Wordle (워들) 파이썬 게임 무료 공개 (광고 없음): 파이썬 소스 코드, ChatGPT와의 제작 과정, 게임 규

Wordle (워들) 게임 무료 공개 제목 : Wordle 게임 언어 : Python (파이썬) 제작 : 알고리즘 작성 → ChatGPT에 제작 요청 → 디버깅 및 검토 → ChatGPT에 보완 요청 → 완성 공개 : 2023년 5월 14일, 광고 없음

studyingengineer.tistory.com

ChatGPT 활용사례 및 활용 팁 (tistory.com)

 

ChatGPT 활용사례 및 활용 팁

ChatGPT 활용사례 및 활용 팁 제목 : [업무활용편] ChatGPT 활용사례 및 활용 팁 발행 : 2023. 3. 형식 : pdf 44 page 제작 : 서울디지털재단 자료 다운로드 : [이슈 레포트] 업무활용편_ChatGPT 활용사례 및 활

studyingengineer.tistory.com

 

 

728x90
반응형

관련글 더보기

댓글 영역