AI/빅데이터는 정보관리 및 컴퓨터시스템응용 기술사 시험에서 점점 더 중요해지고 있는 핵심 도메인입니다. 방대하고 심도 있는 AI/빅데이터 관련 지식은 단순히 시험 합격을 넘어, 실제 IT 현장에서의 문제 해결 능력과 통찰력을 키워주는 중요한 역량이 됩니다. 이 글에서는 기술사 시험을 준비하는 여러분들이 반드시 알아야 할 AI/빅데이터의 핵심 개념부터 보안 위협까지, 5가지 주요 영역을 자세히 살펴보겠습니다.
1. AI/빅데이터의 기본 개념과 핵심 기술들
정보관리 및 컴퓨터시스템응용 기술사라면 AI/빅데이터의 기본적인 정의와 특성을 완벽하게 이해하고 있어야 합니다. 특히 최신 기술 트렌드를 반영한 AI 용어들을 정확히 아는 것이 중요합니다.
1.1. AI 학습용 데이터와 그 특성
인공지능 학습용 데이터는 머신러닝, 딥러닝 등 AI 모델 학습에 사용되는 모든 데이터를 의미합니다. 특히 지도 학습에서는 라벨링된 데이터가 필수적이죠. 이러한 데이터는 대부분 텍스트, 음성, 이미지, 동영상과 같은 비정형 데이터이며, 데이터 파일 단위로 관리되는 특성을 가집니다.
- 어노테이션(Annotation): 데이터 라벨링 과정에서 원천 데이터에 주석을 표시하는 작업을 말하며, 이러한 설명 정보 표현 방식 자체를 지칭하기도 합니다. 데이터에 의미를 부여하는 핵심 작업이랍니다.
- 원천 데이터(Raw Data): 라벨링 공정에 투입하기 전 전처리 및 정제 작업을 거친, 라벨링이 아직 부여되지 않은 상태의 데이터를 의미합니다. AI 학습 데이터 구축의 첫 단계라고 할 수 있어요.
1.2. 진화하는 AI 기술의 최신 트렌드
AI/빅데이터 기술은 빠르게 발전하고 있으며, 시험에서도 이러한 최신 동향에 대한 이해를 묻는 문제가 자주 출제됩니다.
- 온디바이스 AI(On-device AI): 멀리 떨어진 클라우드 서버를 거치지 않고 스마트 기기 자체적으로 정보를 수집하고 연산하는 AI 기술입니다. 빠른 응답 속도, 개인정보 보호, 저전력/저비용이 특징으로, 우리 주변의 다양한 스마트 기기에 적용되고 있습니다. 🚀
- 연합 학습(Federated Learning): 여러 위치에 분산 저장된 데이터를 직접 공유하지 않으면서 협력하여 AI 모델을 학습하는 분산형 머신러닝 기법입니다. 데이터 주권과 개인정보 보호를 강화하면서도 모델의 성능을 향상시키는 데 기여합니다.
- 파운데이션 모델(Foundation Model): 대규모 데이터셋에 사전 학습되고, 출력의 범용성을 고려하여 설계되어 다양한 작업에 적용될 수 있는 AI 기초 모델입니다. 대규모 학습 데이터와 파라미터, 전이 학습, 창발성, 다목적성이 특징이며, 최근 LLM(Large Language Model)의 기반이 됩니다.
- 에이전틱 AI(Agentic AI): 특정 목표 달성을 위해 다양한 AI 기술을 메모리, 계획, 환경 감지, 도구 활용, 안전 지침 준수와 같은 기능과 결합하여 스스로 작업을 수행하는 AI입니다. 자율성, 적응성, 목표 지향성, 지속적 학습, 상호작용성이 주요 특징입니다. 마치 로봇 집사처럼 스스로 판단하고 행동하는 AI를 상상해 보세요!
- 멀티모달 AI(Multimodal AI): 이미지, 텍스트, 음성, 비디오 등 다양한 모달리티를 동시에 받아들이고 사고하는 AI 모델입니다. 사람처럼 여러 감각 정보를 종합하여 이해하고 추론하는 능력을 가집니다.

2. 데이터 획득, 정제 및 품질 관리의 중요성
AI 학습용 데이터의 생명 주기 전반에 걸친 이해는 기술사에게 필수적인 역량입니다. 양질의 AI/빅데이터를 확보하고 관리하는 것이 곧 AI 모델의 성능을 결정하기 때문이죠.
2.1. 효과적인 데이터 획득 및 정제 방법
데이터 획득 및 정제 방법에는 원시 데이터 정의, 보편적인 포맷 활용, 획득 규모 반영 등이 포함됩니다. 특히 정제 과정에서는 유사 이미지 중복 제거, 개인정보 비식별화(예: 인물 얼굴이나 자동차 번호판에 흐림 효과 적용)가 매우 중요합니다. 또한, 데이터 분류 간 균형과 분류 내 인스턴스 간 균형을 확보하는 것도 핵심 기준이 됩니다.
2.2. 인공지능 학습용 데이터 품질 관리
인공지능 학습용 데이터 품질 관리는 AI 학습용 데이터의 ‘구축 과정’, ‘특성’, ‘생애 주기’, ‘품질 관리 영역’을 정의하고 품질을 유지 및 향상시키기 위한 체계적인 활동을 의미합니다. 품질의 80~90% 이상이 구축 과정에서 결정되므로, 계획 수립, 획득/수집, 정제, 가공, 학습, 운영/활용 단계별 품질 요구사항을 충족하는 것이 중요합니다.
- ModelOps: AI/ML 기반 라이프사이클을 지속적으로 운영하여 AI 모델 구축 주기에 수반되는 수동 반복 작업을 해결하며, AI 서비스 적용에 중점을 둔 MLOps의 상위 개념입니다. 모델 배포부터 모니터링, 재학습까지 전 과정을 자동화하고 최적화하여 AI 서비스의 안정성과 효율성을 높입니다.
3. AI 시스템 하드웨어 및 인프라의 이해
AI/빅데이터는 엄청난 컴퓨팅 파워를 필요로 하므로, 관련 하드웨어 지식 또한 기술사 시험의 중요한 출제 포인트입니다.
3.1. AI 연산을 위한 다양한 프로세서
CPU, GPU, FPGA, ASIC은 인공지능 시스템에서 활용되는 주요 프로세서들입니다. 각각 처리 능력과 전력 소비 측면에서 다른 특징을 가집니다.
- GPU(Graphics Processing Unit): 단순 병렬 연산에 매우 강하여 딥러닝 학습에 주로 사용됩니다.
- FPGA(Field-Programmable Gate Array): 재프로그래밍이 가능하여 특정 작업에 맞게 하드웨어를 유연하게 구성할 수 있습니다.
- ASIC(Application-Specific Integrated Circuit): 특정 용도에 최적화된 성능과 전력 효율을 제공하여 대규모 AI/빅데이터 시스템에 활용됩니다.
- NPU(Neural Processing Unit): 인공지능 네트워크 연산에 특화되어 연산 효율을 높이거나 에너지 효율을 증가시키기 위해 개발된 칩입니다. 스마트폰이나 엣지 디바이스에서 AI 연산을 빠르게 처리하는 데 필수적입니다.
- AI SoC(System-on-Chip) 솔루션: 비전 및 음성 관련 작업 가속기를 탑재하여 가전제품에서 필요한 AI 분석을 지원합니다. 스마트 가전의 AI 기능을 가능하게 하는 핵심 기술이죠!
- 뉴로모픽 칩(Neuromorphic Chip): 폰 노이만 병목 현상(CPU와 메모리 간의 데이터 전송 병목 현상)을 해결하기 위해 뉴런-시냅스 구조의 저전력 코어로 병렬 처리하는 반도체 소자입니다. 인간 뇌의 작동 방식을 모방하여 효율적인 AI 연산을 목표로 합니다.
3.2. 대규모 AI 서비스를 위한 데이터센터 인프라
대규모 AI/빅데이터 서비스를 위해서는 강력한 데이터센터 인프라 구축 기술이 필수적입니다.
- 저지연 기술: 고속 네트워크 인프라, CDN(콘텐츠 전송 네트워크), 엣지 컴퓨팅, 고성능 컴퓨팅 하드웨어, SDN(소프트웨어 정의 네트워크)/NFV(네트워크 기능 가상화) 등을 통해 데이터 처리 지연 시간을 최소화합니다.
- 스케일링 확보 기술: 수평 확장(서버 증설), 수직 확장(서버 성능 향상), 오토스케일링(자동 확장/축소) 등을 통해 서비스 트래픽 변화에 유연하게 대응합니다.
- DCI(Data Center Interconnect) 기술: 여러 데이터센터 간의 고속 연결을 통해 분산된 AI/빅데이터 시스템을 효율적으로 통합합니다.
4. AI/빅데이터 관련 법적, 윤리적, 사회적 고려사항
AI/빅데이터 기술의 발전과 함께 대두되는 윤리적, 사회적 문제에 대한 인식과 대응 방안은 기술사 시험에서 점점 더 강조되고 있습니다. AI 시대의 책임감 있는 전문가가 되기 위한 필수 지식이죠!
4.1. 메타버스 AI와 프라이버시 리스크
메타버스 내 AI는 저작권 이슈, 개인정보 처리 리스크, 영상정보 처리 기기 사용 제한, 아동 개인정보 보호, 국경 간 데이터 이동, 위치 정보 활용 등 다양한 프라이버시 리스크를 동반합니다. 이에 대한 선제적 보안 정책 수립, 개인정보 보호 전략, 거버넌스 구축이 시급합니다.
4.2. 인공지능 윤리 기준과 거버넌스
인공지능 윤리기준은 ‘인간 존엄성 원칙’, ‘사회의 공공선 원칙’, ‘기술의 합목적성 원칙’의 3대 기본 원칙과 ‘인권보장, 프라이버시 보호, 다양성 존중, 침해 금지, 공공성, 연대성, 데이터 관리, 책임성, 안전성, 투명성’의 10대 핵심 요건을 제시합니다. AI/빅데이터를 개발하고 활용하는 모든 과정에서 이 기준을 준수하는 것이 중요합니다.
AI 거버넌스는 인공지능을 효과적으로 관리하고 규제하기 위한 다계층 모형(기술 계층, 윤리적 계층, 사회적/법적 계층)을 포함하며, AI의 책임감 있는 발전을 위한 체계적인 틀을 제공합니다.
4.3. 생성형 AI의 역기능과 법적 이슈
생성형 AI의 급부상은 새로운 역기능 요소들을 초래하고 있습니다. 윤리 원칙 관점에서는 데이터 편향 및 차별, 생성 정보 출처 불명확, 개인정보 노출, 책임 소재 불명확, 악의적 사용 가능성 등이 있으며, 사회적 영향 관점에서는 허위 정보 생성 및 확산, 여론 조작, 차별 재생산, 일자리 대체, 저작권 침해 등이 있습니다.
AI 시스템의 법적 이슈로는 학습 데이터의 개인정보 보호, 데이터 사용 동의 및 권한, AI 생성물의 저작권 귀속, 저작권 침해의 책임 소재, 딥페이크 및 음성권 침해 등이 대표적입니다. 이에 대한 해결 방안으로는 데이터 제어 설정, 민감 정보 입력 금지, 콘텐츠 명시 가이드라인 마련, AI 기술 표준화 등이 제시됩니다.
4.4. 개인정보 보호를 위한 핵심 기술들
개인정보 비식별 처리는 개인정보의 일부 또는 전부를 삭제하거나 변형하여 특정 개인을 식별할 수 없도록 하는 조치입니다. 가명화, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등의 유형이 있습니다.
- 프라이버시 강화 기술(PET: Privacy Enhancing Technologies): 차등 프라이버시, 합성 데이터, 영지식 증명, 동형 암호화, 안전한 다자 연산(SMPC), 신뢰받는 실행 환경, 연합 학습 등이 있으며, 개인정보를 보호하면서도 데이터의 활용성을 높이는 데 기여합니다. 🔒
5. AI/빅데이터 관련 보안 위협 및 대응 방안
AI/빅데이터 시스템의 안정적인 운영을 위한 보안 지식은 아무리 강조해도 지나치지 않습니다. 다양한 보안 위협에 대한 이해와 효과적인 대응 방안을 숙지해야 합니다.
5.1. 머신러닝 학습 과정에서의 적대적 공격
머신러닝 학습 과정에서의 적대적 공격은 AI 모델의 신뢰성을 저해하는 심각한 위협입니다.
- 중독 공격(Poisoning Attack): 학습 데이터에 악의적인 데이터를 주입하여 모델의 성능을 저하시키거나 오동작을 유발합니다.
- 회피 공격(Evasion Attack): 모델이 특정 입력을 올바르게 분류하지 못하도록 미묘하게 변형된 입력을 주입합니다.
- 기밀성 도치 공격(Model Inversion Attack): 모델의 출력이나 특정 정보로부터 학습 데이터의 민감한 정보를 추론해냅니다.
- 모델 추출 공격(Model Extraction Attack): 모델의 동작 방식이나 파라미터를 복제하여 모델을 탈취합니다.
이에 대한 방어 기법으로는 적대적 훈련(Adversarial Training)이나 Defense-GAN 등 다양한 연구가 진행되고 있습니다.
5.2. AIoT 보안 취약점과 LLM 보안 위험
AIoT(AI + IoT)의 보안 취약점은 디바이스, 네트워크, IoT 플랫폼/서비스 전반에 걸쳐 발생하며, 프라이버시 침해, 기기 무단 조작, 데이터 위변조 및 유출, AI 시스템 보안 취약점 해킹 등이 포함됩니다. 디바이스 보안 기술로 경량 암호화, 접근 통제, 보안 저장 등이 제안됩니다.
LLM(Large Language Model) 보안 위험에는 프롬프트 인젝션(악의적인 명령 주입), 민감 정보 공개, 공급망 취약점, 데이터 및 모델 중독, 부적절한 출력 처리, 과도한 대행, 시스템 프롬프트 노출 등이 있습니다. 대응 전략으로는 DevSecOps(개발, 보안, 운영 통합), 실시간 위협 탐지, 안전한 자격 증명 관리 및 접근 제어 강화(다중 인증, 제로 트러스트) 등이 제시됩니다. 최신 AI/빅데이터 기술인 LLM의 보안은 더욱 중요해지고 있어요.
IT 전문가의 길, 정보관리 기술사와 컴퓨터시스템응용 기술사 5가지 핵심 비교와 미래 비전! 🚀
🚀 정보관리 기술사 & 컴퓨터시스템응용 기술사: 126회-136회 출제 경향 심층 분석 (Feat. AI, 보안, 실무 역량)