본문 바로가기

추천 검색어

실시간 인기 검색어

머신러닝 데이터 전처리 입문

실습하며 배우는 데이터 전처리 입문서
아다치 하루카 지음 | 김태현 옮김
로드북

2020년 11월 06일 출간

종이책 : 2020년 09월 21일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
파일 정보 pdf (20.00MB)
ISBN 9788997924776
쪽수 328쪽
듣기(TTS) 불가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 전자책 화면에 표기된 주석 등을 모두 읽어 줍니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
  • '교보 ebook' 앱을 최신 버전으로 설치해야 이용 가능합니다. (Android v3.0.26, iOS v3.0.09,PC v1.2 버전 이상)
  • sam 무제한 이용불가
  • sam 프리미엄 이용가능

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

작품소개

이 상품이 속한 분야

이 책은 인공지능이 올바른 데이터를 입력 받아 의미 있는 결과를 도출하는 과정에서 필수적으로 거쳐야 할 데이터 전처리에 관한 ‘입문서’이다. 정형 데이터뿐만 아니라 이미지, 텍스트 데이터와 같은 비정형 데이터를 다루는 방법을 제공한다. 데이터를 처리하고 분석하기 위해 가장 많이 사용되는 파이썬 언어를 사용하고, NumPy, Pandas 등 라이브러리를 통해 어떠한 방법으로 데이터를 시각화하고, 의미를 도출할 수 있는지를 자세하게 배울 수 있다. 실습 위주의 책이며, 파이썬을 조금만 알아도 누구나 쉽게 따라해보면서 데이터 전처리의 개념과 방법 등에 관한 기초지식을 충분히 습득할 수 있다. 이것을 기초로 스스로 데이터 전처리 전문가가 되는 길을 찾을 수 있을 것이다.

[샘플원고] www.roadbook.co.kr/244

_대상 독자
머신러닝이나 딥러닝을 학습하고 실무에서 모델을 작성해보고자 하는 입문자
인공지능 개발자가 되기 위해 고군분투 중인 취준생 개발자
지은이의 글
옮긴이의 글
감수자의 글
다운로드 및 개발환경 안내
일러두기

1장 데이터 분석, 활용을 시작하기 전에
1 데이터 기반 시대로
2 데이터 분석 프로젝트에 필요한 요소
3 데이터 분석 인재에게 필요한 스킬
컬럼 | 보충지식 1 BI로 무엇을 할 수 있나?
컬럼 | 보충지식 2 데이터처리가 빠른 툴은?

2장 데이터 분석의 프로세스와 환경
1 들어가며
2 비즈니스 이해
3 데이터 이해
4 데이터 준비
5 모델 작성
6 평가
7 배포/공유
8 데이터 분석 환경의 선택
9 주피터 노트북 사용 방법

3장 정형 데이터의 전처리 (1)
1 데이터 이해
2 데이터 준비
3 모델 작성
4 다시 데이터 준비로
5 다시 한번 모델 작성으로
컬럼 | 보충지식 1 데이터 결합
컬럼 | 보충지식 2 오버 샘플링
컬럼 | 보충지식 3 분할의 순도
[함께 해봐요 3-1] Pandas를 사용한 파일 업로드
[함께 해봐요 3-2] 데이터의 행수와 열수 확인
[함께 해봐요 3-3] 데이터형 확인
[함께 해봐요 3-4] 결손값의 포함 유무 확인
[함께 해봐요 3-5] 결손값의 개수 파악
[함께 해봐요 3-6] 데이터형이 수치인 항목의 통계량 계산
[함께 해봐요 3-7] age의 히스토그램 작성
[함께 해봐요 3-8] age와 balance 산포도 작성과 항목 관련성 확인
[함께 해봐요 3-9] 문자열 항목 중 job의 원 그래프 작성 (1)
[함께 해봐요 3-10] 문자열 항목 중 job의 원 그래프 작성 (2)
[함께 해봐요 3-11] y의 원 그래프 작성 및 데이터 분포 확인
[함께 해봐요 3-12] 목적변수 y에 대한 데이터 분포 확인
[함께 해봐요 3-13] 전처리를 위한 코드 입력
[함께 해봐요 3-14] 각 항목의 데이터형 재확인
[함께 해봐요 3-15] 결손값 제외
[함께 해봐요 3-16] 결손값 보완
[함께 해봐요 3-17] 특이값(이상치) 제외
[함께 해봐요 3-18] 값 두 개를 가지는 데이터 변환
[함께 해봐요 3-19] 다수의 값을 가지는 데이터 변환
[함께 해봐요 3-20] 분석 데이터 세트로 완성
[함께 해봐요 3-21] 더미 변수화한 데이터 결합
[함께 해봐요 3-22] CSV 파일로 결과 출력
[함께 해봐요 3-23] Pandas를 사용한 결합의 이미지 표현
[함께 해봐요 3-24] 데이터를 로드하는 코드 작성
[함께 해봐요 3-25] imbalanced-learn 패키지 설치 유무 확인
[함께 해봐요 3-26] 주티퍼랩에 설치된 패키지 확인
[함께 해봐요 3-27] imbalanced-learn 패키지 설치
[함께 해봐요 3-28] 불균형 데이터 세트에 대한 언더 샘플링
[함께 해봐요 3-29] 오버 샘플링 구현
[함께 해봐요 3-30] 결정 트리 알고리즘을 사용한 모델 검증
[함께 해봐요 3-31] 재현율과 적합도 확인
[함께 해봐요 3-32] 파라미터와 기본값 확인
[함께 해봐요 3-33] 그리드 서치를 사용한 모델의 성능 개선
[함께 해봐요 3-34] 가장 높은 성능일 때의 모델에 대한 파라미터 조합 확인
[함께 해봐요 3-35] 모델 완성 및 영향력 높은 변수 확인
[함께 해봐요 3-36] job 통합 및 새로운 특징량 생성
[함께 해봐요 3-37] month 통합 및 새로운 특징량 생성
[함께 해봐요 3-38] day 통합 및 새로운 특징량 생성
[함께 해봐요 3-39] duration 통합 및 새로운 특징량 생성
함께 해봐요 3-40] previous 통합 및 새로운 특징량 생성
[함께 해봐요 3-41] 더미변수를 만들기 위한 목록 삽입
[함께 해봐요 3-42] get_dummies를 사용한 더미변수 생성
[함께 해봐요 3-43] CSV 파일 내용 변경
[함께 해봐요 3-44] feature_selection을 통한 변수 사용 유무 확인

4장 정형 데이터의 전처리 (2)
1 고객의 특성 이해
2 고객의 그룹화
3 잠재적인 요구 추출
[함께 해봐요 4-1] 분석 데이터를 읽기 위한 코드 작성
[함께 해봐요 4-2] 각 항목의 데이터형 재확인
[함께 해봐요 4-3] 범위변환 테스트
[함께 해봐요 4-4] Z변환 테스트
[함께 해봐요 4-5] 각 변수의 평균과 표준편차 값 확인
[함께 해봐요 4-6] 계층형 클러스터링을 이용한 그룹 분할
[함께 해봐요 4-7] 고객별 그룹 확인
[함께 해봐요 4-8] k-Means법을 이용한 그룹 분할
[함께 해봐요 4-9] 클러스터 ID별 데이터 분포 확인
[함께 해봐요 4-10] 클러스터 ID별 데이터 세트와의 결합
[함께 해봐요 4-11] 그룹별 데이터 건수 확인
[함께 해봐요 4-12] 각 그룹의 통계량 계산 및 성질 파악
[함께 해봐요 4-13] PCA를 이용한 신규변수 작성
[함께 해봐요 4-14] 목적변수별 분포 확인
[함께 해봐요 4-15] 목적변수별 산포도 확인

5장 이미지 데이터의 전처리
1 데이터 이해
2 기계학습을 위한 데이터 준비
3 딥러닝을 위한 데이터 준비
컬럼 | 보충지식 1 중간층의 추출
[함께 해봐요 5-1] OpenCV 설치
[함께 해봐요 5-2] swiss-army-ant.jpg 읽기
[함께 해봐요 5-3]

“Garbage In, Garbage Out”
전통적인 프로그램처럼 인공지능 또한 데이터가 입력되어 데이터가 출력되는 형태입니다. 프로그램도 데이터를 자료형의 형태로 제대로 입력해주어야 원하는 출력을 얻을 수 있듯이, 인공지능 또한 데이터를 전처리라는 과정을 통해 올바른 형태로 입력해주어야 학습된 결과가 제대로 출력되는 것은 모두 같은 원리입니다. 즉, 올바르지 못한 데이터를 제공한다면, 원하는 결과물을 절대 얻을 수 없습니다. 그만큼 데이터를 어떻게 다루느냐가 매우 중요합니다.

이 책에서는 다양한 정형 데이터와 비정형 데이터를 대상으로 기본적인 전처리의 노하우를 배우고, 파이썬을 사용해 구현하는 방법을 소개했습니다. 전처리는 과제마다 별도로 설계, 구현해 나가기 때문에, 그 전부를 소개하기는 어렵습니다. 그러나, 이 책에서 설명한 내용은 실무에서도 문제 없이 사용할 수 있습니다.

“각 장의 연습문제는 반드시 풀어보세요”
전처리의 실력을 높이기 위해서는 반복해서 문제를 풀어보는 것이 가장 빠른 지름길입니다. 만약, 잘 안 풀리는 문제가 있어도 끈기 있게 도전해서 풀 수 있도록 학습하시길 바랍니다. 고민하고 고민하며 기어코 해결해내는 것만이 실력을 높이는 왕도입니다.

“데이터 분석을 주업무로 해나가실 분이라면”
머신러닝(딥러닝을 포함해서)의 알고리즘을 사용해 분석 모델을 작성하는 작업은, 현재도 급속하게 자동화가 진행되고 있습니다. 그러나, 모델을 작성하기 위해 투입하는 특징량은, 아직 당분간은 사람의 손을 빌리지 않으면 전처리하기 어려운 상황이 계속될 것 같습니다. 그렇기 때문에, 앞으로 데이터 분석을 주업무로 해 나가실 분들은, 전처리의 실력을 계속 갈고 닦아서 자신의 가치를 높이기를 기원합니다. 그리고 이 책이 거기에 조금이라도 도움이 된다면 행복하겠습니다.

[주요 특징]
바로바로 실습 가능한 실습문제 160개 수록
스스로 풀어보는 응용문제 35개와 해답 제공
저자에게 질문하며 함께 공부하는 백견불여일타 카페 운영 (caf?.naver.com/codefirst)

작가정보

저자 : 아다치 하루카
BULB 주식회사 소속의 데이터 과학자이다. SE나 데이터 IT 벤더 데이터 분석 등을 다양하게 경험하였다. 수많은 데이터 분석 프로젝트 외에도 실무자 교육도 틈틈이 병행하고 있으며, 개인 활동으로 기사와 책 쓰기 세미나 강의도 즐긴다. 저서로는 『텐서플로로 시작하는 딥러닝 입문』, 『초보자를 위한 신경망 딥러닝 입문』이 있다. 감수성이 예민한 시기에 고등 전문 학교에서 5 년을 보내버린 탓인지 주변에서 괴짜라는 평가를 받고 있다.

역자 : 김태현
소프트웨어 엔지니어. 번역가.
애플리케이션 프로그래밍으로 시작했지만 일본으로 이주하면서 임베디드 소프트웨어 분야로 전업했다. 현재는 소프트웨어 개발뿐만 아니라 책 번역에도 힘을 쓰고 있다. 로드북에서 『Xcode4로 시작하는 아이폰 프로그래밍』 및 『데이터 시각화 입문』을 번역하였다.

감수 : 조휘용
대학원 진학 전부터 신경망에 관심을 가지고 이를 공부하기 시작했다. 신경망 기술이 많은 사회적 문제를 해결할 수 있다는 매력에 끌려 지금까지 공부하고 있으며, 대학원 과정에서 신경망 기술을 활용하여 수작업을 자동화하는 문제를 다루면서 그 믿음이 굳어졌다. 정보 격차에 관심이 많으며, 이를 해결하기 위해 개인 블로그 운영, 오픈소스 참여 등의 활동을 하고 있다. 로드북에서 『백견불여일타 딥러닝 입문 with 텐서플로우 2.x』를 집필했다.

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다.
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다.
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품/오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    머신러닝 데이터 전처리 입문 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    머신러닝 데이터 전처리 입문 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    머신러닝 데이터 전처리 입문
    실습하며 배우는 데이터 전처리 입문서
    저자 모두보기
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글북액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글북액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)