본문 바로가기

추천 검색어

실시간 인기 검색어

빅데이터 시대의 언어 연구

내 손안의 검색엔진
이민행 지음
21세기북스 출판사SHOP 바로가기

2015년 08월 21일 출간

종이책 : 2015년 08월 15일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
파일 정보 ePUB (40.54MB)
ISBN 9788950961152
쪽수 492쪽
지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
교보eBook App 듣기(TTS) 가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 전자책 화면에 표기된 주석 등을 모두 읽어 줍니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
  • '교보 ebook' 앱을 최신 버전으로 설치해야 이용 가능합니다. (Android v3. 0.26, iOS v3.0.09,PC v1.2 버전 이상)

  • sam 무제한 이용불가
  • sam 프리미엄 이용가능

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

작품소개

이 상품이 속한 분야

텍스트 기반 검색 시스템의 구축과 활용!
코퍼스는 언어의 빅데이터이다. 이미 1990년대 초반에 코퍼스를 이용하여 언어의 여러 특성을 밝히는 연구가 시작됐다. 지금은 코퍼스 기반 언어 연구가 연구 방법론의 트렌드를 이루고 있다. 『빅데이터 시대의 언어 연구』는 이런 배경에서 텍스트를 다루는 사람이라면 누구나 디지털화된 텍스트를 CWB 검색 시스템으로 직접 구축할 수 있도록 안내한다. 더 나아가 검색엔진을 이용하여 여러 가지 정보를 추출하여 활용하는 방안을 제시한다.

이 책이 대상으로 한 언어는 영어와 한국어, 독일어, 프랑스어, 스페인어, 인도네시아어이다. 또한 파생어, 연어관계, 구문과 어휘의 상관관계, 텍스트의 핵심도 및 문서유사도 등의 언어현상을 연구 대상으로 삼았다. 코퍼스로부터 추출한 빈도와 용례를 기초로 하여 6개 언어에 대해 여러 층위이 언어현상을 분석하고 필요에 따라 Perl 스크립트와 R 스크립트를 이용하여 통계적 분석을 추가했다.
책머리에

1 서론
2 CWB 기반 코퍼스의 구축 방법: 단일어 코퍼스, 통합 코퍼스, 병렬 코퍼스
2.1 단일어 코퍼스의 구축 방법
2.2 통합 코퍼스 MILCA의 구축 방법
2.3 병렬 코퍼스 FA-EN/FA-KO의 구축 방법

3 CQP 검색언어의 이해
3.1 기본 검색식의 활용
3.2 정규 표현식의 활용
3.3 고급 검색식의 이해

4 영어 분석
4.1 어휘 층위의 통계적 분석
4.2 파생어 연구
4.3 연어관계 연구
4.4 구문과 어휘의 상관관계

5 한국어 분석
5.1 어휘 층위의 통계적 분석
5.2 파생어 연구
5.3 연어관계 연구
5.4 구문과 어휘의 상관관계

6 독일어 분석
6.1 어휘 층위의 통계적 분석
6.2 파생어 연구
6.3 연어관계 연구
6.4 구문과 어휘의 상관관계
6.5 텍스트의 핵심도와 문서유사도

7 다중언어 코퍼스 MILCA의 활용
7.1 프랑스어 분석
7.2 스페인어 분석
7.3 인도네시아어 분석

8 종합

참고문헌
부록
찾아보기

CWB 기반 코퍼스는 몇 가지 장점을 가지고 있다. 그중의 하나는 대용량 데이터를 처리할 수 있는 효율적인 검색 시스템 CQP를 내장하고 있다는 점이다. 이 검색 시스템은 2GB까지 처리 가능하다. 두 번째 장점은 유니코드를 지원하기 때문에 여러 언어의 코퍼스 구축을 가능하게 하여 언어 보편적으로 활용된다는 것이다. 세 번째 장점은 원천 텍스트의 포맷을 폭넓게 수용하기 때문에 부가되는 언어적 정보에 있어 차이가 있는 자료들도 하나의 코퍼스로 통합할 수 있다는 데서 찾을 수 있다. 넷째는 검색 시에 정규 표현식을 지원한다는 장점을 갖는다. 이러한 여러 가지 장점 때문에 많은 언어들이 이미 CWB 기반 코퍼스로 구축되어 웹을 통해 서비스되고 있다. 예를 들어 BNCweb이라는 이름으로 웹상에서 서비스되고 있는 영어 코퍼스 BNC는 바로 CWB 기반 코퍼스이다. (22쪽)

위의 예에서 확인할 수 있듯이 존재를 표현하는 ‘there’와 함께 한 문장 내에 나타나는 동사들 가운데 출현빈도가 높은 것은 ‘seem’, ‘appear’, ‘remain’이다. 이 통계를 뒷받침하는 용례들 가운데 일부는 앞서 50에 제시된 바 있다. 위의 검색식 60에 쓰인 준거점(target) 바로 뒤에는 ‘hw’가 나타나 있는데, ‘hw’ 대신에 ‘word’나 ‘pos’ 등 위치속성이 쓰일 수도 있다. 이와 관련한 선택은 검색을 통해 달성하고자 하는 검색의 목적과 결부되어 있다. (91쪽)

이 표에 따르면 소통동사(vc4), 심리동사(vc9) 및 사회관계동사(vc13) 부류가 into 사역구문과 공연하는 정도가 매우 높은 것으로 나타난다. 이 부류의 동사들은 워드넷 내에서의 평균값과 비교하여 2∼3배 정도 자주 이 구문에 출현한다. 선구적으로 이 구문에 대한 연구를 시작했던 Huston·Francis (2000)에서도 frighten, scare 및 terrify 등 부정적인 심리동사들이 이 구문을 매우 선호한다는 점을 지적한 바 있다. 이들은 이외에도 coax나 charm 등 비이성적인 설득을 시도하는 소통동사와 force나 coerce 등 강요를 의미하는 동사들도 이 구문에 빈번히 나타난다는 사실을 밝혀낸 바 있다. (222쪽)

다음으로 괴테가 요한나 쇼펜하우어와 가장 가깝다는 점도 이목을 끄는데, 둘 다 여행기를 쓴 문학가라는 점에서 공통점을 찾을 수 있다. K?hler(1999)에 따르면, 요한나 쇼펜하우어가 1806년부터 1828년까지 바이마르에서 문학살롱을 운영하였고 괴테는 살롱의 주요 참석자였다. 교육열이 높은 한국인의 시각에서 보자면, 철학자 쇼펜하우어의 어머니는 아들의 교육을 위해서 문화교육도시 바이마르로 이사를 해 당대 최고 지성인들과 친교를 맺은 것으로 해석할 수 있다. 어머니의 지혜로운 결정에 의해 쇼펜하우어는 위대한 철학자의 반열에 오른다. 곧 요한나 쇼펜하우어는, 아들의 교육을 위해 3번이나 이사를 한 맹자의 어머니와 비교될 만하다.
또한 Brewer(2002)는 요한나 쇼펜하우어의 장편소설 『가브리엘레(Gabriele)』가 괴테의 작품 『빌헬름 마이스터의 편력시대』에 영향을 미쳤다고 주장한다. 더 나아가 빌헬름 폰 훔볼트와 루소가 어떤 관심사를 공유한 것으로 나타난다. 이에 대해서도 심층적인 연구가 필요하지만, 문득 드는 생각은 두 저자가 모두 ‘교육’ 문제에 몰두한 적이 있다는 사실이다. 알렉산더 폰 훔볼트와 다윈은 지질학자이자 탐험가라는 공통점을 갖기 때문에 텍스트들도 자연 유사성을 보인 것이라고 할 수 있다. 일반 대중의 시각에서 볼 때 13인의 문서유사도가 흥미로운 점은 텍스트적 관점에서는 친구 간(괴테와 쉴러)이나 모자 간(요한나 쇼펜하우어와 아르투어 쇼펜하우어) 혹은 형제 간(알렉산더 폰 훔볼트와 빌헬름 폰 훔볼트)도 모두 남남이라는 사실일 것이다. (385~387쪽)

각 언어의 코퍼스를 활용하여 분석을 시도하는 영역은 크게 네 가지다. 어휘 층위의 통계적 분석, 형태론 층위, 연어관계 및 구문과 어휘의 상관관계이다. 코퍼스로부터 추출한 빈도와 용례를 기초로 하여 6개 언어에 대해 각 영역과 관련된

언어 빅데이터와 디지털 기술이
언어학 연구의 도구와 양상을 바꾼다!
역대 대통령들의 취임사를 언어기호의 사용과 빈도 데이터를 기준으로 분석하면 흥미로운 결과가 나온다. 김대중 대통령과 노무현 대통령의 취임사가 가장 근접성이 높다. 그런데 놀랍게도 박근혜 대통령의 취임사는 이 두 대통령의 취임사와 높은 근접성을 나타낸다. 이로써 정책 비전의 제시에서 보수와 진보라는 이념적 기준이 절대적으로 작용하기보다는 시대정신이 핵심적 역할을 수행함을 엿볼 수 있다.
이런 분석은 어떻게 가능할까? 대통령 취임사라는 ‘언어 집합체’를 컴퓨터 기술을 활용해 파고든 결과이다. 구체적인 언어생활을 통해 형성된 일종의 언어학적 빅데이터를 기반으로 삼음으로써 다양한 언어학 연구를 할 수 있게 된 것이다.
현대인의 실제 언어생활은 그 자체로 빅데이터이다. 특히 한 편의 연설, 시집이나 소설책 1권 등과 같이 일정한 분량과 체계를 갖춘 말의 덩어리는 그 속에서 여러 언어 특성을 추출하고 분석하는 기반이 된다. 이런 말의 덩어리를 코퍼스(corpus)라 하는데 이를 디지털 기술과 도구를 통해 언어학 연구에 활용할 수 있다. 코퍼스를 기반으로 하는 언어 연구에서는 검색 엔진의 구축이 필수적이다. 이 책은 언어학 연구자가 자신의 연구 목적에 맞게끔 검색 엔진을 만들고 활용할 수 있도록 돕는다. 또한, 다양한 연구 분야에 걸쳐 상세한 방법론과 함께 다양한 사례를 제시함으로써 연구에 체계적으로 적용할 수 있도록 했다.

[출판사 서평]
언어학적 관점에서 박근혜 대통령의 취임사는
김대중 · 노무현 대통령의 취임사와 근접성이 높다!
현대 사회를 빅데이터 시대라 한다. 디지털 환경을 살아가는 현대인들은 일상을 통해 엄청난 양과 다양한 종류의 흔적을 남기는데 이것의 분석을 통해 여론과 정서, 행동 양상과 변화의 흐름을 파악할 수 있다. 사람들의 언어생활에서도 수없는 빅데이터가 생성된다. 언어학에서의 빅데이터는 ‘말뭉치’ 또는 ‘코퍼스(corpus)’로 불린다. 이것은 말 그대로 말의 뭉치를 뜻하는데, 한 덩어리로 볼 수 있는 언어의 집합체로 보면 된다. 언어학에서는 “일정 분량 이상이 되고 내용상으로 다양성과 균형이 확보된 언어 자료의 집합체”로 정의하고 있다.
이러한 코퍼스를 발전된 컴퓨터 기술을 통하여 분석함으로써 언어 사용의 양상과 현실 등 언어학 연구를 위한 유용한 자료를 체계적으로 획득할 수 있다. 1990년대 초반 이후로 코퍼스를 이용해 언어의 특성을 밝히는 연구가 연구방법론의 중요한 트렌드를 형성하고 있다.
코퍼스 기반 언어 연구에서는 디지털화된 언어 텍스트를 검색하고 분석하는 기능이 핵심이 되며 이를 위한 검색엔진 구축이 매우 중요하다. 그런데 언어학 연구자에게 검색엔진을 직접 만드는 일은 생소하게 느껴지는 분야이다. 이런 점에서 『빅데이터 시대의 언어 연구』(이민행 지음, 21세기북스)는 언어학 연구자에게 매우 유용한 지식을 선사한다. 쉽고 체계적으로 디지털화된 텍스트를 CWB 검색 시스템으로 구축할 수 있는 방법론을 제공하기 때문이다. 그리고 이 검색 시스템을 통해 다양한 정보를 추출하고 활용하는 방안과 사례를 함께 제시한다. CWB는 독일 슈투트가르트대학에서 개발하여 오픈소스로 공개한 코퍼스 작업대(Corpus WorkBench)를 줄여서 말한 것이다.
이 책은 6개 언어(영어·한국어·독일어·프랑스어·스페인어·인도네시아어)를 대상으로 삼아 파생어, 연어 관계, 구문과 어휘의 상관관계, 텍스트의 핵심도와 문서 유사도 등의 언어현상을 탐구한다. 또한 코퍼스로부터 추출한 빈도와 용례를 기초로 하여 6개 언어에 대해 여러 층위의 언어현상을 분석했으며 필요에 따라 Perl-스크립트와 R-스크립트를 이용하여 통계적 분석을 추가했다.
공연구조적 분석, 변별적 공연어휘소 분석, 군집분석 및 대응분석 방법론 등의 연구방법론을 적용한 이 연구서는 일반 언어학자들과 외국어 교육자들이 자신들의 연구나 교육에 필요한 다양한 데이터 및 용례를 효율적으로 추출하는 데 유용한 지식을 제공해줄 것이다.

작가정보

저자(글) 이민행

저자 이민행은 서울대학교 인문대학 독어독문학과와 대학원 독어독문학과를 졸업했다. 독일 뮌헨대학교 대학원에서 이론언어학을 전공하고 언어학 박사 학위를 받았다. 하버드대학의 초청을 받아 옌칭연구소에서 방문학자로서 1년간 연구를 수행한 바 있다. 국립 제주대학교 조교수를 거쳐 1995년부터 현재까지 연세대학교 독어독문학과 교수로 있다. 2014년부터 한국언어학회 부회장과 한국독어학회 『독어학』 편집위원장을 맡고 있다. 의미론을 비롯하여 전산언어학, 광고언어학, 텍스트마이닝에 대한 강의 및 연구를 수행하고 있다.
저서로 『독어학 연구방법론-인문학적 발견의 변증법』, 『전산 통사·의미론-이론과 응용』, 『독일어 전산 구문문법 연구』, 『심리동사의 의미론』(공저), 『언어, 매체 그리고 권력』(공저) 등이 있다.

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다.
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다.
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품/오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    빅데이터 시대의 언어 연구 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    빅데이터 시대의 언어 연구 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    • 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    빅데이터 시대의 언어 연구
    내 손안의 검색엔진
    저자 모두보기
    저자(글)
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글북액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글북액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)