1986년 ‘한국어사전편찬회’로 출발한 연세대 언어정보연구원은 “한국어를 비롯한 여러 언어를 널리 과학적으로 연구하여 이를 정보화하며, 각종 언어 정보 도구를 개발”하기 위한 목적으로 설립 되었다. 이를 위한 사업으로 큰사전을 비롯한 각종 사전 편찬에 관련된 연구, 언어의 정보화에 관련된 전자ㆍ전산 기술의 개발, 언어 정보에 관한 자료의 수집ㆍ정리ㆍ출판, 국제 사회에서 한국어의 가치를 높이기 위한 ‘외국어로서의 한국어 교육’ 등을 진행하고 있다.
이들 사업을 위해 산하에 사전연구센터, 언어정보 연구센터, 외국어로서의 한국어교육 연구센터, 전문용어 연구센터, 다문화 연구센터, 인문정보화 연구센터 등 총9개의 연구센터를 두어 각 분야 연구의 전문화를 꾀하고 있다.
특히, 언어정보연구원은 대규모의 전산화된 언어자료의 집합인 말뭉치(corpus)를 1980년대 후반부터 구축하기 시작하여, 띄어쓰기를 기준으로 약 4,300 만 어절을 구축하였다. 이는 300 쪽의 단행본 천여 권에 해당하는 방대한 분량이다.
그동안의 말뭉치 작업이 대상을 현대 한국어 문어만으로 한정했던 것에서 벗어나, 연세대 언어정보연구원에서 구축한 말뭉치는 글말과 입말 등 음성 언어까지 다양한 언어자료를 전산화한 특징을 갖는다.