1

추천 시스템 : 사트남 알랙과 ReadWriteWeb 인터뷰 번역글

원래 이 인터뷰 내용은 ‘실전 예제로 살펴보는 집단지성 프로그래밍’ 에 포함될 내용이었는데, 개인적인 생각으로 인터뷰글을 책에 넣는 것보다 적절한 시기에 블로그에 공개를 하는 게 나을 거 같다는 생각에 이렇게 공개를 해본다. 원문은 이곳에서 확인해 볼 수 있다. 이번에 번역 출간된 ‘실전 예제로 살펴보는 집단지성 프로그래밍’이 어떤 내용을 담고 [...]

0

R로 구현한 맥주 추천 엔진

데이터가 공개되면 이를 이용한 여러 재미있는 분석작업을 할 수 있다. 얼마전에 R기반 맥주 추천 구현 포스팅을 보고 몇일전에 관련 데이터 소스를 구해서 이에 대한 추천엔진 구현 포스팅을 올려본다. 이 데이터의 출처는 Beer Advocate이며 데이터 소스는 web data library이다. 사실 금번 분석의 동기는 데이터마이닝 수업 텀 [...]

0

국토교통부 실거래가 데이터 크롤링 코드

국토교통부 실거래가 데이터 스크래핑 코드를 공유한다. 블로그에 썼던 데이터 분석에 사용한 데이터는 친분이 있는 분으로 부터 받은 데이터인데, 새로운 매매 데이터가 올라가면서 매번 요청하기 힘들것 같아서 코드를 작성해 봤고, 아래와 같이 간단하게 스크래핑 코드를 만들 수 있었다. 데이터 스크래핑 코드는 항상 그렇듯이 임시방편적이고, 코드가 깨끗하지 [...]

0

비선형 모형과 추세 분석(아파트 매매 데이터 기반)

지난번 포스팅을 통해서 얻은 데이터와 그 이전 포스팅의 아파트 매매가에 미치는 층수, 크기, 년도 효과에 대한 분석의 후속 분석으로 같은 데이터를 기반을 하는 분석이지만 2015년 Q1의 데이터가 어느정도 모였으니 이의 가격동향과 더불어 다중 회귀모형의 비선형적인 효과를 좀더 다른 방식의 알고리즘으로 모델링 해보고 시각화 해보는 과정을 거쳐보도록 [...]

0

KoSpacing : 한글 자동 띄어쓰기 패키지 공개

띄어쓰기는 형태소 분석 이전에 반드시 수행해야 되는 중요 전처리 과정중에 하나이며, 이 때문에 공개된 형태소 분석기에는 일종의 자동띄어쓰기 모듈이 숨겨져 있는 경우가 많다. 하지만 그런 띄어쓰기 엔진의 성능이 대부분 좋지 않아 허울뿐인 경우가 많다. 필자가 만든 KoNLP 역시 그중에 하나였다. 물론 띄어쓰기는 형태소 분석 이전에만 사용하는게 [...]

0

R에서 미국 연비(MPG)를 한국연비(km/L)로 있어보이게 바꾸기

우리 나라에서 사용하는 연비란 에너지관리공단 수송에너지 > 자동차공인연비 > 공인연비에 따르면 연료 1ℓ로 주행 가능한 거리(km)를 말하는 것을 말합니다. 그러나 미국은 연료 1갤런(gallon)으로 주행 가능한 거리를 마일(mile)로 계산하여 연비를 계산합니다. 미국이랑 우리나라가 단위가 다르니 생기는 문제입니다. 참고로 1갤런은 [...]

0

RStudio를 이용하여, R 코드와 한글이 들어 있는 R Markdown으로 쓴 파일을 pdf로 만드는 팁!

RStudio에는 기본적인 R보다 유용한 기능이 많습니다. 그중에서는 저는 knitr 패키지를 이용하여 R 코드가 들어있는 R Markdown으로 쓰여진 글을 HTML이나 pdf 파일로 만들어 주는 기능에 관심이 많았습니다. 물론 프리뷰(Preview) 버젼인 RStudio Version 0.99.1273에는 이것 보다 더 진보한R Markdown [...]

0

윈도우에서 만든 csv 파일을 Mac에서 사용하는 R에서 쉽게 열어보자.

뭐 간단한 팁인데요. R을 사용하면서 csv파일을 맥, 윈도우, 리눅스 간에 같이 사용하는 경우가 있습니다. 이때 맥과 리눅스 간에는 유니코드 인코딩 방식중 UTF-8을 사용하면 그리 문제없이 파일을 공유할 수 있습니다. 그런데 문제는 윈도우가 끼어들면 문제가 복잡합니다. 윈도우에서 만들어진 csv 파일이 맥이나 리눅스에서 잘 안 읽어지는 경우가 [...]

page 1 of 2