정규식을 이용해 html코드를 제거하고 텍스트만 남기는 방법으로 변환.
~/.vimrc에 F4에 맵핑해 사용중.
noremap <F4> gg<CR>
\ :%s/ \\| \\| / /ge<CR>
\ :%s/&\\|&\\|&/&/ge<CR>
\ :%s/—\\|—\\|—/--/ge<CR>
\ :%s/–\\|–\\|–/-/ge<CR>
\ :%s/…\\|…/.../ge<CR>
\ :%s/<\\|</</ge<CR>
\ :%s/>\\|>/>/ge<CR>
\ :%s/"\\|"\\|"/"/ge<CR>
\ :%s/'\\|'\\|'/'/ge<CR>
\ :%s#“#“#ge<CR>
\ :%s#”#”#ge<CR>
\ :%s#‘#‘#ge<CR>
\ :%s#’#’#ge<CR>
\ :%s#^\s\+##ge<CR>
\ :%s#\s\+$##ge<CR>
\ :%s#\n\{4,}#\r\r#ge<CR>
\ :%s#<\(?xml\\|meta\\|script\\|!DOCTYPE\\|STYLE\\|!--\)\_.\{-}>##ge<CR>
\ :%s#<\/\?\(p\\|br\\|b\).\{-}>#\r#ge<CR>
\ :%s#<\/\?[ipdvafontspbrmeglk]\+ .\{-}>##ge<CR>
\ :%s#<\/\?[strongbcepadivlmuhf]\{-}>##ge<CR>
\ :%s#\([ \r]\)##ge<CR>
