2026/03/11

Vim에서 HTML파일 텍스트 변환



정규식을 이용해 html코드를 제거하고 텍스트만 남기는 방법으로 변환.
~/.vimrc에 F4에 맵핑해 사용중.

noremap <F4>  gg<CR>
        \ :%s/&nbsp;\\|&#160;\\|&#xA0;/ /ge<CR>
        \ :%s/&amp;\\|&#38;\\|&#x26;/&/ge<CR>
        \ :%s/&mdash;\\|&#8212;\\|&#x2014;/--/ge<CR>
        \ :%s/&ndash;\\|&#8211;\\|&#x2013;/-/ge<CR>
        \ :%s/&hellip;\\|&#8230;/.../ge<CR>
        \ :%s/&lt;\\|&#60;/</ge<CR>
        \ :%s/&gt;\\|&#62;/>/ge<CR>
        \ :%s/&quot;\\|&#34;\\|&#x22;/"/ge<CR>
        \ :%s/&apos;\\|&#39;\\|&#x27;/'/ge<CR>
        \ :%s#&ldquo;#“#ge<CR>
        \ :%s#&rdquo;#”#ge<CR>
        \ :%s#&lsquo;#‘#ge<CR>
        \ :%s#&rsquo;#’#ge<CR>
        \ :%s#^\s\+##ge<CR>
        \ :%s#\s\+$##ge<CR>
        \ :%s#\n\{4,}#\r\r#ge<CR>
        \ :%s#<\(?xml\\|meta\\|script\\|!DOCTYPE\\|STYLE\\|!--\)\_.\{-}>##ge<CR>
        \ :%s#<\/\?\(p\\|br\\|b\).\{-}>#\r#ge<CR>
        \ :%s#<\/\?[ipdvafontspbrmeglk]\+ .\{-}>##ge<CR>
        \ :%s#<\/\?[strongbcepadivlmuhf]\{-}>##ge<CR>
        \ :%s#\([ ￾​‌‍‎\r]\)##ge<CR>