标签:keyword size mat active and 一个 www nbsp 格式
MATLAB中没有可用的函数来读取HTML文件并删除HTML标签。但是,这可以通过使用正则表达式轻松实现:
str = ‘<HTML>我的花朵<b>可以</ b> <A HREF=‘‘<http://www.a.com‘‘ http://www.a.com‘‘>> / A>五月</ HTML>‘ ;
pat = ‘<[^>] *>‘ ;
regexprep(str,pat,‘‘ )
不使用正则表达式的另一种方法包括扫描HTML文件,用换行符替换* “ * BR”标签以及删除其他标签。随附的示例fread_html.m演示了一种处理HTML标签子集的可能解决方案。
不使用HTML格式标记保存html文件的另一种方法是使用ActiveX来完成。以下代码将Microsoft Internet Explorer称为ActiveX自动化服务器,复制提供的URL的文本并将其存储到MATLAB变量中。
功能str = CopyPasteIE(url);
ha = actxserver(‘internetexplorer.application‘ );
导航(ha,url);
暂停(3);
ha.document.execCommand(‘selectall‘ ,`` ,‘‘ );
ha.document.execCommand(‘copy‘ ,`` ,‘‘ );
str = clipboard(‘paste‘ );
用法示例:mystr = CopyPasteIE(‘http://www.google.com‘);
注意:此示例中提供的代码仅用于演示目的,尚未经过全面测试。
如何将一个 html 网页读入 MATLAB?同时,希望丢弃所有的 HTML 标签。
标签:keyword size mat active and 一个 www nbsp 格式
原文地址:https://www.cnblogs.com/woshi101/p/11884365.html