码迷,mamicode.com
首页 > Web开发 > 详细

如何将一个 html 网页读入 MATLAB?同时,希望丢弃所有的 HTML 标签。

时间:2019-11-18 20:00:48      阅读:126      评论:0      收藏:0      [点我收藏+]

标签:keyword   size   mat   active   and   一个   www   nbsp   格式   

MATLAB中没有可用的函数来读取HTML文件并删除HTML标签。但是,这可以通过使用正则表达式轻松实现:
 
str = ‘<HTML>我的花朵<b>可以</ b> <A HREF=‘‘<http://www.a.com‘‘ http://www.a.com‘‘>> / A>五月</ HTML>‘
pat = ‘<[^>] *>‘ ;
regexprep(str,pat,‘‘
不使用正则表达式的另一种方法包括扫描HTML文件,用换行符替换* “ * BR”标签以及删除其他标签。随附的示例fread_html.m演示了一种处理HTML标签子集的可能解决方案。
不使用HTML格式标记保存html文件的另一种方法是使用ActiveX来完成。以下代码将Microsoft Internet Explorer称为ActiveX自动化服务器,复制提供的URL的文本并将其存储到MATLAB变量中。
 
功能str = CopyPasteIE(url);
ha = actxserver(‘internetexplorer.application‘ );
导航(ha,url);
暂停(3); 暂停百分比以让页面加载
ha.document.execCommand(‘selectall‘ `` ‘‘ );
ha.document.execCommand(‘copy‘ `` ‘‘ );
str = clipboard(‘paste‘ );
用法示例:mystr = CopyPasteIE(‘http://www.google.com‘);
注意:此示例中提供的代码仅用于演示目的,尚未经过全面测试。

如何将一个 html 网页读入 MATLAB?同时,希望丢弃所有的 HTML 标签。

标签:keyword   size   mat   active   and   一个   www   nbsp   格式   

原文地址:https://www.cnblogs.com/woshi101/p/11884365.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!