如何将一个 html 网页读入 MATLAB？同时，希望丢弃所有的 HTML 标签。

时间：2019-11-18 20:00:48 阅读：126 评论：0 收藏：0 [点我收藏+]

标签：keyword size mat active and 一个 www nbsp 格式

MATLAB中没有可用的函数来读取HTML文件并删除HTML标签。但是，这可以通过使用正则表达式轻松实现：

str = ‘<HTML>我的花朵<b>可以</ b> <A HREF=‘‘<http://www.a.com‘‘ http://www.a.com‘‘>> / A>五月</ HTML>‘ ；
pat = ‘<[^>] *>‘ ;
regexprep（str，pat，‘‘ ）

不使用正则表达式的另一种方法包括扫描HTML文件，用换行符替换* “ * BR”标签以及删除其他标签。随附的示例fread_html.m演示了一种处理HTML标签子集的可能解决方案。

不使用HTML格式标记保存html文件的另一种方法是使用ActiveX来完成。以下代码将Microsoft Internet Explorer称为ActiveX自动化服务器，复制提供的URL的文本并将其存储到MATLAB变量中。

功能str = CopyPasteIE（url）;
ha = actxserver（‘internetexplorer.application‘ ）;
导航（ha，url）;
暂停（3）; 暂停百分比以让页面加载
ha.document.execCommand（‘selectall‘ ，`` ，‘‘ ）;
ha.document.execCommand（‘copy‘ ，`` ，‘‘ ）;
str = clipboard（‘paste‘ ）;

用法示例：mystr = CopyPasteIE（‘http://www.google.com‘）;

注意：此示例中提供的代码仅用于演示目的，尚未经过全面测试。

如何将一个 html 网页读入 MATLAB？同时，希望丢弃所有的 HTML 标签。

标签：keyword size mat active and 一个 www nbsp 格式

原文地址：https://www.cnblogs.com/woshi101/p/11884365.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行