html 標簽 r語言,從R中的字符串中刪除html標簽

html 標簽 r語言,從R中的字符串中刪除html標簽

news/2025/9/18 0:37:07/文章來源:https://blog.csdn.net/weixin_42193786/article/details/117721052

我正在嘗試將網頁源代碼讀入R并將其作為字符串處理。我正在嘗試刪除段落并從段落文本中刪除html標簽。我遇到了以下問題：

我嘗試實現一個功能來刪除html標簽：

cleanFun=function(fullStr)

{

#find location of tags and citations

tagLoc=cbind(str_locate_all(fullStr,"")[[1]][,1]);

#create storage for tag strings

tagStrings=list()

#extract and store tag strings

for(i in 1:dim(tagLoc)[1])

{

tagStrings[i]=substr(fullStr,tagLoc[i,1],tagLoc[i,2]);

}

#remove tag strings from paragraph

newStr=fullStr

for(i in 1:length(tagStrings))

{

newStr=str_replace_all(newStr,tagStrings[[i]][1],"")

}

return(newStr)

};

這適用于某些標簽，但不適用于所有標簽，此示例失敗的示例是以下字符串：

test="junk junk junk junk"

目標是獲得：

cleanFun(test)="junk junk junk junk"

但是，這似乎不起作用。我認為這可能與字符串長度或轉義字符有關，但是我找不到涉及這些的解決方案。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/529085.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/529085.shtml
英文地址，請注明出處：http://en.pswp.cn/news/529085.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

python給圖片加半透明水印_Python 批量加水印就這么簡單！

python給圖片加半透明水印_Python 批量加水印就這么簡單！

工作的時候，尤其是自媒體，我們必備水印添加工具以保護我們的知識產權,網上有許多的在線/下載的水印添加工具，但他們或多或少都存在以下問題： 在線工具需要將圖片上傳到對方服務器，信息不安全。很多工具不具備批量處理…

閱讀更多...

html 選中狀態,html默認選中狀態

html 選中狀態,html默認選中狀態

html中標簽用法解析及如何設置selec標簽定義和用法 select 元素可創建單選或多選菜單。當提交表單時，瀏覽器會提交選定的項目，或者收集用逗號分隔的多個選項，將其合成一個單獨的參數列表，并且在將表單數據提交給服務器時包括 nam…

閱讀更多...

nemesis什么車_nemesis是什么意思_nemesis的翻譯_音標_讀音_用法_例句_愛詞霸在線詞典...

nemesis什么車_nemesis是什么意思_nemesis的翻譯_音標_讀音_用法_例句_愛詞霸在線詞典...

全部報應Was he aiming at Bryant, his old nemesis and a favorite target in the past?他是不是暗指科比, 一直的“競爭對手”和過去最中意的目標?期刊摘選After the defeat of their old arch nemesis, the Turtle have grown apart as a family.在擊敗舊時強敵后, 忍者神…

閱讀更多...

wxpython制作表格界面_[Python] wxPython 菜單欄控件學習總結（原創）

wxpython制作表格界面_[Python] wxPython 菜單欄控件學習總結（原創）

1、總結 1、大體創建過程 1、創建一個菜單欄 : menuBar wx.MenuBar()相當于這個白色地方，沒有File這個菜單 2、創建菜單 : fileMenu wx.Menu()這兩個不是直接“用的”，叫菜單。既用來分類其他菜單項的文件夾樣 3、創建菜單項 : newItem wx.MenuI…

閱讀更多...

android 8三星note8,信息太多很煩瑣？告訴你三星Note8有妙招

android 8三星note8,信息太多很煩瑣？告訴你三星Note8有妙招

不知從何時開始，我們眼前的信息變得豐富而繁雜。簡潔的新聞無需經過報紙過濾，發生數分鐘已經城皆知。預測晴雨也無需依靠天氣先生，點亮手機即可洞悉風雨。生活在信息時代的我們僅用幾英寸的窗口觀察世界，信息的洪流難免會遮蔽眼前…

閱讀更多...

realloc函_realloc（重新分配內存空間的函數）

realloc函_realloc（重新分配內存空間的函數）

在頭文件中定義void * realloc(void * ptr，size_t new_size);重新分配給定的內存區域。它必須預先分配malloc()，calloc()或realloc()尚未釋放與free或呼叫realloc。否則，結果是不確定的。重新分配由以下兩者之一完成：a)ptr如有可能…

閱讀更多...

python做excel表格教程視頻_基于Python實現excel表格讀寫

python做excel表格教程視頻_基于Python實現excel表格讀寫

首先安裝對應的xlrd和xlwt 打開cmd命令窗口輸入pip install xlrd和pip install xlwt就可以安裝。之后輸入pip list檢查是否成功配置：xlrd操作# 接下來就是常用的語法操作： excel_data xlrd.open_workbook(文件路徑)#得到對應的工作表 sheet excel_data…

閱讀更多...

虛無鴻蒙哪個厲害,【圖說鴻蒙】鴻蒙設定之七柱神（五）

虛無鴻蒙哪個厲害,【圖說鴻蒙】鴻蒙設定之七柱神（五）

原標題：【圖說鴻蒙】鴻蒙設定之七柱神(五)七柱神玄冥神飛來流去本無心，無空無我混天塵。幻作人形深簡出，不是老嫗是海神。玄冥神虛無荒海司掌海洋、流動之力神威之色為藍執掌海洋、流動之力的神，是神道“熵”的最高掌控者&#…

閱讀更多...

java lambda 排序_Java8特性：Lambda表達式之概念篇

java lambda 排序_Java8特性：Lambda表達式之概念篇

Java自誕生已經有十幾個年頭了，目前也已經發布了第十三個大版本，其中Java8是常用的版本中最新的一個版本。而Java8最大的特性就是：Lambda表達式、函數式接口和Stream流。本篇我只介紹Lamda表達式的概念以及簡單使用，至于別的我打算…

閱讀更多...

jq獲取表格里的checkbox_Python抓取網頁表格（一）

jq獲取表格里的checkbox_Python抓取網頁表格（一）

Python有很多包可以抓取數據，如selenium、requests、scrapy、pandas，每個包都有其適用性，個人認為在抓取數據時，代碼簡潔性和數據獲取的準確性是需要考慮的因素，時間快慢倒不用太在意，畢竟用python抓數據本…

閱讀更多...

html一個空格多少像素,一個空格占幾個字符？

html一個空格多少像素,一個空格占幾個字符？

一個空格通常占2個字符，但有些特殊情況占用3個字符。在程序中，空格占用的字符數取決于程序使用的字符集，如：1、使用多字節字符集時，半角空格占用1個字節，全角空格占用2個字節。2、使用Unicode字符集時&…

閱讀更多...

各種摳圖動態圖片_不用手。自動、智能摳圖，圖片去背景

各種摳圖動態圖片_不用手。自動、智能摳圖，圖片去背景

BgEraser 是一款基于 AI 的自動、智能圖片去背景工具，無需勾選可用、可刪除區域，上傳圖片，立即下載即扣圖完成的圖片。AppinnBgEraser 真是懶人的福音。在此之前，比如很好用的在線去背景服務 remove.bg，是需要用戶手動…

閱讀更多...

html用dom顯示xml,html DOM文件引用一個XML文件將不會在瀏覽器中打印

html用dom顯示xml,html DOM文件引用一個XML文件將不會在瀏覽器中打印

我完全不熟悉這一點，我正在上課，現在變成了一個令人頭疼的問題。我有這個HTML DOM文件，它引用了一個XML文件，我需要在瀏覽器中顯示在屏幕上。它應該只打印標題，標題，第一個，最后一個&#xff0c…

閱讀更多...

bigdecimal 保留兩位小數_Python的保留小數及對齊

bigdecimal 保留兩位小數_Python的保留小數及對齊

Python的保留小數：方法1：用round函數(有坑)。median 12.3004886print(round(median, 2)) # 保留兩位小數print(round(median, 3)) # 保留三位小數print(round(median, 4)) # 保留四位小數運行結果：12.312.312.3005可以看出Python中的r…

閱讀更多...

分布式光伏補貼_四川：2020年起工商業分布式光伏已無補貼

分布式光伏補貼_四川：2020年起工商業分布式光伏已無補貼

來源：四川省發改委日前，四川省發改委發布《四川省分布式光伏建設管理相關政策》，對該省分布式光伏發電項目定義、分類、備案程序、需要國補的項目相關政策進行了梳理。值得注意的是，文件明確，自2020年起，四…

閱讀更多...

用計算機玩游戲最簡單的方法,如何制作電腦簡易命令小游戲

用計算機玩游戲最簡單的方法,如何制作電腦簡易命令小游戲

滿意答案sylvia10172019.01.20采納率：48% 等級：7已幫助：460人簡單的Dos小游戲開始學習java，這周只簡單的學習了C的基本語法：輸入輸出，判斷循環，因此用這些東西在java上瞎寫了一個DOS小游戲。…

閱讀更多...

pandas filter_數據分析之Pandas操作(2)

pandas filter_數據分析之Pandas操作(2)

接著數據分析之Pandas操作(1)的介紹，本次介紹在實際應用場景中幾個常用的函數。還是以titanic生存數據為例，本次需要導入pandas 、numpy 、scipy三個工具包。import pandas as pdimport numpy as npfrom scipy.stats import zscoretrain_data pd.read_c…

閱讀更多...

ios 隱藏app的插件_等了5年終于復活，iPhone上最干凈好用的微博App

ios 隱藏app的插件_等了5年終于復活，iPhone上最干凈好用的微博App

來，先跟小虎妞一起回憶下2013年的微博客戶端。(圖源水印)那時候，首頁還是按時間順序來的，也沒有赴美產子、老爺夫人知道錯了的廣告。后來，隨著微博一次次改版，客戶端越來越臃腫，第三方微博客戶端像雨后春筍…

閱讀更多...

html高度為零,html中父div高度為0的原因

html高度為零,html中父div高度為0的原因

問題：在chrome中看到父div高度為0，但里面明明有內容。原因：簡單的講原因就是子元素如果設了float屬性，這些子元素就脫離了父div容器的控制，所以父容器認為里面沒內容，高度自然變成了0.解決辦法：…

閱讀更多...

算法訓練營Day23

算法訓練營Day23

#Java #回溯 #組合問題開源學習資料 Feeling and experiences： 組合總和III：力扣題目鏈接找出所有相加之和為 n 的 k 個數的組合，且滿足下列條件： 只使用數字1到9每個數字最多使用一次返回所有可能的有效組合的列表。…

閱讀更多...

最新文章