Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Software detaljer:
Version: 3.3
Upload dato: 20 Feb 15
Udvikler: Martin Jericho
Licens: Gratis
Popularitet: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser er en open source, enkel, men kraftfuld bibliotek skrevet helt i Java.
Det giver programmører at manipulere og analysere dele af et HTML-dokument.
Jerich HTML Parser indeholder også højt niveau HTML-formular manipulation funktioner

Hvad er nyt i denne udgivelse:.

  • Fejlrettelser:
  • [3581664] CharacterReference.decode () ikke afkode enheder indeholder cifre - & frac12; & Frac14; & Frac34; & SUP1; & Sup2; & SUP3; & There4;
  • [3311286] SourceCompactor ikke respekterer TEXTAREA
  • [3519131] Renderer output forkert, når konstrueret med et Element objekt.
  • [3538829] Renderer produktion af font dekoration på blokgrænser forkert.
  • Segment.getAllStartTags (navn) og Segment.getFirstElement (navn) ikke fungere, hvis argumentet indeholder store bogstaver.
  • Slutningen skilletegn af en fælles server tag inde i en undsluppet server tag fejlagtigt anerkendt som afslutning separator af den flygtede tag.
  • ÆNDRINGER, der kan påvirke OPFØRSEL af eksisterende programmer:
  • [3427073] Segment.getStyleURISegments () indeholder nu typografielement indhold samt stil attributværdierne.
  • [3427927] Segment.getURIAttributes () nu omfatter arkiv attributter elementer objekt og applet.
  • Kommentarer ikke længere anerkendt inde script-elementer under fuld sekventiel parse. Tidligere blev de anerkendt for kompatibilitet med store browsere, men moderne browser adfærd har ændret sig.
  • Ændret logniveauet alle parsing fejl fra INFO for fejl, og log niveau Source.fullSequentialParse () rådgivende besked fra WARN til INFO. De tidligere niveauer gav rådgivende besked højere sværhedsgrad end parsing fejl, forhindrer loggingsystemer fra skjule rådgivende budskab samtidig viser parsing fejl. Tegnsæt advarsler uændret på WARN niveau.
  • Ændret adfærd Renderer.renderHyperlinkURL (StartTag) metode, således at de relative URL'er ikke gengives.
  • Ændret adfærd Renderer så indhold hyperlink element ikke gøres, hvis det er det samme som hyperlink URL, ignorerer enhver http:. // Præfiks eller / suffix
  • EndTag.tidy () nu fjerner mellemrum før det afsluttende beslag.
  • Tilføjet Source (File) konstruktør.
  • Tilføjet OutputDocument.getSegment () metode.
  • Tilføjet OutputDocument.remove (int begynde, int ende) metode.
  • Tilføjet Renderer.setHRLineLength () metode.
  • Tilføjet RenderToText.jsp webapp prøve.
  • Tilføjet Segment.getRowColumnVector () metode.
  • Kodning afsløring ignorerer nu almindelige kodninger er angivet i meta-tags, der har en kode enhedsstørrelse uforenelig med det foreløbige kodning.
  • Opgraderet til følgende logger API'er: slf4j-api-1.7.2, Log4J-1.2.17

Hvad er nyt i version 3.1:

  • Fejlrettelser:
  • [2793556] Infinite loop på Segment.getAllStartTags ()
  • Infinite loop på Segment.getAllElements ()
  • Segment.getFirst * metoder returnerede segmenter uden for afgrænsningsrammen segment.
  • Segment.getAllElements metoder vendte ikke tilbage alle lukkede elementer i nogle tilfælde.
  • Faste dokumentation fejl i Segment.getAllElements metoder.
  • Tilføjet StreamedSource klasse.
  • ÆNDRINGER, der kan påvirke OPFØRSEL af eksisterende programmer:
  • Ændret ParseText fra klasse til interface.
  • Segment.getNodeIterator () nu returnerer vandelskrav som separate noder.
  • Tilføjet tag søgemetoder baseret på attributværdi regulære udtryk.
  • Tilføjet tag søgemetoder baseret på HTML class attribut.
  • Tilføjet statisk Source.LegacyNodeIteratorCompatabilityMode ejendom midlertidigt at gendanne Segment.getNodeIterator () funktion til den for tidligere versioner.
  • Fjernet char [] baseret søgemetoder i ParseText.
  • Tilføjet CharacterReference.appendCharTo (kan tilføjes) metode.
  • Tilføjet OutputDocument (Segment) konstruktør.
  • Tilføjet StreamedSourceCopy prøve programmet.

Hvad er nyt i version 3.0:

  • Fejlrettelser:
  • vandelskrav, der repræsenterer unicode supplerende tegn ikke afkodes korrekt til UTF-16 kode enhed par.
  • [2188446] Element.getDepth () og Element.getParentElement () returnerede forkerte resultater, hvis tilkaldt parse on demand-tilstand.
  • Kommentarer er nu anerkendt inde & lt; script & gt; elementer.
  • API ændringer, som ikke bagudkompatible:
  • Ændret pakkenavn at net.htmlparser.jericho
  • attributværdier skal nu være String stedet CharSequence.
  • fjernet alle forældede metoder / klasser fra tidligere versioner.
  • Alle finder * metoder frarådede til fordel for få * metoder for at anvende en ensartet navngivningskonvention på tværs af alle tag søgemetoder.
  • tag, Element og HTMLElements klasser ikke længere gennemføre HTMLElementName interface. (Brug statisk import i stedet)
  • Alle samlinger nu stongly indtastet ved hjælp generiske lægemidler.
  • Ændret FormControlOutputStyle klasse til enum.
  • Ændret FormControlType klasse til enum.
  • Tilføjet CharStreamSource.appendTo (kan tilføjes) metode.
  • Tilføjet Source.iterator () metode.
  • Kilde nu implementerer Iterable.
  • Internt bruger StringBuilder for bedre ydelse.
  • Tilføjet Source.getNextStartTag (StartTagType) metode.
  • Tilføjet Source.getNextEndTag (EndTagType) metode.
  • Tilføjet Source.getPreviousStartTag (StartTagType) metode.
  • Tilføjet Source.getPreviousEndTag (EndTagType) metode.
  • Tilføjet Segment.getAllStartTags (StartTagType) metode.
  • Tilføjet alle Segment.getFirst * metoder.
  • Tilføjet Renderer.renderHyperlinkURL (StartTag) metode.
  • Tilføjet HTMLSanitiser prøve programmet.
  • Opgraderet til slf4j-api-1.5.6

Krav :

  • Java 2 Standard Edition Runtime Environment

Lignende software

Andre software developer Martin Jericho

Kommentarer til Jericho HTML Parser

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!